Об этом начинании, которое обещает стать революционным в отрасли, мы поговорили с Евгением Бибилюровым, директором департамента IT туроператора UTS Group.
- Известно, что любая эффективная инновация исходит из реальной бизнес-проблемы. Как можно описать ту проблему, которую вы пытаетесь решить с помощью нейросетей?
– Не секрет, что участники рынка business travel часто сталкиваются с проблемой несоответствия данных по отелям от каждого из поставщиков. И если счёт по поставщикам может идти на десятки или даже сотни, то количество отелей в десятки тысяч раз больше. Судите сами: сейчас в базе Hotelbook – около 2 млн. неуникальных объектов от десятков поставщиков, если же говорить только об уникальных – их порядка 1 млн. Как мы понимаем из этой пропорции – 50% информации – это совпадения.
Информация об отелях меняется постоянно и ее надо отслеживать: меняются описания, звездность, названия, геолокационные данные, цены. Были случаи, когда отели в нашей базе внезапно меняли даже свой реальный адрес.
При этом все эти изменения зависят от множества источников и факторов – и информацию об одном и том же отеле, которая имеется в базах данных наших поставщиков, необходимо сопоставлять («матчить»), проассоциировать между собой и привести к единому актуальному формату. Это довольно сложно.
Так, многие отели сами загружают свой контент через личные кабинеты в системе поставщика, разные поставщики имеют разный формат отображения этой информации. Время и периоды обновления баз данных у различных поставщиков также различаются, протоколы, по которым Hotelbook синхронизируется с ними, также могут быть самыми разными – от интеграции по API вплоть до выгрузки всего контента с сервера.
– Но ведь вся эта проблематика известна давно. Как с этим справлялись до этого?
- Изначально, на первом этапе развития системы Hotelbook мы решали задачу сопоставления повторяющейся информации об отелях вручную: это успешно делали 1-2 сотрудника. Затем, по мере расширения пула поставщиков и резкого увеличения объема информации, задача поддержания качества данных резко усложнилась.
Тогда мы внедрили разработанное собственными силами программное решение, которое по определённому алгоритму сопоставляло информацию об объектах в полуавтоматическом режиме. И всё равно самые рисковые позиции, где наш «робот» не мог определить близкую к 100% вероятность совпадения, оставались на ручной обработке – это где-то 60% позиций.
С ростом количества поставщиков и размерности нашей базы отелей, затраты на совершенствование «робота» и привлечение дополнительных сотрудников к ручному сопоставлению становились всё выше – и достигли существенной суммы.
С этим надо было что-то делать – учитывая, что в 2017г. Hotelbook добавил 15 новых поставщиков, а далее мы планируем добавлять не менее 20 новых поставщиков в год. Для понимания масштаба этой Big Data: у каждого из них – от 30 до 200 тыс. новых отелей в базах.
- Как вы пришли к идее использовать для этого инструментарий, связанный с нейросетями и почему?
- На одной из конференций в ходе обсуждения с коллегами мы пришли к выводу о необходимости попробовать применить классическую нейросетевую модель к процессу матчинга отелей в нашей базе данных. Попробовав несколько фреймворков, мы поняли, что использование этой модели будет у нас эффективным.
Нейросети было на чём обучаться: фактически, мы уже располагали путём от «хаоса» к «идеальному» состоянию отелей в базе – причём, что очень важно, весь этот путь протоколировался до деталей (кто, когда и зачем вносил изменения).
Осознав свой задел, мы привлекли к разработке численной модели российских математиков, у которых был опыт в этой области, специалистов по Machine Learning и нейросетям.
Для обеспечения потребностей разработчиков мы арендовали дата-центр с серверами принципиально новой для нас комплектации, которая также используется для рендеринга видео. Сейчас мы думаем над приобретением собственного оборудования этого класса.
– Насколько быстро был создан рабочий вариант решения? Что делает сейчас нейросеть с отельной базой?
– После консультаций со специалистами мы решили использовать для программирования Python и прочие специализированные фреймворки. База данных – PostgreSQL.
Сейчас мы находимся на этапе подготовки к первому «прогону» по необработанным массивам. В настоящий момент команда специалистов UTS сопоставляет предложенные варианты каждого из поставщиков, и получив разностный контент, мы выберем самое лучшее и стандартизируем к одному виду.
Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации (приводя все описания к единому стандарту). Описание отелей будет стандартизировано не только в части текста, но и в части графики (планируем использовать внешний сервис, который классифицирует фотографии отелей и номеров на хорошие и плохие), и в части исправления у объектов геолокационных координат для верного размещения на картах.
Нейросеть обрабатывает весь массив не-стандартизованных исходных новых данных и в части текстовой информации, графики и в части исправления у объектов геолокационных координат для верного размещения на картах.
Кроме этого, нейросеть также будет извлекать и новые знания из текстовых описаний, созданных самими отдыхающими. То есть, нами, в том числе, будет реализован поисковый механизм для сбора и накопления наилучшего описательного контента из авторитетных и проверенных источников с последующей стандартизацией и постоянной поддержкой в актуальном состоянии.
В итоге, ручной труд останется только для того, чего нейросеть «не поймёт» – это не более 1% контента.
- А типы номеров в отелях будут приводиться к единому стандарту?
- Вы уже забегаете вперёд: это уже второй запланированный этап нашего проекта. Этим летом стартует первая волна реализации – по матчингу новых отелей, корректировке атрибутов и обогащению описаний отелей, для формирования так называемых паспортов отелей.
Запуск уже «обученной» нейросети в полномасштабную эксплуатацию мы планируем на сентябрь-октябрь 2018г. Вторая волна – это как раз работа с базой номеров – будет закончена, по нашим расчетам, к февралю-марту 19- года.
Дело в том, что номера как сущности не могут «висеть в пустоте». Для того, чтобы привести все описания номеров к нашему единому стандарту, нам нужно, чтобы они были привязаны к конкретному отелю.
Поэтому – всё по порядку: сначала нейросеть «приведёт в порядок» весь корпус сведений об объектах размещения, включая географические данные, затем – массив информации по номерам (описательная часть, названия, фотографии). Это тоже очень важно – сейчас структурированной группировки номеров у нас нет, у разных поставщиков могут быть разные описания и названия одного и того же номера в одном и том же отеле.
- Есть ли уже какие-то подсчёты, каков по объему будет экономический эффект от реализованного проекта для UTS Group?
- По предварительным подсчётам, после запуска и внедрения этой системы, экономия бюджета будет составлять минимум 7-8 млн. руб. в год – даже с учётом издержек. Мы минимизируем риск незаселения человека в другой отель или номер, полностью исключим ручной труд при обработке контента и тем самым оптимизируем свои издержки, в том числе, временные (в частности, работа по добавлению поставщика будет занимать не более 2 минут).
Второй эффект – репутационный. Для нас важно также и то, что каждому нашему клиенту будет доступен более качественный контент – и текстовый, и графический, и с точки зрения возможности выбора лучшей цены на объекты. Соответственно, нашим партнёрам будет проще при интеграции с нами выстраивать свои модели динамического ценообразования, управлять маржой и т.п.
Наконец, при подключении разных поставщиков, нашему партнёру не придётся проходить тот же самый путь, который проходили мы. Ну и, наконец, решение, как мы думаем, не только окупит себя, но и принесёт прибыль в будущем.
- Каким образом?
- Мы не без основания рассчитываем, что разработанный нами IT-инструмент не останется внутри компании, а, скажем так, «пойдёт в народ»: в этом мы видим залог его монетизации в будущем. Рабочая модель, как мы полагаем, пригодится и другим игрокам business travel, и компаниям из смежных областей.
Располагая готовым решением и своими вычислительными мощностями, мы можем предлагать им использовать его в самых различных вариантах.
- Всё это крайне интересно. Вы становитесь IT-компанией с туроператорской лицензией. Можно ли анонсировать ещё какие-либо планы UTS по развитию новых технологий для бизнеса?
- Сейчас в компании мы прорабатываем идею использования технологии blockchain для создания единой бонусной программы для партнеров. Идея состоит в том, чтобы создать собственную криптовалютную систему для бизнеса, которая бы объединила UTS-рубли и «пряники» Hotelbook.
Пока что существующие на рынке решения «сыроваты», поэтому сейчас мы проводим экспертизу для создания своей собственной разработки. Нам уже удалось выяснить возможные уязвимости и «узкие места» подобного класса решений, ясен порядок инвестиций, необходимые мощности. В настоящий момент мы закладываем архитектуру этого решения, и думаю, вскоре мы с вами поговорим о нём более подробно.
Ремарка
IT-технологии в туризме не стоят на месте: АТОР и Фонд «Сколково» приглашает всех профессионалов к участию в первом всероссийском конкурсе IT-решений для турбизнеса. Победителям предоставится возможность стать резидентом «Сколково» по упрощенной процедуре и претендовать на мини-грант до 5 млн. руб. Заявки принимаются до 6 августа 2018г. Подробности - здесь.
По материалам АТОР