Александр Садовский: «Палех умный. Будь как Палех!»

promitei96

Местный
Регистрация
4 Ноя 2016
Сообщения
300
Реакции
673
12481952.jpg


Доклад Александра Садовского на открывшейся сегодня
У Вас недостаточно прав для просмотра ссылки. Войдите или зарегистрируйтесь.
был посвящен Палеху — новому алгоритму ранжирования Яндекса. В своем выступлении руководитель поисковых сервисов Яндекса подробно описал механизм работы нового алгоритма.

Paleh_S_1.jpg


Нейросети для эффективного обучения нужны примеры, как положительные, так и отрицательные.

Наивный подход – это когда в качестве положительных примеров используются кликнутые документы, а в качестве отрицательных – документы без клика. Дело в том, что отсутствие клика далеко не всегда свидетельствует о том, что документ нерелевантен. Справедливо и обратное утверждение — наличие клика не гарантирует релевантности документа.

Простой пример:

Paleh_S_2.jpg


А пользователь искал расшифровку РНО – «работа над ошибками».

Яндекс научился находить верные примеры. По версии Яндекса положительными примерами являются те, где модель предсказывает, что пользователь задержится на сайте долго или «останется там навсегда» (шутка). Метрик, говорящих об удовлетворенности пользователя на самом деле много. Стратегия выбора отрицательных примеров тоже была изменена. Для достижения главной цели – понимания семантической близости, хорошими отрицательными примерами являются такие документы, которые гарантированно нерелевантны запросу, но при этом помогают нейронной сети лучше понимать смыслы слов.

Это:

• Случайные документы
• Случайные документы с включением слов запроса
• Hard negative mining

В основе Палеха лежит нейронная сеть. Если сравнить эффективность нейронной сети и простого текстового фактора, основанного на соответствии слов запроса и текста, bm25 для нечетких запросов, то можно увидеть следующие результаты (для информационных запросов):

Paleh_S_3.jpg


Для коммерческих:

Paleh_S_4.jpg




Paleh_S_5.jpg


Оказалось, что для BM25 переформулировка запроса превращается в настоящую катастрофу — фактор становится нулевым на релевантных заголовках. А Палех демонстрирует отличную устойчивость к переформулировке: релевантные заголовки по-прежнему имеют высокое значение фактора, а нерелевантный заголовок — низкое.

Но надо помнить, что цель разработчиков поиска Яндекса состоит не в том, чтобы обогнать BM25, а в том, чтобы добиться улучшения на фоне всего множества ранее внедренных факторов и моделей ранжирования.

Александр также сообщил, что алгоритм Палех применяется абсолютно ко всем типам запросов, ко всем регионам и языкам.

Эффективность Палеха – pFound1+1,6% (на запросах длинного хвоста)

Он также сказал, что изменения трафика, которые в последнее время могли наблюдать вебмастера, в том числе могут быть результатом работы Палеха.

Алгорим Палех эффективно работает абсолютно во всех областях и тематиках, исключение составляет только поиск цитат.

Paleh_S_7.jpg
 
Назад
Сверху