Что такое релевантность поиска и как она рассчитывается?

Знаете ли вы, что, по данным исследования американской компании Forrester, 68 % покупателей не вернутся на сайт, где плохо работает поиск? А это самая «горячая» аудитория. Портал Webinar Care подсчитал, что пользователи, использующие поиск, покупают в 2,4 раза чаще. Они уже нацелены на покупку, знают, что им нужно, продавцу осталось только дать это.

Что такое релевантность поиска?

Это соответствие поисковой выдачи запросу пользователя. Когда человек вводит в строку поиска, например, «метафорические карты», он ожидает увидеть в подборке именно это. Если перед ним на странице вперемешку гадальные карты, таро и скандинавские руны, поиск нерелевантный.

Но как поисковая система понимает, что именно нужно пользователю и чем отличаются таро от метафорических карт? И как научить ее считывать контекст запроса и выдавать максимально точный ответ?

Для повышения релевантности используют алгоритмы глубокого обучения. Развитие технологий Big Data и ИИ позволяют компьютерам «думать» и анализировать информацию практически на уровне человека. Выигрывают обе стороны: пользователи получают искомое с первого раза, а компании повышают продажи.

Где особенно важна релевантность поиска?

E-commerce — бизнес в сети в значительной степени зависит от того, нашел ли клиент нужный товар/услугу или нет.
Поиск работы и персонала — и для кандидата, и для рекрутера очень важно получить наиболее точный ответ на свой запрос по главным критериям: квалификация, образование, уровень заработной платы, местоположение.
Образование и наука — при сборе материала для курсовой работы, диссертации или научной статьи критически важно найти точную ссылку на исследования с подтвержденными данными.

Поисковая система ранжирует результаты по релевантности. Обычно пользователь просматривает первые 4–5 ответов, переходит на подходящую страницу и игнорирует все остальное.

Как оценивают качество ранжирования поисковых систем?

NDCG (Normalized Discounted Cumulative Gain) — метрика оценки и сравнения качества работы различных алгоритмов и моделей ранжирования, один из самых популярных инструментов. Выражается числом в диапазоне от 0 до 1, где 1 означает идеальное попадание в запрос, а 0 — полное несоответствие. Идеальная поисковая система показывает ответы, отсортированные по оценке NDCG от самой высокой к самой низкой.

Например, если ввести запрос «разметка данных» в строку поиска на сайте https://trainingdata.solutions/journal, вы увидите следующую подборку:

1. Разметка данных. Статья от специалистов компании Training Data Solutions — оценка релевантности: 1.

2. Разметка данных: кейс Chat GPT — оценка релевантности: 0,9.

3. Слабая разметка — оценка релевантности: 0,8.

4. Разметка данных Human pose estimation — оценка релевантности: 0,7.

5. Как получать высокое качество размечаемых данных. Журнал TRAINING DATA — оценка релевантности: 0,6.

Идеальные результаты для этого запроса — первые три с релевантностью 1, 0,9, 0,8.

Для расчета NDCG по формуле DCG / IDCG нам необходимо сначала рассчитать DCG (Discounted Cumulative Gain) и IDCG (Ideal Discounted Cumulative Gain).

Исходя из значений релевантности элементов (1, 0,9, 0,8), DCG может быть рассчитан следующим образом:

DCG = 1 + 0,9/log2(1 + 2) + 0,8/log2(1 + 3)

= 1 + 0,9/log2(3) + 0,8/log2(4)

≈ 1 + 0,9/1.585 + 0,8/2

≈ 1 + 0,567 + 0,4

≈ 1,967

Теперь рассчитаем IDCG, используя идеальные значения релевантности в порядке убывания:

IDCG = 1 + 0,9/log2(1 + 1) + 0,8/log2(1 + 2)

= 1 + 0,9/1 + 0,8/1,59

= 1 + 0,9/1 + 0,5025

= 1 + 0,9 + 0,5025

≈ 2,4025

Наконец, NDCG может быть рассчитан путем деления DCG на IDCG:

NDCG = DCG / IDCG

= 1,967 / 2,4025

≈ 0,81

Таким образом, NDCG для данных элементов с релевантностью 1, 0,9 и 0,8 составляет примерно 0,81. Это достаточно высокая оценка работы поисковой системы.

Внешние и внутренние критерии

При оценке релевантности поиска с применением методов машинного обучения выделяют внешние и внутренние критерии.

Внешние — то, как пользователи взаимодействуют с поисковой системой. По ним можно определить, насколько результаты отвечают запросу. Среди них, например:

Частота кликов (Click-through rate, CTR) — сколько раз ссылку показали пользователям и сколько из них перешли по ней. Чем выше, тем точнее результат.
Длительность сессии — после того, как пользователь перешел на нужную страницу из результатов поиска, сколько времени он провел на ней?
Образование и наука — при сборе материала для курсовой работы, диссертации или научной статьи критически важно найти точную ссылку на исследования с подтвержденными данными.

Внутренние критерии связаны с работой алгоритмов машинного обучения. Это:

Точность (Precision) — доля документов, действительно релевантных для данного запроса, среди всех найденных.
Полнота (Recall) — доля правильно найденных документов среди всех релевантных для данного запроса.
F-мера (F-Measure) — гармоническое среднее между точностью и полнотой, объединяющее их в одну метрику.

На примере: предположим, у нас программа-диагност с ИИ, которая ищет злокачественные опухоли на снимках УЗИ. Точность покажет, сколько из подозрительных по мнению ИИ опухолей действительно оказались злокачественными. Полнота — какую долю злокачественных опухолей удалось выявить.

Далее эти критерии используются для оценки и оптимизации моделей машинного обучения, чтобы повышать релевантность поиска.

Релевантность поиска