Лингвистика и поисковые подсказки

Человек, вводящий запрос в поисковик, приводит в действие лингвистический алгоритм. Программа с первых букв начинает угадывать возможные последовательности букв, выводя подсказки. Составление алгоритма начала ввода запроса — задача целой команды поиска.

Запросы часто начинаются стандартно. Человек набирает привычное «купить», «цена» или «смотреть». Подобный набор слов поиск предугадывает хорошо, выдавая соответствующие подсказки.

Следующий этап, воспользоваться знанием интересов человека. Это дает статистика его «странствий» в Интернет. Любителю, например, соцсетей, введшему букву «в», естественно предложить слово «ВКонтакте». Если человек меломан, то под начальной «в» может быть, например, «Виктор Цой». Сейчас запросы дифференцированы по 400-стам интересам, разбитым на кластеры. Каждый кластер — это определенный способ демонстрации результатов.

poiskovye podskazki

Оказав человеку помощь в наборе запроса, поисковик начинает разбираться с языком запроса. Здесь лингвистика учитывает разницу набора символов, которыми обладает язык. Например, в украинском есть буква «і». Кроме того, есть IP-адреса, подсказывающие местоположение человек. Человек может заходить в поисковик в раздел своего языка. Это дает информацию, которая помогает формировать выдачу на нужном языке.

Иногда люди понимают, например, украинский и русский. Это учтено в проекте Яндекса «Суржик». Он выдает ответы, не фильтруя их по языковому признаку. Подобный проект был запущен годом позже командой Google для английского и испанского.

Краткость запроса создает дополнительные трудности, что усугубляется опечатками. Использование в запросе английских букв, не означает однозначно, что человек желает получить выдачу на английском. Как пример, «Facebook». Российский пользователь наверняка не ждет английских ссылок. Частенько испанские песни набирают английскими буквами, а испаноязычный запрос может требовать английскую выдачу.

Чтобы понять запрос, надо использовать множество вариантов его интерпретаций и переформулировок, учесть небрежность выражения мысли и ввести корректировку. Кроме того, есть области, которые заведомо неинтересны данному человеку, что следует учесть, осмысливая запрос.

Информационный массив, который возникает при вводе запроса характеризуется 150-ю миллионами гипотез. Его статистическая обработка сужает круг до сотни миллионов. Дальше начинают работать автоматические целевые методы, позволяющие узнать истинное желание вопрошающего.