Поисковые системы в Интернете: проблемы и тенденции развития

О тенденциях развития услуги поиска в Интернете, о новшествах в этой области, а также о проблемах, связанных с ростом применения поисковых систем, рассказывает Александр Садовский, руководитель отдела веб-поиска компании «Яндекс».

КомпьютерПресс: Каковы, на ваш взгляд, основные тенденции развития современных поисковых систем и технологий поиска?

Александр Садовский: Уже сегодня отчетливо видны три тенденции.

Во-первых, изучение истории запросов и поведения сайтов. Когда появилась страница или ссылка? Какие запросы задавал пользователь раньше? Какие результаты он выбирал? Анализ данных такого рода позволяет сделать поиск более точным и лучше различать настоящие и спамерские страницы.

 

Александр Садовский, руководитель отдела

Александр Садовский, руководитель отдела
веб-поиска компании «Яндекс»

Во-вторых, попытка более глубоко использовать социальную структуру Интернета. Анализ ссылок, который дал новое качество веб-поиску 5-7 лет назад, сошел на нет из-за деструктивных действий поисковых спамеров. Поисковые системы ищут другие источники социальных знаний. Например, Yahoo! анонсировало MyWeb 2.0 — проект, в котором пользователи могут сохранить понравившуюся страницу, пометить ее тэгом, запретить в поиске плохой документ. Yahoo! планирует использовать «ручную» работу пользователей для улучшения качества поиска.

В-третьих, более глубокий анализ текстов и запросов. Какая фактологическая информация встречается в тексте страницы (имена и фамилии, адреса и телефоны, цены и пр.)? Как классифицировать тип и жанр текста на странице? Что на самом деле хотел узнать человек, задавая в запросе конкретное словосочетание?

Чем лучше удастся понять, о чем спросил пользователь и что представляет собой текст страницы, тем точнее будет ответ. Кроме того, факты помогают кратко описать найденные результаты. Например, Яндекс.Новости (с вашего позволения, я буду ссылаться на решения компании «Яндекс» просто потому, что они мне лучше известны) показывают список персон, упомянутых в текстах новостей, что позволяет быстрее понять смысл сообщения или новостного сюжета.

Существуют также модные направления, которым, как правило, подвержены стартапы и молодые поисковые системы — это тематическая кластеризация результатов (Grokker, Clusty и др.) и повышенная настраиваемость настроек и интерфейса (A9 позволяет подключить любые OpenSearch-поиски и жонглировать колонками результатов). Более «великовозрастные» поисковики этим не увлекаются — опыт показывает, что все это востребовано очень небольшой частью аудитории.

КП: Бурный рост количества ресурсов, доступных пользователям Интернета, привел к тому, что зачастую оказывается практически невозможно отыскать редкий узкоспециализированный ресурс. Какими вам видятся возможные решения этой проблемы?

А.С.: Узкоспециализированные ресурсы прекрасно находятся со времен появления поиска в Интернете — на таких страницах используются редкие термины, по которым количество результатов поиска небольшое. Конечно, всегда может оказаться, что конкретная поисковая машина не проиндексировала тот или иной сайт, который уникален для какой-то очень узкой темы. Тогда, зная, что тема узкая, надо использовать для поиска разные средства. Многочисленные исследования, например Лоуренса и Гиля, показывают, что даже самая полная база одной поисковой системы охватывает не более 40% открытой части веба. Поэтому Яндекс с незапамятных времен в результатах поиска предлагает повторить запрос в других поисковых системах — именно на такой случай.

КП: Что нового, на ваш взгляд, может появиться в сфере применения Интернета как бизнес-инструмента в ближайшие несколько лет?

А.С.: Интернет становится повсеместным и уже сейчас наблюдается качественный скачок в его использовании. Растет класс потребителей, которые покупают некоторые товары только в Интернете, и производители товаров не могут «достучаться» к ним иным образом. Причина понятна — качество решений, принимаемых на основе просмотра сотен предложений и отзывов, существенно выше, чем решение обывателя, не имеющего доступа в Интернет. Количество информации в вебе растет такими темпами, что на наших глазах рождается новый миф: если этого нет в Интернете, значит этого нет нигде.

Рост числа предложений и объема информации делает все более востребованными агрегаторы информации — конечно, если они не механически объединяют данные, а привносят дополнительное качество, позволяющее решать задачи быстрее и лучше. Были новостные сайты — появились Яндекс.Новости с автоматической кластеризацией сюжетов и показом новостной картины дня. Даже когда пользователям известны хорошие новостные сайты, они, как правило, начинают поиск с Яндекс.Новостей, уже там выбирая сообщения любимых источников. Этот пример — не про бизнес, но следующий уже вполне коммерческий.

Были магазины — их предложения объединил Яндекс.Маркет, который стал универсальным сервисом для тех, кто хочет приобрести товар или услугу, не потеряв при этом время и деньги. На Маркете можно найти, выбрать и сравнить товары и цены на них, а технология Яндекс.Гуру позволяет выбирать сложные товары, не углубляясь в технические детали. Каждый месяц более полутора миллионов человек выбирают на Маркете товары из полутора миллионов предложений от 800 электронных магазинов.

Кроме того, Интернет продолжает упрощать бизнес-коммуникации. Мобильные устройства и технология Wi-Fi позволяют всегда быть на связи, ЭЦП помогает (пока еще, к сожалению, не в России) избежать бумажного документооборота.

КП: Сейчас в моде такая услуга, как размещение в результатах поискового запроса рекламных блоков, содержание которых зависит от поискового запроса. Каково дальнейшее возможное направление развития подобных услуг в ближайшие годы?

А.С.: Эта услуга называется поисковой рекламой. Ее востребованность объясняется не модой, а высокой эффективностью и возможностью выйти на целевую аудиторию даже для самых экзотических товаров и услуг. Развивается она в трех направлениях.

Первое — повышение результативности, с точки зрения рекламодателя. Его конечная цель — получить прибыль с продаж, отсюда появляется задача помочь потратить выделенный на рекламу бюджет с максимальной эффективностью, в частности определить, по каким запросам какие объявления для каких товаров имеют максимальный ROI (Return On Investment — окупаемость инвестиций).

Второе — увеличение возможных площадей для показа рекламы. По коммерчески привлекательным запросам за потенциального покупателя уже сегодня соревнуются десятки рекламодателей, и их число постоянно растет. Рекламная сеть Яндекса и показы рекламы на партнерских сайтах нацелены на решение именно этой задачи.

Третье — упрощение работы рекламодателя за счет инструментов, позволяющих автоматически отсечь неэффективную рекламу и следить за бюджетом, а также за счет организационных решений, дающих возможность даже неопытному рекламодателю получить высокую отдачу от своих вложений (в Яндексе, например, это тариф «Беззаботный» — возможность бесплатно получить помощь квалифицированного специалиста). Важно, чтобы поисковая реклама всегда оставалась не менее релевантной, чем результаты поиска.

КП: Насколько эффективно поисковая машина противодействует недобросовестной «профессиональной оптимизации» сайтов?

А.С.: Как записано в «Лицензии на использование поисковой системы Яндекса», «Яндекс понимает релевантность как наилучшее соответствие интересам пользователей, ищущих информацию, что в общем случае может не совпадать с интересами авторов сайтов». Эвфемизм «недобросовестная профессиональная оптимизация» скрывает за собой некрасивые действия — поисковый спам, то есть ухудшение результатов поиска для пользователя. Поэтому мы вынуждены бороться со спамом. Насколько успешно мы это делаем, оценивать уже не нам, а пользователям.

По статистике многих поисковых систем, доля спама среди новых страниц за пару последних лет выросла вдвое, но в результатах поиска доля спама увеличивалась гораздо медленнее. Яндекс использует как автоматические методы обнаружения и запрета спама, так и ручные (обработка жалоб). Конечно, автомат вылавливает в 5-10 раз больше спама, чем это могут сделать люди. Зато люди находят образцы новых видов спама, на которых разработчики тренируют автомат и совершенствуют методики отлова.

КП: Какие советы вы можете дать разработчикам веб-страниц для более уверенной индексации сайтов в вашей поисковой системе?

А.С.: Вот несколько простых советов:

  • если при создании сайта вы используете JavaScript и Flash, то подумайте и о пользователях со старыми браузерами, то есть не поленитесь сделать текстовый вариант сайта — ведь поисковый робот в первую очередь обращает внимание на тексты;
  • запретите в файле robots.txt (Robots.txt — файл, расположенный в корневом каталоге веб-сайта и содержащий набор ограничений для средств индексирования страниц поисковыми системами (поисковых роботов)) — индексацию страниц, неинтересных пользователям, таких как формы ответа на форуме, статистика посещений, сайты-зеркала, документы на не распространенных в Рунете языках, — тогда робот не будет тратить на них время, а быстрее сможет переиндексировать именно важные страницы;
  • структура сайта должна быть иерархической и сбалансированной, то есть не должно быть важных страниц, которые можно найти по ссылкам лишь за 5-7 кликов. Создайте карту сайта, где есть ссылки на все страницы сайта;
  • сервер должен выдавать роботу корректные заголовки ответа, в том числе сообщения об ошибках, причем заголовки должны соответствовать стандартам RFC (Request For Comment — набор документов, в которых опубликованы все стандарты Интернета, а также предлагаемые неофициальные стандарты и общепринятые идеи);
  • каждой уникальной странице сайта по возможности должен соответствовать только один URL. Генерация URL с незначащим параметром (например, ID пользовательской сессии) может замедлить индексацию сайта.

КП: Какие советы вы можете дать пользователям для повышения эффективности поиска?

А.С.: Будьте проще. Не пытайтесь описать свою потребность в запросе полностью, поисковая машина никогда не станет психотерапевтом. Просто назовите объект поиска в запросе: [экслер], [спорт экспресс] или [работа]. Не нужно писать [сайт писателя Алексея Борисовича Экслера] или [высокооплачиваемая работа в офисе].

Если задача — найти редкий текст, представьте себе, как выглядит идеальный ответ и какие слова он содержит. Задайте эти слова в качестве запроса.

Предположим, вы хотите найти скорость, с которой летает сокол-сапсан. Задайте запрос [сокол сапсан летает «км/ч»]. Яндекс умеет давать хорошие ответы и на запросы вида [что такое перцепция], [кто такие Нибелунги], [как будет по-французски булка] и даже [Бетховен та-да-да-да — это что?], но понимание, что именно вы хотите найти, полезно, даже если вы решите оставить запрос на естественном языке.

Яндекс уже шесть лет проводит Кубок по поиску (http://kubok.yandex.ru/), и наблюдение за лучшими игроками показало, что они задают запросы, похожие на запросы других пользователей, но при этом умеют быстро выбирать правильные документы среди найденных, лучше «читают». Учитесь наблюдать за поисковой системой, ее реакцией на ваши запросы, и она обязательно ответит вам взаимностью!

КП: Большое спасибо за ответы на наши вопросы. Мы желаем вашей компании успехов, новых идей и их удачной реализации!

 

Интервью подготовили Наталия Елманова и Олег Татарников.

КомпьютерПресс 2'2006


Наш канал на Youtube

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует