Настоящее и будущее Интернета и поисковых систем
Бурное развитие Интернета и связанных с ним технологий внесло в нашу жизнь массу изменений многие уже не мыслят своего существования без предоставляемых Сетью многочисленных услуг, в том числе без такой важной, как поиск. О том, каково состояние технологий поиска сегодня и как они будут развиваться в ближайшем будущем, а также о проблемах, связанных с быстрым ростом объема доступной в Интернете информации, рассказывают гости нашего журнала Денис Калинин, генеральный директор «Рамблер Интернет Холдинг», Дмитрий Хрусталев, директор по развитию «Рамблер Интернет Холдинг», и Владислав Шабанов, руководитель проекта «Рамблер поиск».
КомпьютерПресс: Каковы, на ваш взгляд, основные тенденции развития современных поисковых систем и технологий поиска?
Денис Калинин: Компании, разрабатывающие поисковые системы, стремятся увеличить эффективность поиска в сети Интернет. Количество доступной информации огромно, объем документов постоянно растет, и одновременно увеличивается количество запросов пользователей. Требуется не просто успевать вести разработки во всех областях, но и делать это с минимальными затратами. Одна поисковая система отличается от другой объемом баз данных, методами выборки документов и отбора их по релевантности. Есть, конечно, много других, не столь значительных различий в развитии поисковых систем, но это основные.
Денис Калинин, генеральный директор «Рамблер Интернет Холдинг»
Если говорить о поиске в сети Интернет, то основными направлениями развития в этой области можно считать комментирование, автоматическую рубрикацию в зависимости от содержания, возможность внедрения поиска в информационные и другие сервисы, предоставляемые компанией. Современная тенденция развития поисковых систем деление по тематическим разделам, которое позволяет справиться с лавинообразным ростом ресурсов и информации.
Владислав Шабанов: Сейчас модно говорить про Web 2.0. Что это такое? Это совокупность элементов пользовательского интерфейса, а также идеология организации системы и работы средств поиска, направленная на то, чтобы пользователи работали коллективно и помогали друг другу. Пример тому универсальная энциклопедия Wikipedia. Любой желающий может написать статью, а дальше сообщество начинает обсуждать этот материал, комментировать, критиковать. В общем, либо принимает статью, либо не принимает. Получается, что группы людей участвуют в работе сервиса и помогают ему работать лучше. В проекте Yahoo! My Web пользователи одни документы комментируют, а другие удаляют. И если я доверяю какому-либо участнику проекта, то могу воспользоваться его настройками, а значит, этот человек фактически будет помогать мне работать с поиском.
Владислав Шабанов, руководитель проекта «Рамблер поиск»
Я считаю, что современные тенденции развития поиска это, во-первых, персонализированный поиск, а во-вторых, взаимопомощь тех, кто ищет. Пару лет назад мы в Рамблере внедрили разработку, которая позволяет данным посещаемости страниц Top 100 влиять на ранжирование результатов поиска. То есть при поисковом запросе первая пятерка Top 100 по запрошенной тематике выходила в результатах поиска на первые места. Мы ранжировали сайты по посещаемости. Это был только первый шаг. Затем мы стали учитывать коэффициент посещаемости при ранжировании. Если данный коэффициент приближается к нулю, значит, сайт никому не интересен, а если число близко к миллиону страница очень популярна и авторитетна.
Идея Web 2.0 как раз и заключается в том, что пользователи сервиса сами улучшают его. Получается, что информация о том, насколько активно пользователи Интернета посещают те или иные страницы, помогает нам выбрать лучшие сайты и показать их другим пользователям. Еще одна точка соприкосновения Рамблера с технологией Web 2.0 это сервис «Ассоциации». Данный сервис основан на анализе того, как пользователь осуществляет поиск. То есть программа анализирует то, что делает пользователь при поиске (какие вводит запросы), и подсказывает другим более продуктивные варианты поиска.
Следующий шаг в применении поисковых машин автоматическое выявление знаний. В Рамблере придумали и разработали программу «Эврика». «Эврика» использует всю массу текстов плюс информацию о том, какие новые тексты появляются в Сети, анализирует их, сравнивает и сама выявляет новые темы. Получается, что «Эврика» работает с беспорядочными, абсолютно неструктурированными потоками информации. Человек, глядя на страничку, понимает, что вот эта колонка навигация, потому что она выделена цветом и содержит разделы сайта, а вот та колонка допустим, календарь. А поисковым программам, проще говоря роботам, трудно определить, где на странице находятся новости, а где информация о товарах или форум. И для того, чтобы программа научилась это делать, придется затратить массу усилий, поскольку формальных признаков принадлежности фрагмента страницы к определенному типу информации не существует язык, на котором написана страница, использует одни и те же символы и в описании таблиц навигации, и в описании таблиц новостей.
Задача отличить основные темы страницы от суррогатной информации сейчас весьма актуальна. Основные направления развития современных поисковых машин: автоматический анализ текстов на страницах, выявление каких-либо более глубоких видов знания, нежели простое понимание того, что на странице содержатся слова, отделение дизайна от содержимого.
КП: Бурный рост количества ресурсов, доступных пользователям Интернета, привел к тому, что зачастую оказывается практически невозможно отыскать редкий, узкоспециализированный ресурс. Какими вам видятся возможные решения этой проблемы?
Дмитрий Хрусталев: Чтобы находить необходимое, надо стремиться к поиску в предметных областях и помогать пользователям четко формулировать поисковые запросы. Поиск это, образно говоря, коробка, в которую упакован Интернет для пользователя. Пользователь спрашивает, а Интернет посредством результатов поиска ему отвечает. Хотя, конечно, проблема, о которой вы говорите, существует. Вот, например, когда несколько лет назад я искал какой-то фильм, то немедленно находил его демонстрационный ролик и информацию о производителе, а сейчас я обнаруживаю, что десять тысяч магазинов хотят этот фильм мне продать. При этом очень часто от этих магазинов нет никакой пользы, поскольку все они находятся за рубежом.
Дмитрий Хрусталев, директор по развитию «Рамблер Интернет Холдинг»
КП: Что нового, на ваш взгляд, может появиться в сфере применения Интернета как бизнес-инструмента в ближайшие несколько лет?
Д.К.: Будущее за развитием новых форм коммуникации. Появляются новые формы Интернет-общения письменного, визуального, а также возможность протоколировать это общение. Фактически новые коммуникации заменяют сегодня непосредственное общение. Ничего принципиально нового не будет просто Интернет интегрируется во все области. Сначала Интернет воспринимался как возможность отправки электронной почты, потом появились каталоги, к этому добавилась возможность ставить гиперссылки, далее пришел черед браузеров, а затем оказалось, что можно сделать безопасное подключение и добавить оплату по кредитным карточкам. Многие воспринимают Интернет как нечто изолированное, но сегодня все изменилось. Уже сейчас есть телеканалы, которые вещают по сети Интернет, а зрители смотрят их по телевизору через специальные приставки. А в будущем мы будем переключаться с канала на канал, не понимая, откуда что берется. Телефонная связь тоже в свое время была чем-то поражающим воображение, а теперь стала неотъемлемой принадлежностью повседневной жизни.
КП: Сейчас в моде такая услуга, как размещение в результатах поискового запроса рекламных блоков, содержание которых зависит от поискового запроса. Каково возможное направление развития подобных услуг в ближайшие годы?
Д.Х.: Существуют уже более изощренные форматы рекламы. Google экспериментировал с рекламными вставками в письмо. Содержание вставок зависело от того, что написано в письме. Этот вид рекламных услуг не получил широкого распространения из-за морально-этических представлений рекламодателей, которые посчитали подобную технологию слишком навязчивой. На самом деле мы можем сейчас реализовать и это, и даже что-то большее, и сдерживают нас только определенные представления об этике как наши, так и наших партнеров. Мы можем анализировать информацию о том, какие сайты пользователь посещал, что он там делал, что он любит, мужчина это или женщина, блондинка или брюнетка и т.д. Просто пока никто не убедил рекламодателей в эффективности использования подобных методик.
Если говорить о буме продажи рекламы по запросам, то есть о контексте, то эта модель очень удобна прежде всего своей незамысловатостью. Ее очень просто объяснить, продать и купить. Все остальные методы поведенческого таргетинга более сложны и подразумевают наличие специального образования как у покупателя, так и у продавца. С одной стороны, в перспективе будет происходить расширение рынка простых услуг, но, с другой стороны, наблюдается углубление сектора сложных технологий.
Д.К.: Продажа контекстной рекламы это, скорее всего, долговременное явление. Почему все говорят об эффективности контекстной рекламы? Потому что компания Google сделала поиск, добавила к нему контекстную рекламу и заработала на этом много денег. Удачный пример вызвал волну аналогичных проектов. Люди говорят: «Google сделал, значит, и мы сможем!» В этой области могут быть какие-либо технологические улучшения современные технологии действительно позволяют сделать все что угодно, но без реального спроса они мало что значат. К примеру, рекламные щиты на улице существуют почти сто лет еще Генри Форд использовал их в своих рекламных кампаниях. Сегодня их заменяют видеоэкранами. Технология новая, но по сути своей видеоэкраны то же самое, что и щиты, и, наверное, по эффективности их не превосходят.
КП: Насколько эффективно поисковая машина противодействует недобросовестной «профессиональной оптимизации» сайтов?
Д.К.: Рамблер не ставит своей целью кому-либо противодействовать. Мы делаем свою работу успешно ищем документы. Наша задача угодить пользователю, чтобы он возвращался к нам вновь и вновь. Именно для этого мы настраиваем поисковые алгоритмы таким образом, чтобы пользователь попадал на хорошие ресурсы.
КП: Какие советы вы можете дать разработчикам Web-страниц для более уверенной индексации сайтов в вашей поисковой системе?
Д.К.: Совет один создавайте хорошие сайты для людей!
КП: Большое спасибо за внимание, которое вы уделили нашим читателям. Ждем от вашей компании новых начинаний и желаем вам успехов!
Интервью подготовили Наталия Елманова и Олег Татарников.