Новые технологии поиска в Интернете
Интернет-ресурсов в Глобальной сети становится все больше, а найти там необходимую информацию с каждым днем все труднее. Поэтому у всех участников рынка современных поисковых систем уже сложилось впечатление, что сегодняшние технологии поиска устарели и что необходимо менять саму концепцию поиска.
настоящий момент бесспорным лидером поиска все еще является Google 47% всех пользователей Интернета выбирают именно этот сервис, далее идут Yahoo! и MSN 21 и 13% обращений соответственно, то есть в целом более 80% жителей планеты предпочитают именно эти поисковики. Однако ни один из трех главных поисковых серверов не может похвастаться высокой степенью лояльности среди своих постоянных пользователей: почти 71% из тех, кто искал в Yahoo!, также посещают иногда и один из двух других сервисов Google или MSN Search, 70% из тех, кто искал в MSN, также пытали удачу в том или ином конкурентном поисковом механизме.
Видя такую неудовлетворенность результатами поиска, создатели поисковых машин стараются совершенствовать свои поисковые механизмы и пытаются применять новые технологии поиска. Так, на портале Google был запущен так называемый самоконструктор (self-constructor), где пользователи этой поисковой системы могут настроить процесс поиска по своему усмотрению. К примеру, если пользователя интересует погода, он сможет видеть информер погодных условий именно в своем городе. А способ отображения новостей, вывод биржевых сводок и многие другие полезные вещи можно настроить в соответствии со своими интересами. Естественно, все подобные настройки пользователь сможет использовать, только пока он авторизован на сайте поисковика. С появлением этой технологии сайт Google во многом опередил своих конкурентов старейшие порталы Интернета Yahoo! и MSN.
Однако и портал Yahoo! не остался в долгу и внедрил новую технологию поиска Yahoo!Mindset. При помощи этого средства те, кто хочет найти какой-либо товар, отделяются от пользователей, ищущих в Интернете информацию. И те и другие, естественно, довольны: высоколобые технари освобождаются от навязчивой торговой рекламы, а простые обыватели от не нужных им технических сведений.
Сервис Yahoo!Mindset (http://mindset.research.yahoo.com), пока пребывающий в стадии бета-тестирования, пытается разделить первую сотню результатов поисковой выдачи на «коммерческие» и «академические» сайты. На странице выдачи разработчики поместили специальный слайдер, позволяющий пользователю самостоятельно задать отношение «коммерческий/академический». Подробнее ознакомиться с функциями Yahoo!Mindset можно на страничке вопросов и ответов сервиса (http://mindset.research.yahoo.com/faq.php).
Microsoft, в свою очередь, тоже внедряет новые возможности фильтрации в готовящуюся к выходу новую технологию поиска, намереваясь радикально очистить поисковые результаты от Web-спама. Разработчики компании Microsoft в Маунтин-Вью, находящемся в Силиконовой долине, уже используют методы статистического анализа для обнаружения Web-сайтов, поставляющих такой спам.
Сервис Yahoo!Mindset пытается разделить первую сотню результатов поисковой выдачи
на «коммерческие» и «академические» сайты
Поиск по понятиям
омпания IBM предложила совершенно новую технологию поиска, которая основана на отказе от традиционного поиска по ключевым словам и внедрении технологии поиска по понятиям и фактам, применяющейся при обработке информации. Таким образом, IBM задумала предоставить своим клиентам такой поиск, при помощи которого ищущий мог бы задавать тему в общем, а поисковая машина при этом обрабатывала бы его наиболее релевантно.
По словам Артура Чикколо (Arthur Ciccolo), главы отделения поисковых технологий IBM Research, ведущие массовые поисковые машины (Google, Yahoo! и Microsoft) ориентированы на открытый сегмент Интернета, а не на поиск служебной информации. В отличие от них, IBM намерена предоставить сторонним разработчикам программного обеспечения оригинальную архитектуру управления неструктурированной информацией UIMA (Unstructured Information Management Architecture). Эта технология позволяет анализировать содержащийся в документах текст и распознавать скрытые в нем понятия, отношения и факты. Также IBM предлагает инструмент WebSphere OmniFind, позволяющий пользователям осуществлять поиск в неструктурированных данных различных форматов и на различных языках, содержащихся в базах данных, в файлах электронной почты, в аудиозаписях, изображениях и видеофрагментах. К тому же UIMA позволит интегрировать ПО для поиска, управления экспертными системами и анализа текста от разных производителей.
Представители компании IBM утверждают, что UIMA упростит совместную работу тех приложений от различных разработчиков, которые предназначены для управления знаниями, поиска, коммерческой разведки и анализа текстов. Данный механизм поиска корпоративных данных разрабатывался IBM Research на протяжении более четырех лет при участии ученых крупнейших университетов США и при поддержке Управления перспективных исследований Минобороны США (DARPA). В числе участников разработки UIMA военные подрядчики Science Applications International, BBN Technologies и MITRE, а также медицинская фирма The Mayo Clinic.
Сегодня 15 компаний уже планируют использовать данную технологию, в частности Attensity, ClearForest, Cognos, Endeca, Factiva, Kana, Inquira, iPhrase, Inxight, nStein, QL2, SAS, Schemalogic, Semagix, SPSS и Temis. Один из примеров применения новой технологии совместное использование программных продуктов Attensity, ClearForest, iPhrase, Kana и IBM производителями потребительских товаров для обнаружения в сети жалоб покупателей на дефектные изделия и для поиска внутренней корпоративной информации, помогающей максимально быстро решить возникшие проблемы.
Около десяти лет назад ряд разработчиков СУБД, включая Informix, которая затем была приобретена IBM, заявили о том, что в скором времени проблема неструктурированных данных будет решена. Тем не менее и сейчас, по оценке аналитиков, до 85% корпоративных данных хранится в неструктурированном виде вне баз данных.
Ожидается, что технология UIMA начиная с конца текущего года будет распространяться с помощью сайта SourceForge, на котором размещается ПО с открытым исходным кодом. Структуру UIMA уже можно бесплатно загрузить с сайта IBM AlphaWorks.
В случае успеха проекта компания IBM готова после годичного использования перепродать данную технологию Google и Yahoo!.
Медиапоиск
последнее время распространение неструктурированной информации в Сети в виде документов, изображений, комментариев и примечаний, сообщений электронной почты, а также видео- и аудиофайлов происходит взрывными темпами, поэтому для анализа данных необходимы специальные инструменты, которые в настоящее время отсутствуют в традиционных поисковых машинах. В связи с этим лидеры Интернет-поиска Google, Yahoo! и Microsoft ведут неустанную борьбу за расширение сферы поиска, совершенствуя поисковые технологии и разрабатывая новые поисковые сервисы.
Так, Web-портал Yahoo! сообщил о своих планах по созданию нового механизма поиска видеоматериалов в Интернете, который позволит удовлетворить растущий спрос на онлайновые мультимедийные развлечения. Yahoo! разрабатывает специальную службу, которая даст возможность искать в Сети видеоклипы столь же результативно, как сегодня происходит поиск текстовой и графической информации. Бета-версия продукта, уже доступная широкой публике на страничке разработчиков Next.yahoo.com, способна выполнять поиск видеофайлов в формате Windows Media, Apple QuickTime и Real Media.
Другие компании, сделавшие поиск информации своей специализацией, также работают над созданием подобных сервисов. Google уже записывает и индексирует телепрограммы, чтобы в дальнейшем сделать возможным их онлайновый поиск, занимается оцифровкой литературы, библиотечных книжных архивов. Microsoft тоже разрабатывает платформу для поиска через Интернет видеофайлов и телепрограмм. America Online недавно обновила свою мультимедийную поисковую систему Singingfish, добавив туда функцию поиска видео на своем главном сайте. В решении задачи видеопоиска Yahoo! сотрудничает с порталом AtomFilms, имеющим огромный видеоархив от мультфильмов до сериалов.
Сегодня видеопоиск весьма актуален, поскольку многие имеют современные компьютеры и высокоскоростной доступ в Интернет дома и на работе а это практически все, что необходимо для просмотра видеофильмов или телепрограмм через Всемирную сеть. Стоимость создания, хостинга и транспортировки видеоинформации по Интернету значительно снизилась, сделав мультимедийные интернет-технологии более доступными. Сеть развивается, превращаясь в развлекательную платформу для телевидения, появляются новые устройства, объединяющие функции персонального компьютера и телевизора, так что многих сегодня весьма интересует возможность поиска видеоинформации независимо от способа ее распространения через платные кабельные каналы или широковещательную сеть.
Для операторов, предоставляющих сервис поиска видео, новый рынок услуг весьма привлекателен, и не только из-за возможности удовлетворить мультимедийные потребности клиентов. Такой сервис поможет эффективнее взаимодействовать с компаниями, которые занимаются рекламой и тратят на нее 60 млрд. долл. ежегодно. Основные рекламодатели, работающие сегодня с телевидением, готовы использовать новые рекламные площадки в сети Интернет. Поэтому Yahoo!, Google и другие поисковые системы стараются наладить хорошие отношения с Голливудом, установить деловые контакты, которые станут основой для взаимовыгодного сотрудничества в области видеорекламы, распространения и продажи видеопродукции.
Кроме делового партнерства с магнатами видео- и киноиндустрии, Yahoo! внедряет новые технологии при создании своей системы видеопоиска. Компания разрабатывает новый медиастандарт Really Simple Syndication (RSS) Media, над которым работает совместно с Creative Commons, Broadband Mechanics, AtomFilms и др. Новая система, построенная на этом стандарте, позволит добавлять текстовую информацию или метатэги в медиафайлы, размещенные на Web-сайтах.
Эти данные могут использоваться поисковой системой для индексации и соответственно поиска видеофайлов. Указанный стандарт должен помочь решить проблему поисковой индексации таких файлов, которые содержат мало текстовой информации или не содержат ее вовсе. Yahoo! создает технологию, позволяющую извлекать для поиска текстовую информацию из заголовков и других данных, связанных с видеофайлом, а в дальнейшем планирует задействовать технологии распознавания речи для расширения возможностей поиска.
Для компаний, подобных AtomFilms, новый поисковый сервис означает увеличение трафика, а следовательно, дополнительные поступления средств от рекламы. Компания занимается продажей рекламы, которая демонстрируется при загрузке видеофайлов с ее сайта и стоит от 20 до 35 долл. за 2 тыс. показов почти в пять раз дороже обычной баннерной рекламы. Это огромные деньги, если учесть, что, согласно последним финансовым отчетам Google и Yahoo!, у крупнейших Интернет-компаний дела и так идут лучше, чем прежде. Существенному росту прибылей оба поисковых гиганта обязаны именно увеличившимся объемам рекламы, а все финансовые показатели компаний превзошли прогнозы аналитиков.
Доход Google в I квартале, завершившемся 31 марта, вырос на 93% и составил 1,256 млрд. долл. Чистая прибыль Google в том же квартале увеличилась в 6 раз до 369 млн. долл. (в сравнении с 64 млн. долл. в прошлом году).
Компания Yahoo! за I квартал финансового 2005 года получила рост объема продаж на 55%, или 1,174 млрд. долл. (против 758 долл. в аналогичном периоде годом ранее). Чистая прибыль Yahoo! достигла 205 млн. долл. (в I квартале 2004 года этот показатель равнялся 101 млн. долл.), а во II квартале компания увеличила прибыль еще на 8%.
Поиск людей
казывается, в Сети очень трудно найти конкретного человека, и все попытки организовать такой ресурс пока ни к чему не приводили. В очередной раз недавно попробовал это сделать специализированный поисковик Zoominfo (http://www.Zoominfo.com) первый автоматический поисковый сервис, разыскивающий в Интернете не документы, а информацию о людях. При индексировании содержимого Сети он старается выделять информацию, касающуюся конкретных людей. Индексация на аналогичных сервисах, например на Intelius и Yahoo! People Search, производится вручную. И хотя поисковик Zoominfo заработал недавно, его создатели отнюдь не новички. С 2001 года они действовали на поисковом рынке под именем Eliyon Technologies Database и предоставляли крупным коммерческим компаниям платные услуги по поиску людей в основном по их резюме. Сервис Zoominfo на данный момент имеет как бесплатную, так и платную версию.
Сервис Zoominfo первый автоматический поисковик, разыскивающий в Интернете не документы, а информацию о людях
В основе системы лежит алгоритм, который способен, ориентируясь по глаголам и именам собственным, выделять имена людей, а также исходя из контекста определять, действительно ли это человек или нечто иное (например, название ливерпульского автобусного круга Penny Lane вполне может сойти за имя человека); имена литературных персонажей система в меру своих возможностей тоже старается отфильтровывать. Более того, Zoominfo пытается из контекста понять, когда речь идет о разных людях с одинаковыми именами. Потенциально важная новая информация сопоставляется с базой данных по уже известным именам, должностям, ученым степеням и по университетам, в которых искомые лица обучались или работали.
Пока эффективность данного поисковика оставляет желать лучшего. Обозреватели New Scientist, например, обнаружили, что Zoominfo произвел президента США Джорджа Буша еще и в премьер-министры Великобритании, а также в губернаторы сразу двух штатов Флориды и Массачусетса. Однако представители Zoominfo утверждают, что подобные ошибки являются следствием не столько несовершенства технологии, сколько сложности самой задачи. Между тем сторонники защиты частной информации уже вовсю критикуют эту технологию за то, что она, дескать, собирает информацию о людях без их ведома. Правда, как заявил руководитель исследовательского подразделения Zoominfo, разыскивается только информация, касающаяся образования и трудоустройства.