Поисковые системы

Александр Прохоров

Инструменты поиска

   Индексированные каталоги

   Тематические коллекции ссылок

   Подбор доменного имени

   Поисковые машины

   Как работает поисковая машина

   Построение индекса

   Поиск по индексу

   Метапоисковые системы

      ДИСКо Искатель

   Онлайновые энциклопедии и справочники

Будущее поисковых систем

Практические рекомендации

 

Поисковая система Яндекс

Глоссарий

 

В Интернете размещены миллионы сайтов, причем наряду с современной актуальной информацией имеется много устаревших ресурсов, немало мусора и недобросовестной рекламы — сайтов, которые рекламируют себя только для того, чтобы повысить собственный рейтинг. Интернет — это наиболее демократичный источник информации, где нет единоличного управления и почти нет цензуры. Каждый может разместить в Сети собственный ресурс и высказать свое мнение. В результате мало кто озабочен тем, чтобы избежать дублирования информации или следовать стандартам, принятым на сайте соседа.

Не зря бытует мнение, что в Сети есть все, но найти там что-либо практически невозможно. Впрочем, противоположная точка зрения, взятая на вооружение поисковой системой Яндекс, гласит, что найти в Интернете можно все. Видимо, для того чтобы находить, нужно уметь искать. В настоящей статье представлен обзор инструментов поиска в сети Интернет, объясняется механизм работы поисковых систем, даются практические рекомендации по оптимизации поиска.

Инструменты поиска

Для поиска в Интернете предназначены различные инструменты: поисковые машины (поисковики), индексированные каталоги (рубрикаторы), рейтинги и топы, метапоисковые системы и тематические списки ссылок, онлайновые энциклопедии и справочники (рис. 1). При этом для поиска разного рода информации наиболее эффективными оказываются различные инструменты. Рассмотрим каждую категорию по отдельности.

 

Для каждого типа информации следует выбирать соответствующий инструмент поиска

Рис. 1. Для каждого типа информации следует выбирать соответствующий инструмент поиска

Индексированные каталоги

Каталог представляет собой данные, структурированные по темам в виде иерархических структур. Тематические разделы первого уровня определяют наиболее популярные, максимально широкие темы, такие как «спорт» «отдых», «наука», «магазины» и т.д. В каждом разделе есть подразделы. Таким образом, вы можете уточнять интересующую вас область, путешествуя по дереву каталога и постепенно сужая область поиска. В качестве примера на рис. 2 показана структура классификатора учебных заведений. Из рисунка видно, что само дерево каталога позволяет составить представление об изучаемой теме. Дойдя до нужного подкаталога, вы находите в нем набор ссылок. Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если вы ищете общую информацию по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же вам необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством.

 

Классификатор образовательных ресурсов дает наглядное представление о типах учебных заведений в системе образования

Рис. 2. Классификатор образовательных ресурсов дает наглядное представление о типах учебных заведений в системе образования

Существует огромное количество каталогов. Один из наиболее популярных каталогов в России — List.ru перекочевал в последнее время на адрес http://mail.ru/. Помимо каталогов общего профиля в Сети достаточно много специализированных каталогов. Например, по адресу www.kinder.ru можно найти прекрасный каталог, посвященный детским ресурсам. В случае если внутри отдельной темы каталога находится огромное количество ресурсов, возникает проблема выбора. В некоторых каталогах имеется сортировка по популярности, например в каталоге Яндекс сортировка идет по индексу цитирования (http://www.yandex.ru/info/ci.html).

Помимо каталогов в Сети существуют рейтинги. От каталога рейтинг отличается тем, что в нем описание ресурсов делают непосредственно их владельцы, а в каталоге — авторы, то есть редакторы каталога.

Одним из наиболее популярных рейтингов является Rambler Top 100. На рис. 3 показан рейтинг ресурсов из раздела «авто и мото». Популярность ресурса оценивается по ряду параметров, основные из которых — так называемые хосты (количество уникальных посетителей в единицу времени) и хиты (количество заходов на сайт за определенный промежуток времени).

 

Пример ранжирования ссылок в рейтинге Rambler Top 100

Рис. 3. Пример ранжирования ссылок в рейтинге Rambler Top 100

Тематические коллекции ссылок

Тематические коллекции ссылок — это списки, составленные группой профессионалов или коллекционерами-одиночками. Очень часто узкоспециализированная тема может быть раскрыта одним-единственным специалистом лучше, чем группой сотрудников крупного каталога. Тематических коллекций в Сети так много, что давать конкретные адреса не имеет смысла.

Подбор доменного имени

Каталог — удобная система поиска, однако если вам нужно попасть на сервер компании Intel или IBM, то вы вряд ли станете обращаться к каталогу. Угадать название соответствующего сайта нетрудно: www.intel.com, www.ibm.com или www.intel.ru, www.ibm.ru — сайты российских представительств этих компаний.

Если же вам необходим сайт, посвященный погоде в мире, его логично поискать на сервере www.weather.com. При этом в большинстве случаев найти сайт с ключевым словом в названии предпочтительнее, чем документ, в тексте которого это слово многократно используется. Сегодня даже мелкая компания может позволить себе содержание персонального сервера. Если такая компания (или коммерческий проект) имеет односложное название и реализует в Сети свой сервер, то его имя с большой долей вероятности укладывается в формат www.name.com, а для Рунета — www.name.ru, где name — имя компании или проекта. При поиске малоизвестной компании подбор адреса может успешно конкурировать с другими приемами поиска. Следует отметить, что при подобной системе поиска вы можете установить соединение с сервером, который не зарегистрирован ни в одной поисковой системе. Однако очевидно, что подобное угадывание не всегда успешно, и если вам не удается подобрать искомое имя, то придется обратиться к поисковой машине.

Поисковые машины

Прежде чем рассказать, как функционируют поисковые машины, следует ввести ряд терминов. Если бы компьютер был высокоинтеллектуальной системой, которой можно было бы легко объяснить, что вы ищете, то он выдавал бы вам два-три документа — именно те, которые вам нужны. Но это, к сожалению, не так, и в ответ на запрос вы обычно получаете длинный список документов, многие из которых не имеют никакого отношения к тому, о чем вы спрашивали. Такие документы называются нерелевантными (от англ. relevant — подходящий, относящийся к делу). Таким образом, релевантный документ — это документ, содержащий искомую информацию. Очевидно, что от умения грамотно делать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной документов называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантны (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска — 100%.

Таким образом, качество поиска определяется двумя параметрами: точностью и полнотой поиска. Стоит отметить, что они взаимозависимы, причем увеличение полноты снижает точность, и наоборот.

     

Поисковая система Яндекс

Еще в 1990 году в компании CompTek началось создание поисковой технологии Яндекс. С самого начала она задумывалась для поиска именно по массивам русских текстов, то есть с учетом морфологии русского языка. Слово «Яндекс» и первые программы с этим названием появились еще в 1993 году, а поисковая машина Яндекс (www.yandex.ru) была открыта 23 сентября 1997 года на выставке SofТool.

 

 

Возможности поисковой системы Яндекс

Поиск слова

Система позволяет находить:

  • все формы слова для русского, английского, польского и других языков; в том числе все формы неизвестных Яндексу слов (отсутствующих в базовом словаре языка) при помощи автоматического моделирования их словоизменения;
  • только заданную точную словоформу;
  • только формы, производные от заданной формы.

Поиск нескольких слов

Поиск нескольких слов может происходить при:

  • задании произвольных «контекстных ограничений» — нужно искать документы, в которых заданные слова находятся на определенном расстоянии друг от друга либо на расстоянии, не большем или не меньшем данного. Расстояние может быть задано в словах или в предложениях. Интервал расстояний может быть отрицательным, точным, асимметричным (например, пять слов вперед, три слова назад). Контекстные ограничения могут быть либо заданы пользователем явно (что крайне редко встречается на практике), либо могут быть автоматически назначены Яндексом на основе синтаксического разбора;
  • гарантированном ранжировании устойчивых словосочетаний (точных цитат). При наличии в базе точной цитаты документы, содержащие ее, будут гарантированно выданы в начале списка;
  • ранжировании, основанном на принципе «поиска неточной цитаты». Точно найденным документом считается документ с полным набором слов в заданных контекстных границах. Он гарантированно ранжируется выше документов с неполным набором таких слов. При отсутствии в базе индекса точного соответствия запросу с учетом заданных контекстных ограничений предпринимаются попытки найти максимально похожее словосочетание с возможным пропуском одного самого незначащего слова, затем, если это не удается, допускается пропуск двух слов или одного, но более значимого и т.д.;
  • автоматическом синтаксическом разборе «естественных» фрагментов поискового запроса с целью переформулирования и смены (смягчения или расширения) неявно заданных контекстных ограничений. Это значит, что если задан запрос из трех и более слов, то он будет проанализирован и при удачном построении синтаксического дерева переформулирован в такой же, но с контекстными ограничениями, назначенными Яндексом на основе синтаксических связей. Иными словами, Яндекс вместо того, чтобы рассматривать слова запроса (не образующего в текстах точной цитаты и не встречающегося в пределах одного предложения) как независимые и искать в документе их где угодно, пытается одни слова искать рядом, а другие «не очень рядом». Приведем пример. Для Яндекса запрос <продажа автомобилей Украина> отличается от запроса <продажа автомобили Украины>. В первом запросе точно найденным документом будет считаться тот, в котором слова «продажа» и «автомобиль» находятся рядом (скажем, в одном предложении), а слово «Украина» — далеко (где угодно в документе). Во втором запросе точно найденным документом будет считаться только такой, в котором слова «автомобиль» и «Украина» находятся достаточно близко. Яндекс решает так потому, что фраза «автомобили Украины» синтаксически согласована. Таким образом, с точки зрения Яндекса первый запрос нацелен на поиск украинских автомобильных дилеров, а второй — на поиск любых продавцов «таврий»;
  • эвристических переформулировках естественных запросов. Запросы, использующие вопросительные слова и ряд других типичных конструкций, переформулируются. Например, запрос <что такое кванзаа> превратится в запрос <кванзаа это> ИЛИ <кванзаа означает> ИЛИ ...;

Все вышеперечисленные особенности позволяют Яндексу с приемлемым качеством выполнять разнообразные запросы на естественном русском языке, даже с учетом «рваного», телеграфного стиля общения пользователей с поисковой системой.

Поиск в социальной сети

Под поиском в социальной сети понимается учет внетекстовых критериев в поиске, ранжировании и индексировании:

  • взвешенный, тематический и иные виды индекса цитирования;
  • поиск по лексике ссылок на документ, в том числе по альтернативной лексике (словам, не употребляющимся в самом документе). Например, по слову «яндех» будет найден www.yandex.ru, хотя на сайте Яндекс слово «яндех» не употребляется. Этот метод применялся в Яндексе еще в 1990-1991 годах для патентных поисковых систем;
  • выявление и удаление из базы точных и неточных дубликатов;
  • выявление и удаление зеркал сайтов;
  • учет в ранжировании выбора пользователей после проведенного поиска;
  • многоязыковая поддержка (возможность автоматически распознавать язык и кодировку индексируемого документа).

Дополнительные поисковые возможности

К таким возможностям относятся следующие:

  • поиск похожего документа;
  • сортировка найденных документов по степени релевантности, а также по дате или по размеру, возможность влиять на порядок сортировки, используя операторы веса и уточнения запроса;
  • сортировка по любому внешнему целочисленному атрибуту (например, цена товара в Яндекс.Маркете и т.п.);
  • подсветка найденных слов в документе (возможность просмотреть найденный документ с выделенными ключевыми словами; пролистать документ к следующему или предыдущему найденному слову. Статистика найденных слов для каждого документа);
  • подсветка контекстов (возможность выделять слова, найденные в заголовках, на странице с результатами поиска; показывать отдельные предложения документа, содержащие найденные слова, на странице с результатами поиска);
  • поиск в любых поименованных частях текста документа (зонах). Например, можно искать в заголовках, текстах ссылок и т.д.;
  • поиск по «скрытым» свойствам документа (атрибутам). Возможность учитывать при поиске как атрибуты целого документа, заданные при индексировании, так и атрибуты отдельных частей документа. Например, можно искать документы с заданными ключевыми словами, в заданном каталоге или содержащие заданную картинку;
  • поиск в найденных документах (возможность искать документы, удовлетворяющие новому запросу, среди документов, полученных в результате предыдущего запроса).

 

Как работает поисковая машина

Поисковая машина состоит из двух частей: робота и поискового механизма. База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в существенно меньшей степени — владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (паука, червяка), который обходит все предписанные серверы и формирует базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.

Следует отметить, что поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, понятно, ограничены. Несмотря на то что база данных поисковой машины постоянно обновляется за счет опроса узловых адресов в Сети, внутренние ресурсы поисковой машины и ресурсы Сети несопоставимы, и поэтому вероятность того, что машина даст устаревший адрес или не найдет нужный ресурс, всегда больше нуля. При этом проблема состоит не только в ограниченности внутренних ресурсов, но и в том, что скорость робота ограничена. Увеличение внутренних ресурсов поисковой машины не решает проблемы в силу того, что скорость обхода конечна. При этом нельзя сказать, что поисковая машина внутри имеет копию определенной части исходных ресурсов Интернета, разложенных по каталогу. Полностью информация (исходные документы) хранится отнюдь не всегда, чаще хранится лишь ее часть — так называемый индексированный список (индекс), который гораздо компактнее текста документов.

Для построения индекса исходные данные преобразуются таким образом, чтобы объем базы был минимальным, а поиск осуществлялся очень быстро и давал максимум полезной информации. Объясняя, что такое индексированный список, можно провести параллель с его бумажным аналогом — так называемым конкордансом, то есть словарем, в котором в алфавитном порядке перечислены слова, употребляемые определенным писателем, а также указаны ссылки на них и частота их употребления в произведениях писателя.

Очевидно, что поиск ключевых слов с подобным словарем (индексом) гораздо эффективнее, чем поиск по книге. Отыскать нужное слово в конкордансе и посмотреть по ссылкам, где оно употребляется, намного проще, нежели перелистывать книгу в надежде наткнуться на это слово.

Построение индекса

Схема построения индекса показана на рис. 4. Сетевые агенты, или роботы-пауки, ползают по Сети, анализируют содержимое Web-страниц и собирают информацию о том, что и на какой странице было обнаружено. При нахождении очередной HTML-страницы большинство поисковых систем фиксирует слова, картинки, ссылки, скрипты и другие элементы (в разных поисковых системах по-разному), содержащиеся на ней. При отслеживании слов на странице фиксируется не только их наличие, но и местоположение, то есть где эти слова находятся: в заголовке (title), подзаголовке (subtitles), в метатэгах (meta tags) или в других местах. При этом обычно фиксируются значимые слова, а союзы и междометия вроде «а», «но», «или» игнорируются. Метатэги позволяют владельцам страниц определить ключевые слова и тематику, по которым индексируется страница. Это особенно актуально в случае, когда ключевые слова имеют несколько значений. Метатэги могут сориентировать поисковую систему при выборе из нескольких значений слова единственно правильное. Однако метатэги работают надежно только в том случае, когда заполняются честными владельцами сайта. Недобросовестные владельцы Web-сайтов помещают в свои метатэги наиболее популярные в Сети слова, не имеющие ничего общего с темой сайта. В результате посетители попадают на незапрашиваемые сайты, повышая тем самым их рейтинг. Исключение из поиска подобных сайтов — это еще одна задача, которую должна решать хорошая поисковая система. Каждый робот поддерживает свой собственный список ресурсов, наказанных за недобросовестную рекламу.

 

Роботы-пауки просматривают информационное наполнение Web-страниц и создают индексированную базу поиска по ключевым словам, а затем по запросу пользователя выдают ранжированный по релевантности список сайтов

Рис. 4. Роботы-пауки просматривают информационное наполнение Web-страниц и создают индексированную базу поиска по ключевым словам, а затем по запросу пользователя выдают ранжированный по релевантности список сайтов

Очевидно, что если вы ищете сайты по ключевому слову «собака», то поисковый механизм должен найти не просто все страницы, где используется слово «собака», а те, где это слово имеет отношение к теме сайта. Для того чтобы определить, насколько то или иное слово имеет отношение к профилю некоторой Web-страницы, необходимо оценить, насколько часто оно встречается на странице, есть ли по данному слову линки на другие страницы или нет. Короче говоря, необходимо ранжировать найденные на странице слова по степени важности. Словам присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.п.). Каждый поисковый механизм имеет свой алгоритм присваивания весовых коэффициентов — это одна из причин, по которой поисковые машины по одному и тому же ключевому слову выдадут вам различные списки ресурсов. Поскольку страницы постоянно обновляются, то и процесс индексирования должен выполняться постоянно. Роботы-пауки путешествуют по ссылкам и формируют файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объема информации и сжатию файла. Прежние поисковые системы хранили индексы нескольких тысяч документов и получали несколько тысяч запросов в день. Сегодня мощные поисковые машины хранят сотни миллионов страниц и получают десятки миллионов запросов ежедневно. Имея несколько роботов, поисковая система может обрабатывать сотни страниц в секунду. Для того чтобы снизить время обращения к внешним DNS-серверам, организация, осуществляющая поиск, имеет собственный DNS-сервер, который для ускорения процесса переводит имена в IP-адреса.

При построении индекса решается также задача снижения количества дубликатов — задача нетривиальная, особенно если учитывать, что для корректного сравнения нужно сначала определить кодировку документа. Еще более сложной задачей является отделение очень похожих документов (их называют «почти дубликаты»), например таких, которые различаются лишь заголовками, а текст дублируется. Подобных документов в Сети очень много — например, кто-то списал реферат и выдал его на сайте за своей подписью. Современные поисковые системы позволяют решать все эти проблемы.

Поиск по индексу

Поиск по индексу заключается в том, что пользователь формирует запрос и передает его поисковой машине. В случае когда у пользователя имеется несколько ключевых слов, весьма полезно использование булевых операторов.

Наиболее часто используемые булевы операторы:

  • AND — все термины, соединенные AND, должны присутствовать в предлагаемом документе. Некоторые поисковые системы используют значок «+» вместо AND;
  • OR — как минимум одно из ключевых слов, соединенных OR, должно присутствовать в искомом документе;
  • NOT — ключевое слово (слова), следующее за NOT, не должно появляться в искомом документе. Некоторые поисковые системы используют значок «-» вместо NOT;
  • FOLLOWED BY — одно из ключевых слов должно следовать непосредственно за другим;
  • NEAR — одно из слов должно отстоять на определенное количество слов от другого;
  • кавычки — слова внутри кавычек являются фразой, которая должна быть найдена в пределах документа или файла.

Текст, в пределах которого проверяется логическая комбинация, называется единицей поиска. Это может быть предложение, абзац или весь документ. В разных поисковых системах могут использоваться различные единицы поиска. Например, вы можете искать документы, в которых два слова — «электрический» и «счетчик» — находятся одновременно в пределах предложения или в пределах всего документа. Соответственно поиск в пределах предложения возможен для тех систем, которые имеют в индексе подробный адрес.

После того как пользователь передал запрос поисковой системе, она обрабатывает синтаксис запроса и сравнивает ключевые слова со словами в индексе. После этого составляется список сайтов, отвечающих запросу, они ранжируются по релевантности и формируется результат поиска, который и выдается пользователю.

Существует огромное количество поисковых систем. Наиболее популярная западная поисковая система — Google (www.google.com). В частности, всемирно популярный каталог Yahoo! в качестве поисковой системы использует именно Google. В Рунете самыми популярными поисковыми системами являются Яндекс (www.yandex.ru) и Рамблер (www.rambler.ru).

Метапоисковые системы

Интернет развивается стремительными темпами — каждый день появляются сотни тысяч новых документов. Рост количества документов происходит быстрее, чем поисковые системы успевают их проиндексировать. Отсюда следует неутешительный вывод, что даже если в Сети и есть то, что вы ищете, вовсе не обязательно, что об этом знает поисковая машина, к которой вы обратились. Поисковых систем в мире сотни, и велика вероятность, что нужный вам документ не попал в ваш поисковик, но проиндексирован другой поисковой системой. Поэтому существуют службы, позволяющие транслировать ваш запрос сразу в несколько поисковых систем, — это метапоисковые системы. Однако пользоваться ими во всех случаях не следует. Если документов по теме много, то метапоиск не нужен и, возможно, даже вреден, поскольку смешивает разные логики ранжирования. Но если документов по теме мало, то метапоиск может быть полезен именно благодаря тому, что объединяет большое число поисковиков. Весьма удобной является отечественная программа ДИСКо Искатель, о которой стоит рассказать подробнее.

ДИСКо Искатель

Разработчик: фирма «ДИСКо» (www.disco.ru), права на распространение продукта принадлежат компании «Арсеналъ» (www.ars.ru).

ДИСКо Искатель (рис. 5) — это метапоисковая система, инструмент для поиска информации на нескольких поисковых серверах одновременно. Главной особенностью этой программы является возможность запоминать как параметры поиска, так и его результаты и использовать их впоследствии.

 

Метапоисковая система ДИСКо Искатель

Рис. 5. Метапоисковая система ДИСКо Искатель

Двойным щелчком на любую ссылку вы можете вызвать свой Интернет-браузер для просмотра этой страницы. Выбрав любое подмножество страниц, можно потребовать создать HTML-страницы со ссылками на все эти страницы. ДИСКо Искатель запускает одновременно несколько соединений со всеми указанными поисковыми серверами, что существенно ускоряет время поиска. Оперативная информация о соединениях выводится в окно соединения. Вы можете сохранить параметры и результаты поиска в файле с расширением dio, чтобы в следующий раз снова запустить этот же поиск или внимательнее просмотреть его результаты.

Есть два способа экспорта подмножества страниц из дерева поиска: в закладки (избранное) Интернет-проводника и в HTML-страницу для последующего вызова ее из браузера.

Онлайновые энциклопедии и справочники

Очень часто нужно найти не документ, содержащий то или иное ключевое слово, а именно толкование искомого слова. Можно, конечно, поискать незнакомый вам термин с помощью поисковой машины, но в этом случае вы рискуете получить целый ряд статей, в которых этот термин используется, и при этом так и не узнать, что же он все-таки обозначает. В данном случае лучше обратиться к онлайновым энциклопедиям.

Одной из крупнейших онлайновых энциклопедий является ресурс «Яндекс.Энциклопедии» (http://encycl.yandex.ru/) — этот проект содержит 219 968 статей из 14 энциклопедий, в том числе из БСЭ и «Энциклопедии Брокгауза и Ефрона». К крупным относится и «Энциклопедия Кирилла и Мефодия», которую можно найти по адресу www.km.ru.

Особенно актуальным является поиск толкований терминов по информационным технологиям, которые развиваются так быстро, что уследить за появлением новых IT-терминов очень сложно. Увы, большинство словарей из данной категории — англоязычные. Единственный ресурс на русском языке, который можно назвать компьютерным энциклопедическим словарем, — это проект «Компьютерная энциклопедия Кирилла и Мефодия» (http://www.megakm.ru/pc/), предусматривающая поиск не только по термину, но и по тематической структуре. Однако для словаря терминов объем в 700 статей явно недостаточен.

А вот объем англоязычного словаря FOLDOC (Free On-line Dictionary Of Computing; http://wombat.doc.ic.ac.uk/foldoc/index.html) весьма убедителен — более 13 тыс. терминов.

FOLDOC — это классический онлайновый словарь компьютерных терминов, в том числе акронимов, жаргонизмов, терминов языков программирования, а также всех слов, имеющих отношение к компьютерам. Однако не следует думать, что достаточно одного словаря, пусть даже и самого большого. Дело в том, что большинство крупных словарей построено по принципу обратной связи: не найдя термин в словаре, клиент делает запрос, и термин в базе со временем появляется. Таким образом, каждый ресурс развивается на основе своей клиентской базы, и не обнаружив термин в одном словаре, его можно найти в другом. Можно порекомендовать еще как минимум два онлайновых словаря: Webopedia и WhatIs.com.

Webopedia (www.pcwebopaedia.com) — это серьезный ресурс с большим количеством слов и постоянным пополнением базы. Помимо традиционного словаря ресурс имеет массу специализированных сервисов, например: «Кто есть кто в компьютерных технологиях», «Сравнительная таблица микропроцессоров», «История развития компьютерных технологий» и др.

WhatIs.com (http://whatis.com/index.htm) — толковый энциклопедический словарь по информационным технологиям и в первую очередь по терминам, связанным с ПК и Интернетом. Ресурс содержит более 2 тыс. энциклопедических статей, а также дает несколько Интернет-ссылок на каждый термин. Все статьи взаимосвязаны и содержат около 12 тыс. гипертекстовых ссылок.

В начало В начало

Будущее поисковых систем

Несмотря на то что человеку всегда проще объяснить, что вы ищете, нельзя сказать, что современные поисковые машины — это примитивные системы, которые, кроме как найти некоторую последовательность символов, ничего не могут. Напротив, они решают целый ряд проблем, связанных с поиском, например проблему словоизменения (это далеко не простая задача). Если мы ищем документ по ключевому слову «стол», то вполне вероятно, что документ, содержащий фразу «столы для кухни», — это то, что нам нужно. Однако «стол» и «столы» для системы, осуществляющей формальное сравнение, — это разные слова. Поиск, учитывающий словоизменения, называется морфологическим. Большинство современных поисковых систем умеют осуществлять морфологический поиск.

Тем не менее морфологический поиск не решает проблему в том случае, когда слово имеет несколько значений. Например, слово «лук» может обозначать как растение, так и орудие для стрельбы. В этом случае необходим поиск, при котором поисковик «понимал» бы, о чем идет речь. В последнее время подобное направление (concept-based searching) развивается.

Один из таких сайтов находится по адресу AskJeeves.com (www.askjeeves. com). На нем запросы к системе выполняются в неформализованном виде (без использования булевых операторов), то есть так, как мы формулируем вопрос, когда задаем его человеку. Служба AskJeeves.com предоставляет надежные и высокорелевантные ответы на миллионы вопросов, задаваемых ежедневно, используя обработку запросов натуральных языков (Natural Language Processing, NLP). В основе службы лежит поисковый движок Teoma Search Technology. Вместо ранжирования результатов на основании мест с наибольшим количеством ключевых слов Teoma анализирует содержимое Web на основе предметно-содержательных групп, что позволяет выбрать наиболее релевантный документ. Мы протестировали данную систему и убедились в ее эффективности.

На рис. 6 показано, как обработана фраза «Where was John Lenon born». Поисковик предположил, что фамилия была напечатана неправильно, и спросил: «Did you mean Where was John Lennon born» — и тут же, предполагая, что вопрос был задан с ошибкой, выдал ответ: «John Lennon was born in Liverpool England on October 9, 1940».

 

Поисковая система AskJeeves

Рис. 6. Поисковая система AskJeeves

     

Глоссарий

Анализ социальных сетей — разновидность структурного подхода, концентрирующего внимание на анализе возникающих в ходе социального взаимодействия связей (сетей), рассматриваемых в качестве структурных образований. Поведение личности или группы объясняется как производное от социальных сетей, элементами которых оно выступает. Метод получил широкое распространение при изучении процессов коммуникации в различных социальных группах. Всемирная паутина — ярчайший пример социальной сети.

Булева модель, булевая, двоичная (boolean) — модель поиска, опирающаяся на операции пересечения, объединения и вычитания множеств.

Дубликаты (duplicates) — разные документы с идентичным, с точки зрения пользователя, содержанием; приблизительные дубликаты, почти дубликаты (near duplicates), в отличие от точных дубликатов, содержат незначительные отличия.

Единица поиска — текст, в пределах которого проверяется логическая комбинация.

Конкорданс — словарь, в котором в алфавитном порядке перечислены слова, употребляемые писателем, а также указаны их адрес и частота употребления.

Индекс цитирования (citation index) — число упоминаний (цитирований) научной статьи, в традиционной библиографии рассчитывается за промежуток времени, например за год.

Индексирование, индексация (indexing) — процесс составления или приписывания индекса (указателя) — служебной структуры данных, необходимой для последующего поиска.

Поиск похожих документов (similar document search) — задача информационного поиска, в которой в качестве запроса выступает сам документ и необходимо найти документы, максимально напоминающие данный.

Поисковая система, информационно-поисковая система (ИПС), поисковая машина, машина поиска, поисковик, «искалка» (search engine, SE) — программа, предназначенная для поиска информации.

Полнота, охват (recall) — доля релевантного материала, заключенного в ответе поисковой системы, по отношению ко всему релевантному материалу в коллекции.

Релевантность (relevance, relevancy) — соответствие документа запросу.

Словоизменение (inflection) — образование определенной грамматической формы слова, обычно обязательной в определенном контексте.

Стоп-слова (stop-words) — союзы, предлоги и другие частотные слова, которые поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска.

Точность (precision) — доля релевантного материала в ответе поисковой системы.

Хиты — количество заходов на сайт за определенный промежуток времени.

Хосты — количество уникальных посетителей в единицу времени.

 

 

В начало В начало

Практические рекомендации

  1. Используйте различные инструменты для поиска информации разного профиля. Поиск в каталоге дает представление о структуре вопроса, поисковая система позволяет найти конкретный документ, подбор доменного имени помогает найти сервер фирмы, даже если она не индексирована ни одной поисковой системой.
  2. Осуществляя поиск в поисковой машине, избегайте общих слов. Чем уникальнее ключевое слово, по которому вы осуществляете поиск, тем скорее вы его найдете. Логика данных рассуждений очевидна, однако факты позволяют лучше понять ситуацию: 400 наиболее часто употребляемых слов русского языка со всеми словоформами (около 2 тыс. форм) составляют одну треть всех слов в среднестатистическом тексте, а частотный список на 8 тыс. слов покрывает уже 80% всех словоупотреблений в текстах.
  3. Ищите больше чем по одному слову. Сократить объем ссылок можно, определив несколько ключевых слов. Используйте синонимы.
  4. Не пишите прописными (большими) буквами. Избегайте написания ключевого слова с прописной буквы. В ряде поисковых систем заглавные буквы позволяют искать имена собственные, например «телепередача Здоровье».
  5. Используйте функцию «Найти похожие документы». Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку «Найти похожие документы».
  6. Пользуйтесь языком запросов. С помощью языка запросов вы сможете сделать запрос более точным.
  7. Пользуйтесь расширенным запросом. Во многих поисковых системах есть форма расширенного запроса, в которой можно использовать основные механизмы сужения поиска (не запоминая семантики языка запросов).
  8. Пользуйтесь метапоисковыми системами, если по теме мало документов.

КомпьютерПресс 2'2004


Наш канал на Youtube

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует