Ресурсы Интернета — поиск, комментарии, рейтинг

Александр Прохоров

Как искать, чтобы находить?

Некоторые понятия о системе поиска

Яндекс

Рейтинги Интернет-ресурсов

«В Интернете есть все,
но найти ничего невозможно»
Распространенное заблуждение

Итак, вы, вероятно, догадались, что в КомпьютерПресс добавилась новая рубрика, в которой, в соответствии с ее названием, мы намерены помогать вам искать ту или иную информацию, комментировать эту информацию и приводить наши оценки и рейтинги. Такая рубрика неминуемо должна была появиться в журнале, поскольку с каждым днем все больше наших читателей спрашивают: что, как, и где можно найти в Интернете.

Наверное, те, кто не разделяет мнения, приведенного в качестве эпиграфа к данной статье, и уверенно чувствует себя в ресурсах Сети, пришли к этому не сразу, а через долгие часы проб и ошибок. Возможно, наш цикл публикаций поможет вам сориентироваться в Интернете с меньшими потерями времени и денег. Помимо информации о конкретных ресурсах мы постараемся рассказывать, как структурируется информация в Сети, какого типа сайты там существуют, как они развиваются, какие поисковые средства есть в Интернете и как найти каплю конкретных сведений в море информации.

В новой рубрике мы также будем оценивать качество, информативность описываемых сайтов. Поэтому, несмотря на то что наши публикации в основном адресованы широкому кругу «читателей Интернета», мы также надеемся, что наши оценки и рекомендации будут полезны и «писателям», то есть тем, кто создает сайты и предлагает «читателям» свою информацию.

Предвидя вопрос: «А нужно ли комментировать информацию в Интернете? В Сети ведь демократия!» — приведу ряд соображений, ни на чем не настаивая. Любая книга, справочник, газета, которая попадает читателю в руки, доносит информацию, прошедшую некоторый цикл подготовки. Главный редактор определяет тематику, под тему подбирается эксперт, который выступает как автор, научный редактор (специалист в этой области) редактирует ее, зачастую статья отсылается на рецензию внешним экспертам, литредакция придает статье читаемый вид, корректор исправляет ошибки. При этом каждый отвечает за свой участок, несет определенную ответственность за опечатку, оговорку, неграмотность, неосведомленность, предвзятость и так далее.

В результате материал несет определенный отпечаток структурированности, контроля и цензуры. Это, как известно, имеет свои как положительные, так и отрицательные стороны. Интернет в глобальном плане не имеет руководства, которое бы проверяло все, что публикуется в Сети. Каждый может завести свою страничку и начать публиковать практически любую информацию, не проверяя, не дублирует ли он имеющиеся ресурсы. Подчас автор сам решает, обладает ли он соответствующим образованием или вкусом для освещения данной проблемы. С одной стороны, такой подход дает уникальные возможности для самовыражения, повышает оперативность представления информации, обеспечивает демократичность в предоставлении каждому права писать и читать то, что он хочет. С другой стороны, отсутствие централизованного планирования и контроля приводит к тому, что большое количество информации находится в неструктурированном, непроверенном, некачественно оформленном виде. Следовательно, комментарии к вопросу, где можно получить надежную информацию и как затратить меньше времени, отсеивая некачественные информационные источники, просто необходимы.

Резюмируя рассуждения на тему о необходимости комментировать ресурсы Интернета, можно выделить три момента. Во-первых, чтобы что-то искать, надо знать, что это в принципе существует. И одна из задач данной рубрики — рассказать читателю, что нового есть в Интернете. Во-вторых, чтобы что-то найти, надо знать, где и как искать. И этому надо учить. И, наконец, в-третьих, найдя какую-либо информацию, хорошо бы иметь представление о том, насколько ей можно верить. Мы отнюдь не претендуем на провозглашение истины в последней инстанции, однако надеемся, что мнение редакции КомпьютерПресс будет интересно читателям.

Нельзя объять необъятное — и мы не стремимся рассказать обо всем сразу. В каждом выпуске мы будем выбирать одну-две темы, пользующиеся наибольшим интересом, и рассказывать, где и как можно найти качественную информацию и где она полнее и грамотнее представлена.

В данной рубрике, с учетом начала нового учебного года, мы решили осветить тему «Образование в Интернете», а также актуальную во все времена года тему «Обзор Интернет-магазинов». Однако прежде чем рассказывать о конкретных ресурсах Сети, мы хотим дать небольшую статью об основах поиска информации в Интернете.

Как искать, чтобы находить?

Раз он в море закинул невод,

Пришел невод с одною тиной.

Он в другой раз закинул невод,

Пришел невод с травой морскою.

В третий раз закинул он невод,

Пришел невод с одною рыбкой…

А.С.Пушкин
«Сказка о рыбаке и рыбке»

Некоторые понятия о системе поиска

Для того чтобы начать пользоваться поисковой машиной, не обязательно знать, как она устроена. Но для того чтобы поиск был эффективным, желательно представлять себе основы устройства данных систем и как минимум знать термины, которые употребляются при оценках качества поиска.

Принцип работы поисковой машины вкратце сводится к тому, что каждая такая машина (а их в Сети существует более 200) опрашивает свой внутренний каталог по ключевым словам, указанным в поле запроса. При этом поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), которые, естественно, ограниченны. Конечно, каталог поисковой машины постоянно обновляется за счет опроса узловых адресов в Сети, однако внутренние ресурсы поисковой машины и ресурсы Сети несопоставимы, и поэтому вероятность того, что машина даст устаревший адрес или не найдет нужный ресурс, всегда больше нуля.

При этом нельзя сказать, что поисковая машина внутри имеет копию Интернета, разложенного по каталогу. Поисковая машина имеет файл (базу) индекса, а сами тексты хранит далеко не всегда. Индекс гораздо компактнее текста.

Высокая скорость поиска возможна за счет индексации базы данных, в процессе которой каждому слову ставятся в соответствие его координаты — обычно это номер документа и номер слова в документе или только номер документа1.

Конечно, человеку невозможно тягаться с поисковой системой, обрабатывающей сотни тысяч документов. Но ценность результатов подчас далека от ожидаемой.

Если бы компьютер был высокоинтеллектуальной системой, которой в короткой беседе можно было бы «растолковать», что вы конкретно ищете, — цены бы такой машине не было и она выдавала бы вам ценную информацию: два-три документа, как раз те, что вам нужны. На самом деле это, к сожалению, не так, и на свой запрос вы обычно получаете кучу документов, которые не имеют отношения к тому, о чем вы спрашивали. Называются такие документы нерелевантными (от англ. relevant — «подходящий, относящийся к делу»).

Таким образом, релевантный документ — это документ, имеющий отношение к данному поисковому запросу, то есть содержащий искомую информацию. Очевидно, что от умения грамотно давать запрос зависит процент релевантных документов — в списке всех найденных. Доля релевантных документов в списке найденных поисковой машиной называется точностью поиска. Качество поиска определяется двумя параметрами: точностью поиска и полнотой поиска. Значение вышеупомянутых терминов поясняется на рис. 1.

Стоит отметить, что «точность» и «полнота» — это параметры, которые зависят друг от друга: увеличение полноты снижает точность, и наоборот.

Несмотря на то что человек человеку всегда сможет лучше объяснить, что именно он ищет, нельзя сказать, что современные поисковые машины — это примитивные системы, которые ничего не могут, кроме как найти некоторую последовательность символов. Напротив, они решают целый ряд проблем, связанных с поиском, например проблему словоизменения. А это далеко не тривиальная задача. Если мы ищем документ по ключевому слову «стол», то, вероятно, документ, содержащий фразу «столы для кухни», — то, что нам нужно. Однако «стол» и «столы» для системы, осуществляющей формальное сравнение, — это разные слова. Таким образом, поиск, учитывающий словоизменения, называется морфологическим поиском.

Еще одно понятие, которое может встретиться в описании возможностей поисковой машины, — это булев поиск.

Булев поиск обозначает, что поисковая машина при поиске по нескольким ключевым словам может использовать логические операторы: «логическое И», «логическое ИЛИ», оператор «И НЕТ» (рис. 2, 3, 4).

Следующий параметр, который необходимо определить и который вытекает из понятия поиска по логическим комбинациям, — это единица поиска. Единица поиска — это единица текста, в пределах которого проверяется логическая комбинация. Это может быть предложение, абзац или весь документ. Например, вы можете искать документы, в которых два слова: «электрический» и «счетчик» находились бы одновременно либо в пределах предложения, либо в пределах всего документа. Соответственно поиск в пределах предложения возможен для тех систем, которые держат в индексе подробный адрес.

Стоит также определить такой термин, как «стоп-слово».

Стоп-слова — это очень частотные слова, которые встречаются приблизительно в 95% страниц. Поэтому искать их практически бессмысленно. Большинство поисковых машин просто выкидывает такие слова из индексации и из запроса2.

Вооружившись основными понятиями, можно приступать к рассмотрению конкретных поисковых машин и в процессе знакомства с последними попытаться ответить на вопросы, где искать, как искать и, самое главное, — как искать, чтобы находить. Далее речь пойдет только о русскоязычных ресурсах и соответственно — об отечественных поисковых системах.

Обзор популярных русскоязычных поисковых систем

Яндекс (Яndex)(www.yandex.ru)

Проект Яndex разрабатывался компанией CompTek International и в настоящее время выделился в самостоятельную компанию «Яндекс». Яndex включен в список поисковых систем под «шапкой» Microsoft Internet Explorer.

Поиск осуществляется в русской части Интернета, включая домены «su» и «ru», а также русскоязычные ресурсы в других доменах. Глубина поиска распространяется на поиск по всем словам документа с учетом морфологии. Запрос может включать логические операторы «И», «ИЛИ», «И НЕТ». Имеется возможность поиска по точной словоформе и поиска с расстоянием. Поддерживаются скобочные выражения, поиск в заголовках и ссылках. Есть возможность поиска на естественном языке без использования логических операторов и сужения поиска на заданный URL. Дополнительно возможен поиск картинок по названию или альтернативному тексту. При выдаче документов определяется название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу и кодировка. Осуществляется подсветка искомых слов в найденных документах. Есть возможность поиска похожих документов и повторного поиска только в найденных документах.

Основным достоинством Яndex является «владение» морфологией русского языка и хорошо развитый поиск по категориям.

В категориях имеется развитый рубрикатор, позволяющий двигаться вдоль дерева, сужая систему поиска (рис. 6). Так, например, при поиске некоего вуза можно сузить поиск, двигаясь по следующим ступеням категории: Все а Наука/Техника/Образование а вузы а Москва а технические вузы и далее идут ссылки, ранжированные по индексу цитирования.

Индекс цитирования учитывает количество ресурсов, сославшихся на данный, и в отличие от рейтингов популярности (счетчиков), которые подсчитывают количество посетителей, индекс цитирования, если можно так выразиться, измеряет «уважение» к ресурсу.

Кроме того, в новом поиске Яндекса, открытом 6 июня, поиск впервые совмещен с каталогом — в результате поиска, помимо серверов, присутствуют и категории каталога, а слева показан «тематический аспект» результата.

Предусмотрена также возможность уточнения запроса.

Как уже отмечалось, поиск в Яndex учитывает словоформы по правилам русского языка, то есть поиск ведется по всем словоформам ключевого слова. Для поиска точной словоформы, например слова в определенном падеже, перед словоформой надо поставить восклицательный знак «!». Например запрос «!Путину» будет искать только те документы, где это имя встречается в дательном падеже.

При наборе слова с заглавной буквы будут найдены только слова с прописной буквы, а при наборе слова со строчной буквы будут найдены слова как с прописной, так и со строчной буквы.

Если перед словом поставить знак «+», это будет означать, что данное слово обязательно должно присутствовать во всех найденных документах. Знак «–» позволяет исключить какие-либо слова из результата поиска.

Последнее обстоятельство требует пояснения.

В Яндексе работает естественно-языковой запрос. Это значит, что поиск осуществляется следующим образом:

в верхней части списка найденных документов будут те документы (если они существуют), в которых есть фраза, заданная в запросе (помечаются как «совпадение фразы»);
затем следуют те (если существуют), в которых рядом есть все слова, составляющие запрос (помечаются как «строгое соответствие»);
далее, если первых и вторых найдено мало, будут показаны документы, в которых есть все слова запроса минус одно, самое частотное (помечается как «нестрогое соответствие»);
далее (при условии достаточно длинного запроса) — минус два самых частотных слова и т.д.

Плюс, поставленный перед словом, запрещает убирать это слово вообще.

Еще одна функция «+» — это поиск по стоп-словам.

Запрос: «я вас люблю» дает результат поиска: документов — 1 022 217, сайтов — 13 696.

Запрос: «я +вас люблю», дает результат поиска: документов — 453 553, сайтов — 8395, поскольку «вас» — стоп-слово и в обычном запросе игнорируется.

В системе Яndex реализована достаточно развитая система формирования запроса с использованием вышеупомянутых логических операторов. К сожалению, в рамках данного обзора невозможно рассмотреть подробно семантику формирования запроса. Однако в следующем номере мы посвятим этому отдельную статью, где подробно рассмотрим язык запросов в наиболее популярных поисковых системах.

Напомним лишь о расширенном поиске, который позволяет использовать основные возможности сужения поиска, не запоминая значки языка формирования запроса (рис. 7).

Рамблер (Rambler)(www.rambler.ru)

По-видимому, Rambler сегодня является наиболее популярной поисковой системой в русскоязычной части Интернета. В 1997 году система была официально включена компанией Microsoft в русскую версию Internet Explorer.

Поиск ведется по всем словам в документе. Имеется возможность использования логических операторов «И», «ИЛИ», «И НЕТ». Кроме того, возможно использование усечения терминов, ограничения по дате, сужения поиска по заданному адресу URL и исключения из поиска документов, содержащих указанные слова.

При выводе документов показываются его название, размер файла, URL, дата последнего обновления, степень соответствия запросу и кодировка. В известной мере Rambler пользуется популярностью благодаря публикации рейтингов узлов русской части Сети. Принцип ранжирования информации на основе рейтингов доминирует на Rambler, при этом структурирование информации по категориям включает только первый уровень классификации. Это означает, что в категории «Образование» вместо привычного дальнейшего деления на подкатегории (например, на школы, вузы, академии, учебные материалы и т.д.), мы найдем список ссылок по рейтингам, где соответственно первой ссылкой будет научный сервер SexRu, и в первых рядах будут стоять ссылки, где можно «скатать» рефераты. Не берусь судить, какая форма является более привлекательной для среднего пользователя, но с точки зрения поиска не «чего-то, что всем нужно», а чего-либо конкретного удобнее иметь дело с более развитым деревом категорий.

АПОРТ! (http://www.aport.ru/)

Апорт! входит в тройку наиболее популярных поисковых систем. Глубина поиска распространяется на все слова в документе. Язык запроса имеет логические операторы «И» и «ИЛИ», возможен поиск по фразе, имеется возможность усечения, отслеживается восприимчивость к строчным и прописным буквам, производится учет русской морфологии. Предусмотрено автоматическое исправление ошибок при составлении запроса. Система позволяет переводить запросы с русского на английский и обратно, а также переводить аннотации к документу в результатах поиска с английского на русский. При выдаче результатов показываются название документа, размер файла, URL, дата последнего обновления, степень соответствия запросу, кодировка.

Следопыт (http://www.medialingua.ru/www/wwwsearc.htm)

Следопыт — это метапоисковая машина разработки компании «МедиаЛингва». Красивое название «метапоисковая машина» (видимо, еще один термин, который мы пока обошли вниманием) свидетельствует, что система не только пользуется своими ресурсами, но и задействует чужие базы данных, например того же Rambler’а и множества зарубежных. Обращение к зарубежным сайтам возможно за счет встроенного перевода запроса с русского на английский и обратно. Результат поиска, естественно, выдается на языке оригинала. При выдаче результатов поиска указано, от какого поискового сервера пришел ответ. Следопыт можно использовать и для поиска на своем компьютере или в локальной сети (упрощенную версию программы можно скачать с нашего диска КомпьютерПресс 8’2000).

Последнее посещение ними этого сайта свелось к прочтению объявления: «В связи со сменой провайдера и регламентными работами метапоисковая машина Следопыт временно остановлена». Надеемся, что это не надолго.

Существует еще целый ряд русскоязычных поисковых систем, часть из которых мы приводим со ссылкой на http://www.comptek.ru/yandex/review/review_rus.html.

Резюме

Если вы до сих пор не получили ответа на вопрос: «Так как же искать, чтобы находить?», мы вас слегка огорчим: все же практика есть практика, и без некоторого знакомства с инструментами поиска хорошего улова вам не получить. Однако некоторые общие советы все же приведем.

Избегайте общих слов. Чем уникальнее ключевое слово, по которому вы осуществляете поиск, тем больше шансов, что вы скорее найдете то, что ищете. Логика здесь очевидна, однако конкретный пример позволяет лучше понять ситуацию. По данным Игоря Ашманова — директора по развитию компании «Стек» (владельца поисковой машины «Rambler»), список из 400 наиболее часто употребляемых слов русского языка со всеми словоформами (около 2000 форм), составляет одну треть всех слов в «среднем» тексте, а частотный список на 8000 слов покрывает уже 80% всех словоупотреблений в текстах.

Пользуйтесь категориями. Иногда, двигаясь по дереву категорий, вам даже не понадобится прибегать к поиску по ключевым словам. А кроме того, просмотр дерева каталога поможет вам лучше понять, как структурирована информация по интересующему вас вопросу.

Ищите больше, чем по одному слову. Сократить объем ссылок можно, определив несколько ключевых слов. Используйте синонимы.

К примеру, средняя длина запроса на Яндексе — 2,5 слова.

Не пишите заглавными буквами. Избегайте написания ключевого слова с прописной буквы, в ряде поисковых систем заглавные буквы позволяют искать имена собственные, например: «телепередача Здоровье».

Используйте функцию «Найти похожие документы». Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку «Найти похожие документы».

Пользуйтесь языком запросов. С помощью языка запросов вы сможете сделать свой запрос более точным.

Пользуйтесь расширенным запросом. Во многих поисковых системах есть форма расширенного запроса, в которой можно использовать основные механизмы сужения поиска (не запоминая семантики языка запросов).

Наберитесь терпения. Без труда не вытащишь и рыбку из пруда!

Рейтинги Интернет-ресурсов (выбор редакции)

Наряду с проблемой поиска в интернете существует проблема выбора ограниченного набора ссылок, которые пользователи обычно держат, что называется, под рукой.

Действительно, с чего человек начинает поиск? Либо с поисковой машины, либо с лучшего, наиболее полного сайта на интересующую его тему, если, конечно, такой материал известен. Всегда проще найти что-то в знакомом ресурсе. Как же вычислить эти лучшие ресурсы?

В настоящее время в Интернете существует масса рейтингов, организованных по различному принципу. Наиболее известные (типа Rambler Top 100) показывают статистику посещений сайта. Данный критерий — один из наиболее важных при оценке популярности того или иного ресурса. Однако, как любой программный счетчик, он не защищен от искусственного завышения показателя тем или иным способом. Известны разные методы «накручивания счетчика»: от написания специальных программ обращения к сайту и расширения списка ключевых слов до создания «баннеров ловушек». Например, распространены баннеры, где нарисован крестик (символ закрывания окна), при попытке задействования которого пользователь по ошибке заходит на сайт, увеличивая таким образом показатель счетчика. Кроме того, посещаемость — еще не гарантия качества ресурса. По этим и многим другим причинам желательно анализировать качество того или иного сайта не по одному, а по нескольким параметрам.

Один из таких параметров, который дополняет картину популярности сайта, — это индекс Яндекса CY — индекс цитируемости ресурса в Интернете. Он показывает популярность не столько среди пользователей, сколько среди авторов-разработчиков других сайтов. Существуют системы, которые приводят сравнение нескольких коэффициентов. Например, на страницах поисковой системы Spylog.ru можно найти сразу несколько коэффициентов. На поисковой системе Atrus.ru вы найдете еще больше показателей, включающих и отзывы читателей, и отношение к категориям — лигам (профессиональная, любительская и так далее). Однако, к сожалению, далеко не все сайты на перечисленных поисковиках проиндексированы, и зачастую сравнить рейтинги не представляется возможным, так как часть ресурсов, проиндексированная в одних системах, отсутствует в других. Поэтому попытка проанализировать общую картину выливается в отдельное исследование. Таким образом, при наличии большого количества рейтингов у пользователей сохраняется проблема выбора ресурсов, и не решена она в первую очередь для массового пользователя-непрофессионала, у которого нет возможности анализировать и сопоставлять между собой десятки поисковых систем и сотни сайтов и который хочет иметь минимум закладок. А вот на каких сайтах сделать закладку и как не превратить список этих закладок в еще одну поисковую систему — это вопрос. Для ответа на него действительно нужно провести определенное исследование. В связи с этим мы решили привести собственный рейтинг Интернет-ресурсов по наиболее популярным темам и выбрать из них десятку наиболее полезных. TOP 10 — это тот список, которым можно пользоваться и делать закладки, TOP 100 — это список, который нужно изучать.

Многие неискушенные пользователи хотят выбирать ресурсы по принципу «лучше меньше да лучше», придерживаясь мнения, что лучше зайти в один большой магазин, чем обойти десять маленьких. Поэтому, кроме известных нам критериев посещаемости и цитируемости, мы ввели также показатель, характеризующий широту охвата темы данным ресурсом. Остальные критерии постарались скомпоновать в минимальное количество интегральных показателей. Таким образом, коэффициенты, по которым мы оценивали Интернет-ресурсы, свелись к следующим:

КП — коэффициент количества посещений. Определялся как отношение количества посещений данного ресурса к числу посещений наиболее популярного ресурса по данной теме. Данный коэффициент рассчитывался на момент написания статьи исходя из статистики посещения, доступной на Rambler, Spylog, Aport, Atrus.

КЦ — коэффициент цитирования. Определялся как отношение количества цитирований данного ресурса к числу цитирования наиболее популярного (цитируемого) ресурса по данной теме. Коэффициент рассчитывался на момент написания статьи исходя из индекса цитирования Яндекса, который определяет степень популярности среди авторов ресурсов и этим принципиально отличается от счетчиков посещений, характеризуя степень популярности ресурса у пользователей.

ШОТ — коэффициент широты охвата темы. Данный коэффициент учитывает два фактора: количество категорий внутри рассматриваемой темы и количество документов, представленных на сайте.

Смысл данного коэффициента очевиден: так, например, из двух Интернет-магазинов больший коэффициент ШОТ будет иметь тот, на котором больше категорий товаров и больше самих товаров. При этом наличие непрофильных для рассматриваемой темы категорий, таких, например, как анекдоты или знакомства, на образовательном сайте не учитывалось.

КИ — коэффициент качества информации. Данный коэффициент учитывает новизну информации, присутствующей на сайте, а также то, насколько доходчиво и грамотно она изложена. Этот коэффициент учитывает не только частоту обновления, но и степень критичности обновления. Например, сайт, посвященный хронологии событий Древней Греции, может обновляться реже, чем сайт хроники современной политической жизни.

КПИ — коэффициент качества представления информации. КПИ учитывает, насколько удобно подается информация. В этом коэффициенте учитывается простота навигации, интерактивность, удобство поиска, качество дизайна, читаемость текстов, скорость загрузки и т.д.

Далее следует анализ двух тем: «Образование в Internet» и «Интернет-магазины», в которых и приводятся советы по поиску ресурсов и выбор нашей редакции рейтинг TOP 10.

КомпьютерПресс 9'2000

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12