Поиск в сети Интернет
Организация поиска в Internet Explorer
В рекламе Интернета часто повторяются восторженные слова о том, что там можно найти любую информацию. Однако опытные обитатели Сети знают, что это далеко не так. Действительно, сегодня в Глобальной сети можно получить самые разнообразные сведения — от расписания авиарейсов и маршрутов движения транспорта до прогнозов погоды и рецептов экзотических блюд. Но если по содержанию («контенту») Сеть представляет собой буквально бездонный кладезь информации, то по способу организации — это, прошу прощения за грубое выражение, типичная помойка, где найти что-либо ценное представляется весьма проблематичным.
Но, к счастью, положение не столь уж безнадежно — для поиска можно воспользоваться многочисленными специализированными инструментами и средствами: поисковыми машинами (search engines), индексированными каталогами (directories), метапоисковыми системами и специализированными списками ссылок по определенной тематике.
Типовая структура поисковой машины включает в себя базу данных и программу для ее обработки. Базы данных могут содержать страницы, как присланные (зарегистрированные) владельцами ресурсов, так и обнаруженные средствами самой поисковой системы. Программа обработки данных обычно состоит из двух частей: из сетевого агента («робот», «паук», «червяк»), который обходит все предписанные серверы, анализирует содержимое Web-страниц и выстраивает индексы или информацию о том, что и на какой странице было обнаружено, а также из определителя рейтинга, выполняющего сортировку ссылок, найденных по определенному ключевому слову. Полнотекстовые поисковые машины индексируют все слова, найденные на Web-странице, исключая иногда некоторые так называемые стоп-слова (малоинформативные, но при этом имеющие высокую частоту употребления: союзы, предлоги и т.д.).
Каталог, как правило, имеет иерархическую структуру, и все его ресурсы классифицированы по темам. Эти серверы организованы по типу справочных систем, которые описывают ресурсы Интернета, применяя для этого всевозможные рубрикаторы. Здесь отбор информации производится гораздо жестче, нежели в поисковых машинах, поэтому соответствующие базы данных обычно во много раз меньше, но вероятность нахождения нужных сведений с их помощью значительно выше. Тематическую классификацию осуществляют либо авторы каталога (и тогда такой процесс идет качественно, но медленно), либо хозяева ресурсов (в этом случае нельзя гарантировать соответствие ресурса разделу).
Поскольку составлением каталогов занимаются в основном не программы, а люди, то кроме ссылки на нужный ресурс вы скорее всего получите краткое описание его содержания. Впрочем, многие индексированные каталоги включают в себя и внутренние поисковые машины. Главная особенность каталогов состоит в том, что при обращении к ним, как правило, знаешь, что искать, и в итоге узнаешь лишь то, где расположено искомое, а поисковые серверы необходимы тогда, когда не знаешь ничего, кроме того, как называется искомое и к какой области относится.
Метапоисковые системы, напротив, не содержат собственной базы данных — они производят опрос нескольких внешних поисковых машин, а затем самостоятельно анализируют полученные результаты и в конечном итоге выдают пользователю список ссылок, порядок которых определяется соотношением рейтингов сайта сразу по нескольким поисковым машинам (что очевидно повышает объективность результата).
Еще одним популярным средством поиска нужной информации являются тематические списки ссылок, расположенные на специализированных сайтах или частных Web-страницах, например под заголовками «мои любимые ссылки» или «полезные места в Сети». Беда только в том, что такие списки или специализированные базы данных тоже нужно отыскать, а для этого необходимы дополнительные знания, которых у нас нет. Об их местонахождении можно узнать только в результате поиска или опроса специалистов; более того, некоторые из таких списков могут включать «мертвые», устаревшие или ошибочные ссылки. Хорошая отправная точка для тематического поиска — это сборники часто задаваемых вопросов (так называемые FAQ) конференций Usenet. В хранилищах таких сборников, например на http://www.faqs.org/, можно найти определенные слова или словосочетания. Конечно, при этом следует помнить, что подобные подборки составляются в большинстве случаев одним человеком или конкретной фирмой, поэтому носят субъективный или конъюнктурный характер. Так что вовсе необязательно, что информация, которая представляет интерес для хозяев данной странички, понадобится и вам. Однако у FAQ-сборников и частных списков есть и несомненные преимущества: во-первых, сведения там, как правило, более точные и полные, чем в общих каталогах, во-вторых, если владелец данного списка — специалист в данной области, и вы ему доверяете, то ценность может представлять даже сама подборка, терминология и классификация материала, и наконец, поставив закладку на такой ресурс, вы всегда можете быстро к нему вернуться. Кстати, многие ныне популярные индексированные каталоги и порталы, в том числе и знаменитый Yahoo!, в свое время были простыми списками ссылок с определенной рубрикацией.
Не забывайте и о самих телеконференциях или новостных каналах (UseNet или News), которые служат для обсуждения сетевым сообществом различных тем — от общечеловеческих до специфических. По форме они напоминают доску объявлений, на которой каждый может вывесить все что угодно, и затем обсуждать это с другими. Порядок в группах новостей чаще всего поддерживают сами пользователи, руководствуясь общепринятыми правилами (за соблюдением правил поведения в некоторых конференциях может наблюдать ведущий, называемый модератором). Старейшим представителем этой части русскоязычного Интернета является узел http://www.relcom.ru/ — здесь, кстати, можно получить исчерпывающую информацию о том, что такое телеконференции и как с ними работать.
Конференции не являются надежным источником получения информации, поскольку заочно трудно судить об уровне компетентности респондентов, однако часто они могут быть единственным источником, из которого можно получить конкретную информацию по специфическому вопросу.
Кроме того, основные поисковые серверы поддерживают поиск в новостных каналах, средство для доступа к этой части Сети поставляется вместе с браузерами. Для Internet Explorer — это служба новостей Internet News.
И наконец, электронная почта (e-mail). Хотя это, скорее, источник получения, а не поиска информации, однако при желании и с помощью определенной организации можно превратить его и в средство поиска. Прежде всего можно предоставить свой адрес для получения подписки на новости. Каждый сервер новостей дает такую возможность с предоставлением анонса, доставляемого по e-mail. Это поможет сэкономить время на регулярном посещении новостных каналов в поисках нужной информации. К тому же, найдя компетентных людей в телеконференциях, можно попытаться вести общение с ними по почте и получать таким образом более точную информацию из первых рук. При этом в ходе личной переписки они, возможно, будут сообщать вам интересные новости в данной области с указанием точного адреса Интернет-ресурсов.
Очень хорошие результаты может дать двухступенчатая схема поиска. Сначала нужно обратиться к средствам массовой информации, специализированным базам данных, сборникам часто задаваемых вопросов, конференциям или конкретным людям, чтобы найти хоть что-нибудь. После этого можно определиться с терминологией и сформулировать специфический запрос к мощной универсальной базе данных. Это поможет найти не только близкие по теме документы, но и понять место искомого предмета в общей иерархии.
Если, например, найдена интересная статья, то целесообразно поискать фамилии ее авторов в мощном автоматическом индексе. При этом могут быть обнаружены обзоры по интересующей вас теме, ссылающиеся на эту статью, или подборка подобных статей в Интернете.
Необходимо также помнить о связанности информации в Интернете и эффективно этим пользоваться. Если, скажем, вам потребуются документы, посвященные MPEG-кодированию, то для того, чтобы не захлебнуться в потоке модной музыки в MP3, лучше поискать гораздо более редкий алгоритм сжатия Wavelet. Выгода от этого очевидна — будут найдены главным образом лишь толковые и обстоятельные документы по кодированию, которые позволят вам в конце концов выйти именно на то, что вам нужно. Поиск более редкого слова уменьшает количество «шума» и устраняет те источники, где MPEG-кодирование только упоминается.
Организация поиска в Internet Explorer
Прежде чем обратиться к тем или иным средствам поиска в Интернете, вам необходимо правильно настроить свой браузер. Доступ к поисковым системам в Internet Explorer можно получить, нажав кнопку «Поиск» (Search), которая вызывает встроенную метапоисковую машину от Microsoft. Обратите внимание на строчку «Предоставлено MSN Web Search» (рис. 1). Это означает, что результаты поиска будут предоставлены в первую очередь именно этим поисковым сервером. Изменить сервер поиска, заданный по умолчанию, можно нажатием на кнопку «Настроить» (Customize): на экране появится окно настройки (рис. 2), которое позволит вам указать, какими поисковыми системами вы будете пользоваться, а также указать порядок и выбрать те серверы, с которыми вы хотите работать.
Для изменения порядка следования серверов следует воспользоваться стрелочками, расположенными ниже окна списка их имен, а для исключения ненужных необходимо снять галочки напротив имен серверов. К сожалению, в списке присутствуют только те серверы, которые устанавливаются вместе с браузером Internet Explorer, и добавить что-либо из этого окна невозможно (поэтому желательно установить русскую версию IE, в которой есть и Яndex, и Rambler, и Aport — наиболее популярные русскоязычные поисковые машины, которые удовлетворяют большинству запросов, а правила формирования сложных запросов у них в основном совпадают). После выполнения поиска в одной системе можно воспользоваться кнопкой «Следующий» (Next) для получения доступа к результатам поиска по другим серверам. Для возврата в окно задания строки поиска необходимо нажать кнопку «Создать» (New).
Кстати, не забудьте скопировать содержимое поля поиска в буфер (например, нажав Ctrl+C) — это поможет вам быстро найти нужную информацию на выбранной Web-странице (Ctrl+F) после перехода на нее по поисковой ссылке.
Преимущества такой настройки браузера очевидны — результаты поиска будут сохраняться слева от основного окна обозревателя, что позволит быстро переходить от ссылки к ссылке. Впрочем, у такого метода есть и свои недостатки — ограничение сервиса указанных поисковых систем, которые они предоставляют для этого механизма.
Итак, вы попали на Web-страницу по выбранной ссылке. Теперь, если вы сразу не находите на ней то, что нужно, нажмите Ctrl+F (это вызовет меню поиска на текущей странице) и введите строку поиска (если вы предварительно скопировали ее в буфер, то просто нажмите Ctrl+V — содержимое буфера переместится в поле поиска).
В заключение напомним о средствах поиска в «Журнале» и ссылках «Избранное» (Favorites). Помимо сортировки по дате в журнале существует вкладка «Поиск», которая позволяет искать информацию в URL-именах тех сайтов, которые вы ранее уже посещали. Для пользования «Избранным» необходимо нажать на правую кнопку мыши, установив указатель на одну из папок, и в появившемся меню выбрать процедуру стандартного поиска Windows, так как «Избранное» — это всего лишь обычный каталог на вашем диске. Для поиска по списку ссылок перейдите в нужный каталог (указав его путь в окне поиска) и включите поиск в подкаталогах.
Поисковые запросы
Чтобы найти нужную информацию, пользователь должен задать вопрос (послать запрос) поисковой машине. В ответ выдается список адресов (URL). Механизм действия очень прост, если сделать запрос правильно.
Самое простое — написать в строке запроса одно слово. Однако и здесь следует иметь в виду, что поисковые машины относятся к словам по-разному. Например, русскоязычные системы поиска «Апорт» и «Яндекс» понимают слово во всех его грамматических формах и с учетом этого будут его искать. Эти машины различаются знанием морфологии, что проявляется в их отношении к новым словам. «Апорт» жестко привязан к базовому словарю, а «Яндекс», даже встретив незнакомое слово, действует не только аналогичным образом, но при необходимости автоматически строит гипотезу, опираясь на правила русского языка. Поисковая машина «Рамблер» не работает с морфологией. Вместо этого она предоставляет возможность «расширить» слово, добавив после него звездочку (*) или замыкающий шаблон. В результате будут найдены все словоформы, начинающиеся с этих символов, в том числе и далекие от искомого.
Однако запросив одно слово, пользователь вполне может получить в ответ огромное количество ссылок (если, конечно, это не узкоспециализированный термин). Естественно, что для уточнения предмета поиска необходимо построить запрос из двух-трех слов. Все поисковые машины имеют язык запросов, который включает логические операторы, а также свои дополнительные возможности (как показано в таблице). Подробнее с языком запросов для каждой машины можно ознакомиться на ее сервере. В этом случае включенные в запрос слова будут представлены в ответе наилучшим образом: при наличии документа, в котором все они встречаются, он будет находиться в верхней части списка найденных. Если такого документа нет, то пользователь получит список из слов, по составу наиболее близких к запросу.
Некоторые пособия по поиску в Интернете считают искусством поиска умение составлять булевы выражения и заключать фразы в кавычки. Это, несомненно, полезная техника, и овладение ею необходимо, но далеко не достаточно для того, чтобы искать и находить в Сети необходимую информацию. Практика показывает, что формализовать и автоматизировать эффективность поиска практически невозможно (впрочем, о том же говорит и теория, если, конечно, изучать ее чуть глубже, чем путем заучивания умных слов вроде «релевантность» и «полнота охвата»). Подлинное искусство поиска требует активных умственных действий и принятия решений на каждом шагу. Бесспорно, поиск в Интернете требует определенных навыков, но они вырабатываются непосредственно в процессе работы.
Для повышения эффективности поиска запрос лучше формировать с применением так называемой сложной системы построения запросов. Для каждого сервера она своя, однако базовые операции поддерживаются всеми основными поисковыми системами.
Оператор |
«Апорт» |
«Рамблер» |
«Яндекс» |
---|---|---|---|
И |
AND, &, + |
AND, & |
&&, + |
ИЛИ |
OR, I |
OR, I |
I |
НЕТ |
NOT, - |
NOT, ! |
~~, - |
Группировка |
( ) |
( ) |
( ) |
Словосочетания |
“” |
Не применяется |
“” |
Заключение
В заключение, после определения основных типов инструментов поиска информации, можно дать некоторые советы общего характера, касающиеся путешествий по Web-страницам и, как мне кажется, позволяющие несколько повысить эффективность процесса анализа результатов поиска и сэкономить немного времени:
- учитесь учиться и задолго до того, как что-нибудь искать, определитесь хотя бы с терминологией. Правильно поставленный вопрос — это уже половина ответа! Прежде чем подключаться к Сети в поисках нужной информации, постарайтесь найти отправную точку из других источников, то есть ссылки на Интернет-адреса из газет и журналов, справочников типа «Желтые страницы Интернет», руководств по использованию, сопроводительных этикеток на товарах и, наконец, от друзей и знакомых;
- ищите сначала наиболее редкое — это проще. Широко распространенное найти значительно труднее. Поэтому всегда продвигайтесь от частного к общему, а не наоборот. Найдите специализированный узел по близкой тематике и уже на основе его оценки, а также полноты и качества приведенного на сайте материала принимайте решение о переходе на страницу «Ссылки», если таковая присутствует, и расширяйте тематику. В случае грамотного оформления сайта, четкости и полноты излагаемой там информации можно с большой долей уверенности сказать, что изучение Web-страниц приведенных ссылок в конце концов приведет к ответу на интересующий вас вопрос;
- обращайте внимание на количество пришедших документов. Чем больше и мощнее база данных, тем точнее должен быть запрос — по принципу «лучше меньше, да лучше», иначе искомое потеряется в «мусоре». Путешествуя по Сети, вы наверняка отметите для себя сайты, авторы которых кажутся вам компетентными в тех или иных вопросах. Сохраните их отдельно в папку «Избранное» и, прежде чем в очередной раз приступить к анализу интересующей вас проблемы, пройдите сначала по этим ссылкам — возможно, это поможет вам сэкономить время и деньги. В конце концов ваша папка «Избранное» станет отправной точкой для любого поиска в Сети.
КомпьютерПресс 10'2000