Индексация динамических страниц поисковыми системами
Как стать миллионером за четыре месяца
огда-то web-страницы создавались вручную в текстовом виде, а потом загружались на сайт. Всякий раз, когда требовалось изменить содержимое такой страницы, хозяин модифицировал ее на своем рабочем компьютере, применяя, как правило, HTML-редактор, а затем заново загружал ее на свой web-сайт. Однако web продолжал развиваться, появились большие порталы, которым для подобного обновления содержимого своих сайтов пришлось бы привлекать целую армию web-мастеров и верстальщиков. Поэтому были разработаны более эффективные способы использование концепции динамического web-сайта.
Каждая отображаемая страница таких динамических сайтов основана на шаблонной странице, в которую вставляется постоянно изменяемое информационное наполнение, которое обычно берется из соответствующей базы данных. Когда пользователь запрашивает страницу, нужная информация извлекается из базы, вставляется в шаблон, образуя новую web-страницу, и пересылается web-сервером в пользовательский браузер, который и отображает ее должным образом. Кроме информационного наполнения динамически могут создаваться также и элементы навигации по web-сайту. Таким образом, если вам нужно обновить содержимое своего сайта, вы просто добавляете текст для новой страницы, который затем вставляется в базу данных с помощью определенного механизма. В результате получается, что web-сайт как бы сам себя обновляет.
Но для того, чтобы на ваш сайт кто-нибудь заглянул, необходимо, чтобы поисковая система его проиндексировала и затем выдавала на него ссылку по запросам пользователей на те или иные ключевые слова (как известно, большинство посетителей Интернета попадают на сайты именно через поиск). Поисковики готовы бесплатно проиндексировать ваш сайт и показывать ссылки на него всем заинтересованным лицам. Однако проблема заключается в том, что многие современные технологии динамической генерации страниц осложняют такую индексацию. Поисковой системе бывает трудно сориентироваться в динамическом наполнении web-сайта и правильно его проиндексировать.
К таким технологиям динамической генерации страниц относятся: Active Server Pages (ASP), CGI-генерация, а также страницы PHP-скриптов (Hypertext Preprocessor), JSP-страницы (JavaScript и Java), CFML (Cold Fusion) и др.
Еще лет десять назад поисковые системы вообще индексировали только статистические HTML-страницы, однако сегодня ситуация кардинально изменилась. Такие поисковые системы, как Google, AltaVista и даже российский Яндекс, индексируют практически все типы динамических страниц. Однако то, что поисковая система способна индексировать динамические страницы, порой не означает, что она правильно сделает это автоматически (хотя, конечно, если регистрировать каждую страницу отдельно, то никаких проблем не будет). Более того, некоторые страницы поисковый робот может посчитать динамическими, хотя на самом деле они таковыми не являются (к динамическим страницам поисковики отнесут, например, все страницы, содержащие «?», «&» и «=» в URL).
Самым простым условием регистрации динамической страницы в поисковой системе является, конечно, заполнение полей <META CONTENT...KEYWORDS> это, как минимум, гарантирует индексацию.
Как стать миллионером за четыре месяцаАлекс Тью, 21-летний студент из Великобритании, прославился на весь мир после того, как создал сайт, сделавший его миллионером всего за четыре месяца. Идея сайта за 1 млн. долл. крайне проста. Он представляет собой сетку из 10 тыс. квадратов каждый площадью в 100 пикселов (то есть 10 на 10 каждый). Всем желающим предлагалось размещать на купленном пространстве свою рекламу со ссылкой на собственный сайт за один доллар. Необычность идеи и бурное обсуждение ее в средствах массовой информации привлекли большое количество покупателей.
Еще раньше похожую интересную идею предложил Александр Гагин из России. На странице http://lexa.ru/lexa/black/ изображен черный квадрат, каждой точке которого соответствует отдельный web-сервер, расположенный в домене 2-го уровня в доменах .RU и .SU. То есть то, что вы увидите на экране, это практически полный каталог официальных российских web-серверов (http://www.domain, http://domain).
Смело кликайте в квадрат и через полсотни попыток вы поймете, что такое средний российский web-сервер. Денег на этом, правда, российские программисты не заработали. |
||
Однако существует и много способов обмана поисковых роботов для того, чтобы искомая страница в любом случае была проиндексирована и выдавалась на запросы с целью раскрутки того или иного сайта. Но прежде чем прибегать к подобным способам, подумайте о целесообразности такого решения. Предположим, поисковые роботы перейдут по какой-то фиктивной ссылке, сформированной динамически, и проиндексируют страницу. Но если дальнейший переход зависит от серверных переменных и человек, пришедший из поисковой системы по ссылке, не увидит того, зачем он пришел, то не вызовет ли это у него заведомого недоверия ко всему ресурсу?
Среди разработчиков web-сайтов распространены самые разнообразные способы обмана поисковых роботов. Например, можно подменять обработчика ошибки доступа своим скриптом, который будет формировать страницу с ключевым текстом. Написав в файле .htaccess строку ErrorDocument 404 script.php, где script.php обработчик запрошенного адреса (URL), вы можете выводить какую-то подмену на запрос той страницы, которой на самом деле не существует.
Или же в файле httpd.conf либо .htaccess можно вписать строку Options Multiviews и в корневом каталоге поместить script.php, к которому сервер будет обращаться по запросу URL вида <корневой каталог>/script/<следующий уровень>. А в скрипте script.php программа будет разбирать переменную окружения $REQUEST_URI и показывать нужную страницу.
Можно также в файле httpd.conf или .htaccess вписать строки:
<FilesMatch “^(index)$”>
ForceType application/x-httpd-php
</FilesMatch>
В результате мы переопределим index, и если будет запрос < корневой каталог>/index/<следующий уровень>, то сервер будет считать, что index это не папка, а PHP-скрипт. Естественно, потребуется создать соответствующий скрипт index (причем без расширения), который будет разбирать все запросы.
Существуют и другие способы обмана поисковых роботов и переадресации с динамических ссылок, в том числе и те, которые будут информировать поисковика о модификациях страницы (для поисковой системы обычно важно, происходит ли обновление индексируемого ресурса), чтобы дата считалась не по тому скрипту, который обрабатывает запросы.
Однако при использовании таких методов следует помнить не только о раскрутке сайта, но и о пользователях, которые туда придут. Поэтому хорошим методом переадресации как для индексации, так и для удовлетворения запросов потенциальных пользователей является периодическая генерация теневой HTML-версии, на которую будут переадресовываться поисковые роботы и которая будет отражать хотя бы приблизительное содержимое вашего сайта, а не просто служить красивой витриной для ловли случайных посетителей.