Цель поисковой оптимизации
Цель оптимизации сайта под поисковые системы (поисковой оптимизации, search engine optimization, SEO) — увеличить количество переходов на сайт с поисковых систем, и/или — повысить качество таких переходов, привлекая посетителей, которые, по каким-то критериям, принесут большую пользу. Критериями «полезности» посетителя может быть, например, количество посещенных им страниц или факт совершения покупки. Часто цель оптимизации выражают проще — повысить позицию сайта в списке результатов запросов по определенным ключевым словам. Поисковая оптимизация может рассматриваться как часть общей стратегии разработки сайта и продвижения.
Что такое поисковый бот
Поисковый робот (web crawler, web spider или web robot), или просто бот — это программа, которая автоматически запрашивает страницы веб-сайтов, для помещения информации об этих страницах в базу данных поисковой системы.
Индексация сайта может быть инициирована явно — регистрацией сайта в поисковой системе, либо косвенно — в результате нахождения поисковым ботом ссылок на данный сайт с других, уже индексированных, сайтов.
Как индексируется сайт
Бот начинает свою работу с одного или нескольких адресов. С сайта запрашиваются страницы по этим адресам и сканируются на предмет гипер-ссылок. Далее используется определенная стратегия перехода по сайту, используя ссылки, найденные на уже просканированных страницах. Каждый поисковик использует свою стратегию.
Обычно, бот лишь получает копии посещенных страниц; дальнейшая индексация, для быстрого поиска по ключевым словам или фразам, выполняется уже поисковым «движком».
Задачи оптимизации, решаемые с помощью системы управления сайтом
- Формирование правильных заголовков страниц и метаинформации
- Формирование читаемых URL
- Автоматическое построение меню сайта и карты сайта
- Управление поисковыми роботами с помощью robots.txt
Правила дизайна и подбора содержания
Автоматическая карта сайта
Для обеспечения индексации всех страниц сайта, рекомендуется сделать страницу, включающую ссылки на все основные страницы — т.н. карту сайта, и поместить ссылку на нее с главной страницы. После того, как поисковый бот найдет эту страницу, в его очередь обработки сразу попадут URL всех упомянутых там страниц.
C-Gator предоставляет возможность автоматической сборки карты сайта — при помощи декоратора MenuBuilder. Тем самым, при создании новой страницы и указания для нее флага включить в карту сайта, эта страница сразу попадает в карту сайта и, вероятно, будет проиндекирована при следующем проходе поискового бота.
Удобочитаемые адреса ресурсов
Сравните вот эти два вполне реальных URL (первый из них разбит на две строки для удобства чтения):
http://www.economy.gov.ru/wps/portal/!ut/p/_s.7_0_A/7_0_9D/.cmd/ad/.ar/sa.fullArchiveURI /.ps/X/.c/6_0_69/.ce/7_0_1I4/.p/5_0_FO/.d/0/_th/J_0_CH/_s.7_0_A/7_0_9D#7_0_1I4 http://www.c-gator.ru/company/news
Первый — это ссылка на список новостей с главной страницы сайта Министерства экономического развития и торговли РФ. Второй — тоже ссылка на полный список новостей, но уже на сайте компании «Деловые программы». Первый — крайне трудно запомнить, второй — вполне можно и запомнить, и набрать в строке адреса.
Для поискового «движка», казалось бы, не должно быть никакой разницы — сложный это URL или простой; тем не менее, разница есть. Некоторые поисковые машины учитывают слова, встречающиеся в самой строке адреса. И эти слова могут влиять на ранг страницы в поисковой системе.
Например, для приведенный выше двух адресов, убрав имя домена и исключив все не-буквы, мы получим фразы:
wps portal ut p s a d cmd ad ar sa fullarchiveuri ps x c ce i p fo d th j ch s a d i company news
Первая — практически бессвязный набор символов, вторая — вполне читаемый заголовок, имеющий отношение к содержанию ресурса.
Структура дерева ресурсов C-Gator изначально продумывалась так, чтобы ресурсы обладали удобочитаемыми адресами. В тех же случаях, когда этого бывает недостаточно, можно использовать URL-маппинг.
URL-маппинг для динамических страниц
URL-маппинг (URL mapping) задает преобразование между запрашиваемым URL и реальным URL, по которому получается ресурс из дерева ресурсов C-Gator. Применение URL-маппинга позволяет показывать посетителям сайта (в т.ч. и ботам) удобо-читаемые URL, скрывая за ними детали реализации страниц с динамическим содержанием.
Например, новость сайта может иметь реальный URL вида: http://www.mysite.com/company/news/view/_t_/id=1234, а пользователь видит ссылку на эту новость как http://www.mysite.com/company/news/1234.
Другой пример — ссылка на позицию в каталоге товаров интернет-магазина. Реальный URL: http://www.mysite.com/products/catalog/view?cat=123&pos=4321, пользователь же видит более информативную ссылку: http://www.mysite.com/products/dvd-players/4321, а поисковая система дает странице с таким адресом более высокий ранг.
Служебные теги (TITLE, META)
Для эффективного индексирования в заголовочной части страницы (внутри тега <HEAD>) рекомендуется указывать ряд служебных тегов и атрибутов:
- тег TITLE — заголовок страницы
- тег META с атрибутом description — краткое описание документа
- тег META с атрибутом keywords — ключевые слова документа
- тег META с атрибутом author — сведения об авторе документа
- тег META с атрибутом robots — может использоваться для указания, должна ли данная страница индексироваться поисковыми роботами; тег учитывается не всеми роботами
В C-Gator, описанные теги обычно указываются в свойстве содержимое тега header, например в таком виде:
<title>C-Gator: <decorator:ItemProperty fieldname="title" runat="server"> </decorator:ItemProperty></title> <meta http-equiv="Content-Type" content="text/html; charset=windows-1251"> <meta name="robots" content="index, follow"> <meta name="keywords" content="система управления контентом, CMS, управление сайтом, веб-проекты, разработка сайтов"> <meta name="author" content="Деловые программы"
Декоратор ItemProperty здесь используется для вставки в заголовок страницы свойства заголовок. Чаще всего, указанные определения прописываются в шаблоне, который используется для всех страниц сайта. В этом случае для каждой конкретной страницы остается лишь указать свойство заголовок — значения остальных полей будут получены из шаблона.
Структура страницы (H1/H2/H3…), alt-текст
Рекомендуется использовать теги заголовков «содержания» страницы: содержимое тегов H1, H2, H3 итп. оказывает большее влияние на ранг, чем обычный текст.
Атрибуты alt тегов IMG влияют на появление изображений в результатах Поиска картинок Google.
Ограничение количества ссылок на странице
Некоторые поисковые боты (например, бот Google), используют не все ссылки, обнаруженные на странице, а лишь не более 100 из них. Отсюда рекомендация — не помещать более ста ссылок на одной странице, разбивать громоздкие документы на несколько страниц. В частности, если карта сайта содержит более ста ссылок — имеет смысл разбить ее на несколько разделов, например, выделить карту каталога товаров в отдельную страницу.
Техническая реализация
robots.txt
В июне 1994 года участниками списка рассылки The Robots mailing list было принято соглашение, согласно которому все веб-боты должны запрашивать ресурс robots.txt, лежащий в корне сайта (например, http://www.mysite.com/robots.txt), для того чтобы определять, какие части сайта не должны сканироваться ботами. Это соглашение не является официальным стандартом сети Интернет, но, тем не менее, его придерживается большинство поисковых роботов.
Имя robots.txt обязательно записывается строчными буквами. Формат содержимого — обычный текст, ASCII. В robots.txt могут указываться правила: для каких ботов какие ресурсы недоступны. Тип бота определяется по полю User-agent запроса. Например, такое содержимое robots.txt запрещает сканирование сайта любыми ботами:
User-agent: * Disallow: /
Другой пример — каталог сайта /maps/local/ запрещен для сканирования любыми ботами, а ресурсы каталога /personas/ — запрещены для сканирования ботом Google:
User-agent: * Disallow: /maps/local/
User-agent: Googlebot
Disallow: /personas/
Некоторые боты используют свои расширения синтаксиса. Например, боты Google помимо Disallow понимают инструкцию Allow.
Использование фреймов и скриптов
При разработке сайта и продвижении стоит учитывать, что боты ограничены в возможности перехода по ссылкам, ведущим из одного фрейма в другой. Переходы, выполняемые с помощью клиентских скриптов также могут не работать, поскольку боты обрабатывают страницы несколько иначе, чем браузер. Для проверки того, как сайт воспринимается роботами, рекомендуется использовать текстовые браузеры (например, такие как lynx).
Поддержка условных запросов
Спустя некоторое время после того как сайт был проиндексирован поисковой машиной, поисковый бот может вновь вернуться к этому сайту, для того чтобы определить и проиндексировать изменения. При этом, вместо HTTP-запросов типа GET, выполняются запросы типа HEAD, возвращающие лишь заголовочную часть страницы.
Кроме того, при повторных проходах бота, могут выполняться условные запросы. Например, при указании поля If-Modified-Since: Sat, 29 Oct 1994 19:43:31 GMT веб-сервером должен возвращаться текст страницы, только если она была обновлена после указанной даты, иначе возвращается ответ с кодом 304 (not modified). Другой бот может использовать условный запрос If-Match или If-None-Match, для проверки даты изменения из служебного поля ETag. Еще одним способом определения факта изменения страницы является проверка поля Last-Modified из служебной части получаемой страницы.
В настоящее время, C-Gator поддерживает условные запросы и поля Last-Modified и ETag для ресурсов типа страница, картинка и файл.
Контроль за обеспечением качества
Очистка текстов от лишних тегов
Какое значение может иметь качество кода нашей HTML-страницы для поискового бота? Например, имеет ли значение, насколько текст «зашумлен» лишними тегами? Да, имеет.
Некоторые поисковые машины наибольшее значение придают началу документа — например, могут учитываться первые 2,5 тыс. знаков текста, а остальная часть не окажет влияния на ранг страницы. Чем более зашумлен текст — тем меньше значимой информации попадает в это «окно», тем меньше влияние полезного содержания страницы на ее позицию в результатах поиска.
Единообразие ссылок и основной домен
Часто сайт дублируется в нескольких интернет-доменах — например, www.mysite.com, mysite.com, mysite.myhoster.com итд.
В рамках одного домена должен использоваться только один вид ссылок. Например, если ваш сайт виден и как www.mysite.com и как mysite.com, то в пределах второго из этих доменов должны использоваться только ссылки на mysite.com. Иначе, ссылками в два и больше разных доменов, работа поискового бота «сбивается» и качество индексации сайта — падает.
Поисковый сервис Google позволяют явно указать, какой из доменов является основным (каноническим) — именно на него будут указывать ссылки в результатах поиска. Стоит воспользоваться этой возможностью. Для тех же целей Яндекс использует особый синтаксис в robots.txt — директиву Host.
Вместо заключения
Ну и в заключение хочется отметить — за оптимизацией сайта под поисковые системы не забывайте о том, что главный посетитель вашего сайта — это человек, а не робот. 🙂