Online Documentation Server
 ПОИСК
ods.com.ua Web
 КАТЕГОРИИ
Home
Programming
Net technology
Unixes
Security
RFC, HOWTO
Web technology
Data bases
Other docs

 


 ПОДПИСКА

 О КОПИРАЙТАХ
Вся предоставленная на этом сервере информация собрана нами из разных источников. Если Вам кажется, что публикация каких-то документов нарушает чьи-либо авторские права, сообщите нам об этом.




Содержание » Часть 2 »
Поисковые машины и каталоги

Сравнительные характеристики рекламных площадок Рамблер, Яндекс и Апорт

Сравнительные характеристики рекламных площадок Рамблер, Яндекс и Апорт

К сожалению, данные, представленные в настоящей таблице, относятся к 1999 году. Но таблица может прекрасно дать понять, по каким критериям нужно сравнивать поисковые машины и какими особенностями обладают наши ведущие поисковики.
  Rambler Yandex Aport

I. Основные характеристики поисоквых систем

Адрес www.rambler.ru www.yandex.ru www.aport.ru

Количество уникальных пользователей поисковой системы в день (среднее за неделю с 25 по 31 января 1999 года) 19 344 13 323 6 714

Количество уникальных пользователей поисковой системы в месяц (январь 99) 137 300 94 775 55 200

Количество запросов к поисковой системе в день (среднее за неделю с 25 по 31 января) 138 983* 50 235 24 057

Размер поисковой системы (на 31.01.99) 3 815 679 (DOC)
5 143 907 (URLs)
24 897 (SERV)
4 512 231 (DOC)
24 772 (SERV)
1 757 208 (DOC)
2 999 585 (URL)
13 264 (SERV)**

Количество индексируемых в день страниц (среднее за неделю с 25 по 31 января) 130 000 URLs 40 000 NEW 900 000 URLs

Период обновления страницы в индексах от недели до месяца 7 дней от недели до месяца

Появление в индексах после регистрации ближайший выходной 10 мин для доменов 'ru', 'su', 7 дней для остальных 7 дней

Появление в индексах незарегистрированных страниц от недели до месяца около 7 дней от недели до месяца

Глубина индексирования не ограничена не ограничена не ограничена

Поддержка фреймов + + +

Поддержка ImageMaps + + +

Индексация закрытых разделов + + +

Популярность веб-сайта - планируется -

Определение частоты обновления - + +

Robots.txt + + +

Meta Robots + + +

Возможность проверки страницы на наличие в индексах + + +

Возможность проверки на наличие ссылок с других страниц - планируется +

*-включая поиск по TOP100
**-данные на 02.12.1998


II. Факторы, влияющие на определение релевантности страницы

Популярность страниц - - -

Мета-теги - планируется +

Индексация в поле ALT + планируется +

Индексация текста в комментариях + - +

Стоп слова встречаются в более 600 тыс. документов список список

Морфологический поиск + + +

Учет регистра + - +

Meta-refresh ОК (робот переходит) ОК (робот не переходит) ОК (робот переходит)

Излишняя повторяемость ключевых слов SPAM SPAM SPAM

Невидимый текст SPAM SPAM SPAM

Мелкий текст SPAM SPAM SPAM


III. Факторы, влияющие на отображение страниц в результатах поиска

Длина заголовка (title) не более 512 символов не более 203 символов не более 256 символов

Если нет заголовка URL выдается "Без заголовка" выдается "Документ без названия"

Вид описания (мета-тег, первый текст на странице и т.д.) первые 513 символов из основного текста документа первые 203 символов из основного текста документа отрывки предложений (до 10), где встречаются ключевые слова

Длина описания три опции: отсутствует, не более 513 символов, не ограничена не более 203 символов цитата до 500 слов

Дата обновления документа + + +

Дата индексации документа + - +

Размер документа + + -

Кодировка документа + + +

Количество результатов на странице 15 - 30 - 50 10 - 20 - 50 10

Варианты отображения стандартный, короткий, полный простой и академический поиск сжатая, обычная, подробная



Пояснения к таблице

  1. Основные характеристики поисковых систем

    Размер поисковой системы

    Параметр, характеризующий объем информации, проиндексированной системой:

    (URL) - количество хранящихся в индексах адресов страниц;

    (DOC) - количество проиндексированных документов (последних, как правило, меньше, чем (URL), так как по нескольким URL может находиться один и тот же документ).

    (SERV) - количество проиндексированных серверов.

    На одном сервере может располагаться от одной до нескольких тысяч страниц, поэтому данная цифра больше свидетельствует о широте охвата системы, чем об ее информационном объеме. От размера поисковой системы зависит, будет ли Ваш веб-сайт представлен в ее индексах, сколько страниц веб-сайта будет проиндексировано и т.д.

    Количество индексируемых в день страниц

    Количество страниц, которые индексируются роботами поисковых систем за одни сутки. Чем выше данный параметр, тем чаще происходит переидексация страниц, тем актуальнее информация в системе.

    Период обновления страницы в индексах

    Среднее и максимальное время, через которое происходит повторная индексация страницы.

    Содержимое многих веб-страниц часто меняется, некоторые страницы попросту исчезают, поэтому для поисковой системы немаловажно поддерживать актуальную информацию в своих индексах. Однако ссылки в поисковой системе могут быть как однодневной давности, так и не обновлявшимися несколько месяцев. Причина в том, что робот не возвращается на все страницы через одинаковый промежуток времени. На скорость обновления влияют следующие факторы:

    • регистрация по запросу пользователя, при этом указанная страница заносится в индекс "вне очереди";
    • зависимость скорости обновления от популярности страницы;
    • зависимости скорости обновления от динамичности страницы.

    Появление в индексах после регистрации

    Время, через которое зарегистрированная пользователем страница появится в индексах системы. По идее, робот поисковой системы рано или поздно найдет страницу, если на нее указывают другие веб-ресурсы. Но на практике гораздо быстрее это произойдет при их непосредственной регистрации (обычно add URL).

    Появление в индексах незарегистрированных страниц

    При регистрации (add URL) пользователи, как правило, указывают URL главной страницы сайта. При этом поисковые системы обычно оперативно помещают в индексы указанную страницу и ставят весь остальной сайт в очередь на индексацию. Данный пункт указывает период, через который остальные страницы сайта появятся в индексах.

    Глубина индексирования

    Данный пункт показывает, сколько страниц помимо указанной будет индексировать поисковая система. Как правило, у крупных поисковых машин нет ограничения на глубину, и их роботы пытаются проиндексировать все страницы веб-сайта. Это не всегда получается, т.к. на их пути могут возникнуть преграды, например, такие как фреймы, ImageМaps, динамически созданные страницы и т.д. (см. ниже).Ряд поисковых систем (например, Infoseek, Lycos) при индексации ограничиваются лишь некоторым количеством страниц веб-сайта. Количество страниц зависит как от самой системы, так и от популярности индексируемого ресурса.

    Поддержка фреймов

    Некоторые поисковые системы не понимают фреймовой структуры сайта. Вследствие этого практически все страницы сайта могут быть не проиндексированы. О том, как справиться с этой напастью, написано выше.

    Поддержка ImageMaps

    Не все поисковые системы могут следовать по ссылкам, указанным посредством ImageМaps. Вследствие этого некоторые страницы Вашего сайта могут быть не проиндексированы. О том, как справиться с этой напастью, вы можете прочитать выше Индексация закрытых разделов Ряд поисковых машин могут индексировать защищенные разделы на серверах, если им указать login и пароль. Пользователь не сможет сразу перейти на защищенную страницу и изучить всю информацию, но благодаря поисковой системе он будет знать, что такая информация существует и, возможно, примет решение заплатить и получить к ней доступ.

    Популярность веб-сайта

    Поисковая система может определить "популярность" веб-сайта по количеству ссылок на него с других веб-ресурсов. Популярность может быть одним из факторов в принятии системой решения о том, индексировать данный веб-сайт или нет.

    Определение частоты обновления

    Некоторые поисковые машины определяют, насколько часто обновляются те или иные страницы. Данная информация помогает соответствующим образом спланировать график повторных визитов роботов для переиндексации страниц. Регулярно обновляемые ресурсы посещаются чаще, статичные страницы - реже.

    Robots.txt, Meta Robots

    В силу некоторых обстоятельств администратор сайта может не желать индексации всех или определенных страниц своего веб-ресурса. Избежать индексации можно двумя путями. С помощью файла Robots.txt, размещенного на веб-сервере, (его спецификации можно изучить по адресу http://info.webcrawler.com/mak/projects/robots/exclusion.html.) А также при помощи специального мета-тега, который помещается на конкретную страницу веб-сайта и предписывает роботам не заносить ее в индексы системы. Выглядит следующим образом: <META NAME="ROBOTS" CONTENT="NOINDEX">

    Возможность проверки страницы на наличие в индексах

    Очень полезная опция, которой обладают далеко не все поисковые машины. Позволяет определить наличие в индексах системы той или иной страницы и посмотреть, как она выглядит в системе.
    Синтаксис запроса для Rambler - $URL: host/url_name
    Синтаксис запроса для Yandex - попробовать добавить страницу на http://yandex.ru/addurl.html, если страница уже есть в индексах, система выдаст соответствующее сообщение.
    Синтаксис запроса для Апорта! - URL=www.promotion.aha.ru

    Возможность проверки наличия ссылок с других страниц

    Для человека, занимающегося продвижением сервера, немаловажно знать, какие ресурсы Cети содержат на него ссылку, в каком контексте эта ссылка используется и т.д. Поэтому возможность вывода сайтов, содержащих подобные ссылки, придает поисковой системе дополнительную ценность.Синтаксис запроса для Апорта! - link=www.promotion.aha.ru (пока можно указывать только имя сервера).

  2. Факторы, влияющие на определение релевантности страницы

    Популярность страниц

    Для каждой страницы поисковая система может определить, какое количество веб-ресурсов имеют на нее ссылку. Некоторые системы учитывают данный параметр "популярности" и считают подобные страницы более релевантными запросу. В этом действительно есть логика, так как наличие большого количества ссылок, как правило, свидетельствует о полезности и информативности страницы.

    Мета-теги

    Не все системы поддерживают мета-теги: description и keywords, то есть учитывают ключевые слова, содержащиеся в этих тегах, при определении релевантности страницы. Подробнее об этих тегах можно прочитать выше.
    Индексация в поле ALT
    Не все системы учитывают ключевые слова, содержащиеся в поле ALT тега IMG, при определении релевантности страницы.
    Для справки: в поле ALT заносится альтернативная текстовая подпись к картинкам на странице.

    Индексация текста в комментариях

    Не все системы учитывают ключевые слова, содержащиеся в комментариях, при определении релевантности страницы.
    Для справки: Комментарии не отображаются в браузере, и посетители сайта их обычно не видят. В основном, используются для служебной разметки Html-страницы и содержат информацию, не предназначенную для широкого круга пользователей.

    Стоп-слова

    Для экономии места и увеличения производительности некоторые поисковые системы не включают в индексы слова, встречающиеся на веб-страницах очень большое количество раз. Например, "www", артикли "а", "the" и т.д.

    Морфологический поиск

    Если поисковая система поддерживает морфологию, то поиск будет осуществляться не только по указанному слову, но и по всем его морфологическим формам. Например, при запросе "баннер" такая поисковая машина найдет также страницы, содержащие слова "баннера", "баннеров", "баннере" и т.д.

    Учет регистра

    Некоторые поисковые системы чувствительны к запросам с учетом регистра, другие - нет. Например, поисковая система AltaVista при запросе "banner" выдаст все страницы, содержащие слово "banner", где буквы могут быть в любом регистре, но при запросе "Banner" - только страницы, содержащие это слово с заглавной первой буквой.

    Meta-refresh

    В сети существуют страницы, которые автоматически переносят пользователя на другие веб-ресурсы. Причин, по которым они создаются, может быть много: сайт переехал на новое место и находится по другому адресу; страницы с редиректом созданы специально для поисковой системы, так как основные страницы сайта генерируются автоматически и не могут быть проиндексированы и т.д.

    Обычно такой автоматический редирект реализуется с помощью мета-тега refresh. Его синтаксис:
    <META HTTP-EQUIV="Refresh" CONTENT="10; URL=www.urlname.ru">

    Поисковые системы ведут себя в этом случае по-разному:

    • одни считают такие страницы спамом поисковых систем и не индексируют их;
    • другие не индексируют данную страницу, но переходят по ссылке редиректа и производят индексацию на странице назначения;
    • третьи не понимают данного мета-тега, индексируют саму страницу, но по редиректу не переходят...

    Спам поисковых систем

    Вполне понятно стремление каждого веб-мастера добиться того, чтобы при запросе по определенным ключевым словам его страница выдавалась как можно ближе к началу списка. Иногда такое желание толкает некоторых использовать неприглядные приемы искусственного увеличения релевантности своей страницы - спамить поисковые системы.

    В основном, спам заключается в использовании неоправданно большого количества ключевых слов на странице. Причем их стараются использовать там, где они имеют наибольший "вес" для поисковой системы, - в заголовке страницы (теге title), названиях разделов и т.д. Часто для того, чтобы подобные дополнительные слова не портили посетителям впечатление от страницы, их пишут текстом, совпадающим с фоном страницы, цветом или мелким шрифтом и т.д.

    Разумеется, администрация поисковиков не одобряет подобные действия. Системы поиска призваны находить и отображать документы в соответствии с тем, что содержит текст, предназначенный для посетителей, а не по "обогащенной смеси" ключевых слов.

    Крупные международные поисковики применяют ряд мер по борьбе со спамом. Если таким системам попадется страница, которая содержит в мета-теге keywords одно и то же слово более 5 раз или, например, невидимый для посетителей текст, она не будет проиндексирована системой.

    Наши поисковые системы, к сожалению, пока не поддерживают автоматических средств борьбы со спамом, и в таблице просто представлены те действия, которые расцениваются администрацией как спам. Несмотря на отсутствие автоматического контроля, я рекомендую не использовать описанные выше приемы, поскольку:

    • спам поисковых систем сильно затрудняет поиск информации в Интернете;
    • подобную страницу при обнаружении могут выкинуть из индексов вручную;
    • не за горами время ввода автоматических средств слежения за спаммерами в русских поисковых системах.

  3. Факторы, влияющие на отображение страниц в результатах поиска

    Длина заголовка (title)

    Максимальное количество символов из заголовка документа, которое отображает система.

    Если нет заголовка

    В сети встречаются страницы с пустым или отсутствующим тегом title (заголовком документа). Этот пункт показывает, что система выводит в таком случае.

    Вид описания (мета-тег, первый текст на странице и т.д.)

    Найденные документы каждая из систем отображает по-своему. Это могут быть первые N-символов текста со страницы, описание из мета-тега description, отрывки текста страницы, содержащие слова поиска и т.д.

    Длина описания

    Максимальное количество символов в описании страницы.

    Дата обновления документа

    При отображении веб-документов в результатах поиска некоторые системы указывают время создания или обновления данной страницы.

    Дата индексации документа

    При отображении веб-документов в результатах поиска некоторые системы указывают время последней индексации данной страницы.

    Размер документа

    При отображении веб-документов в результатах поиска некоторые системы указывают размер данной страницы в килобайтах.

    Кодировка документа

    При отображении веб-документов в результатах поиска некоторые системы указывают, в какой кодировке создана данная страница.

    Количество результатов на странице

    Найденные веб-документы отображаются в системе определенными порциями, обычно по 10 -20 документов.

    Варианты отображения

    Некоторые поисковые системы предусматривают несколько вариантов отображения найденных веб-документов.



© 1997-2001 Promo.ru, All right reserved. e-mail: info@promo.ru


With any suggestions or questions please feel free to contact us