Глоссарий терминов
по поисковым системам и каталогам
Boolean search: Поиск с использованием операндов булевой алгебры,
таких, например, как AND, NOT и OR. Использование операндов существенно
увеличивает эффективность поиска. Если мы введем в поисковую систему запрос:
(мокрый OR склизкий) AND водяной AND (NOT сантехник)
то получим страницы отвечающие следующим критериям:
- содержат слово(а) "водяной";
- содержат либо "мокрый" либо "склизкий";
- не содержат слова "сантехник".
Детально язык и синтаксис запросов изложен в help каждой поисковой системы.
Bridge Page (redirect page, enter page, редирект-страницы):
Страницы, созданные специально для получения высокого рейтинга в поисковых системах.
Веб-мастер создает целый набор подобных страниц, каждая из которых
оптимизирована под определенную поисковую систему и определенные
ключевые слова. Такие страницы являются промежуточными и перенаправляют посетителя
уже непосредственно на веб-сайт. Некоторые поисковые системы считают подобные действия
спамом и игнорируют редирект-страницы.
Classification (классификация):
Процесс определения того, к какой категории принадлежит тот или иной
документ, веб-сайт и т.д.
Case sensitivity (чувствительность к регистру):
Некоторые поисковые системы чувствительны к запросам с учетом регистра, другие - нет.
Например, чувствительная к регистру поисковая система Yandex при запросе
"лебедь" выдаст Вам все страницы,
содержащие слово "лебедь", где буквы могут быть в любом регистре,
т.е. надет Вам страницы и про птицу и про небезизвестного генерала.
Но при запросе "Лебедь" - только страницы, содержащие это слово с заглавной первой буквой,
скорее всего это будет именно фамилия или предложения где это слово стоит первым.
Concept search (концептуальный поиск):
Поиск документов, имеющих прямое отношение к указанному поисковому
слову, а не просто содержащих его.
Document (документ):
Информационный объект, который желает найти и получить пользователь.
Это может быть текстовый файл, html-файл, картинка и т.д.
Index (индекс):
Индекс поисковой системы представляет собой гигантский информационный
массив, где хранятся преобразованные особым образом текстовые составляющие всех посещенных и
проиндексированных роботом html-страниц и текстовых файлов. Робот не только пополняет
массив новыми поступлениями, но и регулярно обновляет уже имеющиеся в
индексах документы.
Full-text search engine (полнотекстовая поисковая система):
Полнотекстовые поисковые системы индексируют все слова на веб-странице (иногда за
исключением стоп-слов) и учитывают порядок их расположения. В отличие от них, абстрактные
поисковые системы по определенному алгоритму создают некий экстракт
проиндексированной страницы.
Keyword search (поиск по ключевым словам):
Поиск документов, которые содержат указанные пользователем ключевые слова.
Phrase search (поиск по словосочетаниям):
Поиск документов, которые содержат в точности указанное пользователем словосочетание,
предложение, отрывок текста.
Proximity search (поиск с расстоянием): Поиск, при котором пользователь
указывает, на каком расстоянии между собой должны располагаться ключевые
слова в документе. Например, для поисковой системы
Яндекс при запросе:
"мокрый /3 сантехник"
Вы требуете найти документы, в которых содержится
и слово "мокрый", и слово "сантехник", и расстояние между ними должно быть не более трех
слов.
Query (запрос):
Набор слов и служебных символов, характеризующий информацию,
которую хочет найти пользователь.
Query-By-Example (find similar, найти подобные):
Данной полезной функцией обладают лишь часть поисковых систем. При просмотре
результатов первоначального поиска Вы выбираете документ или группу документов, наиболее
близких к тому, что Вы ищете и даете системе команду "найти подобные документы".
Query Expansion (расширенный запрос):
Процесс построения нового запроса на базе предыдущего. Например, AltaVista
позволяет разрядить многотысячный список с результатами поиска путем удаления
оттуда документов по определенным критериям.
Relevancy (релевантность документа):
Мера того, насколько полно тот или иной документ отвечает критериям, указанным
в запросе пользователя. Разумеется, далеко не всегда документ, признанный
поисковой системой наиболее релевантым, будет таким по мнению самого пользователя.
Search by Field (поиск в определенных полях):
Некоторые системы позволяют производить поиск не только по всему
html-документу, но и выборочно, по определенным полям. Например, можно
искать по заглавию документа (title), в этом случае учитываются
только ключевые слова, встречающиеся именно в заглавии документа.
Существует поиск по полю ALT тега IMG, таким поиском пользуются, когда хотят
найти в Интернете изображение на определенную тему.
Есть поиск по текстам в гиперссылках, адресах, заголовках разделов.
Например, в системе
Рамблер
по запросу
"$TITLE: реклама and $URL: ресурсы"
система найдет все страницы, содержащие слово "реклама" в заголовке, и помимо этого
хотя бы одну имеющуюся на странице ссылку, содержащую слово "ресурсы".
Search Engine (поисковая система):
Содержит в себе три компонента:
- робот, который обходит веб-сайты и заносит страницы в индексы системы;
- индекс системы, где хранятся преобразованные особым образом текстовые составляющие всех посещенных и
проиндексированных роботом html-страниц и текстовых файлов;
- и, наконец, система поиска - программа, которая обрабатывает запрос пользователя,
находит в индексе документы, отвечающие критериям запроса, и выводит список найденных документов
в порядке убывания релевантности.
О том, каким образом поисковые системы определяют релевантность страниц можно прочитать
здесь.
Spider (Crawler, Bot, Robot, робот поисковой системы):
Неотъемлемая составляющая поисковой системы - программа,
которая посещает веб-страницы, считывает (индексирует)
полностью или частично их содержимое и далее следует по ссылкам,
найденным на данной странице. Робот возвращается через определенные
периоды времени (например, каждый месяц) и индексирует страницу снова.
Вся информация заносится роботом в индексы поисковой системы.
Stemming (морфологический поиск):
Возможность системы искать слово в документах не только в строго заданном виде,
но и во всех его морфологических формах. Например, не только "идти", но
и "идет", "шел" и т.д.
Stop words (стоп-слова):
Для экономии места и увеличения производительности некоторые поисковые
системы не включают в индексы слова, встречающиеся на веб-страницах очень
большое кол-во раз. Например, "www", артикли "а", "the" и т.д.
Thesaurus (тезариус):
Список синонимов для ключевого слова, которые может использовать
система при поиске.
Weighting (весовой коэффицент):
Увеличивать релевантность документа может не только кол-во содержащихся
в нем ключевых слов, но и их расположение в документе.
Больший "вес" имеют слова в заголовке страницы
(заголовок - это то, что указанно между парным тегом <title></title>),
слова, выделенные тегами <H1-H6>, <B>, <STRONG>,
слова, находящиеся ближе к началу документа.
При поиске пользователь может также указывать системе важность того
или иного слова в запросе. Например, в системе
Рамблер
по запросу:
"-Коза ++Ностра"
при выдаче результатов большую релевантность получат страницы, содержащие "Ностра",
меньшую - "Коза".