Глоссарий SE/SEO
(SE - Search EngineSEO - Search Engine Optimization)
- асессор, эксперт (assesor) - специалист, выносящий заключение о релевантности документа, найденного поисковой системой;
- булевская или двоичнаямодель (boolean model) - модель поиска, опирающаяся на операции пересечения, объединения и вычитания множеств;
- векторная модель - модель информационного поиска, рассматривающая документы и запросы как векторы в пространстве слов, а релевантность как расстояние между ними;
- вероятностная модель - модель информационного поиска, рассматривающая релевантность как вероятность соответствия данного документа запросу на основании вероятностей соответствия слов данного документа идеальному ответу;
- внетекстовые (внестраничные) критерии (off-page) - критерии ранжирования документов в поисковых системах, учитыващие факторы, не содержащиеся в тексте самого документа и не извлекаемые оттуда никаким образом;
- входные страницы(doorways, hallways) - страницы, созданные для искусственного повышения ранга в поисковых системах (поискового спама). При попадании на них пользователя перенаправляют на целевую страницу;
- графематический анализ, лексический анализ, токенизация (tokenization, lexical analysis) - выделение в тексте слов, чисел, и иных токенов, в том числе, например, нахождение границ предложений;
- дизамбигуация, таггинг (tagging, part of speech disambiguation) - выбор одного из нескольких омонимов c помощью контекста; в английском языке часто сводится к автоматическому назначению грамматической категории «часть речи»;
- дубликаты(duplicates) - разные документы с идентичным, с точки зрения пользователя, содержанием;
- приблизительные дубликаты (near duplicates) - в отличие от точных дубликатов, содержат незначительные отличия;
- иллюзия свежести- эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями;
- инвертированный файл,инверсный файл, инвертированный индекс, инвертированный список (inverted file) - индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось;
- индекс цитирования (citation index) - число упоминаний (цитирований) научной статьи, в традиционной библиографической науке рассчитывается за промежуток времени, например, за год;
- индексирование, индекс, индексация (indexing) - процесс составления или приписывания указателя (индекса) - служебной структуры данных, необходимой для последующего поиска. Латентно-семантическим индексированием называется запатентованный алгоритм поиска по смыслу, идентичный факторному анализу. Основан на сингулярном разложении матрицы связи слов с документамиl
- информационный поиск (Information Retrieval, IR) - поиск неструктурированной информации, единицой представления которой является документ произвольных форматов. Предметом поиска выступает информационная потребность пользователя, неформально выраженная в поисковом запросе. И критерий поиска, и его результаты недетермированы. Этими признаками информационный поиск отличается от «поиска данных», который оперирует набором формально заданных предикатов, имеет дело со структурированной информацией и чей результат всегда детерминирован. Теория информационного поиска изучает все составляющие процесса поиска, а именно, предварительную обработку текста (индексирование), обработку и исполнение запроса, ранжирование, пользовательский интерфейс и обратную связь;
- лемматизация, нормализация(lemmatization) - приведение формы слова к словарному виду, то есть лемме;
- обратная встречаемость или частота в документах(inverted document frequency, IDF) - показатель поисковой ценности слова (его различительной силы); обратная говорят, потому что при вычислении этого показателя в знаменателе дроби обычно стоит число документов, содержащих данное слово;
- обратная связь, псевдо-обратная связь- отклик пользователей на результат поиска, их суждения о релевантности найденных документов, зафиксированные поисковой системой и использующиеся, например, для итеративной модификации запроса. Следует отличать от псевдо-обратной связи - техники модификации запроса, в которой несколько первых найденных документов автоматически считаются релевантными;
- основа - часть слова, общая для набора его словообразовательных и словоизменительных (чаще) форм;
- подпись, сигнатура (signature) - множество хеш-значений слов некоторого блока текста. При поиске по методу сигнатур все сигнатуры всех блоков коллекции просматриваются последовательно в поисках совпадений с хеш-значениями слов запроса;
- поиск по смыслу - алгоритм информационного поиска, способный находить документы, не содержащие слов запроса;
- поиск похожих документов (similar document search)- задача информационного поиска, в которой в качестве запроса выступает сам документ и необходимо найти документы, максимально напоминающие данный;
- поисковая система, информационно-поисковая система, ИПС, поисковая машина, машина поиска, «поисковик» (search engine, SE) - программа, предназначенная для поиска информации, обычно текстовых документов;
- поисковый запрос, предписание (query) - обычно строчка текста;
- полисемия, омонимия, многозначность, омография (polysemy, homography) - наличие нескольких значений у одного и того же слова;
- полнота, охват (recall) - доля релевантного материала, заключенного в ответе поисковой системы, по отношению ко всему релевантному материалу в коллекции;
- прюнинг(pruning) - отсечение заведомо нерелевантных документов при поиске с целью ускорения выполнения запроса;
- прямой поиск- поиск непосредственно по тексту документов, без предварительной обработки (без индексирования);
- различительная сила слова или контрастность термина (term specificity, term discriminating power) - степень ширины или узости слова. Слишком широкие термины в поиске приносят слишком много информации, при это существенная часть ее бесполезна. Слишком узкие термины помогают найти слишком мало документов, хотя и более точных;
- регулярное выражение, шаблон, маска (regualr expression, pattern) - способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и т.д. В широком смысле - язык, позволяющий задавать запросы неограниченной сложности;
- релевантность (relevance, relevancy) - соответствие документа запросу;
- словоизменение(inflection) - образование формы определенного грамматического значения, обычно обязательного в данном грамматическом контексте, принадлежащей к фиксированному набору форм (парадигме), характерного для слов данного типа. В отличие от словообразования никогда не приводит к смене типа и порождает предсказуемое значение. Словоизменение имен называют склонением (declension), а глаголов - спряжением (conjugation);
- словообразование (derivation) - образование слова или основы из другого слова или основы. Чаще приводит к смене типа и к образованию слов, имеющих идеосинкразическое значение;
- спам поисковых систем, накрутка поисковых систем, спамдексинг (spam) - попытка воздействовать на результат информационного поиска со стороны авторов документов. К спаму относится также клоакинг (cloaking) - техника поискового спама, состоящая в распознании авторами документов робота (индексирующего агента) поисковой системы и генерации для него специального содержания, принципиально отличающегося от содержания, выдаваемого пользователю. Ещё одним видом спама является непотизм: - вид спама поисковых систем, установка авторами документов взаимных ссылок с единственной целью поднять свой ранг в результатах поиска;
- стемминг - поцесс выделения основы слова;
- стоп-слова (stop-words) - те союзы, предлоги и другие частотные слова, которые данная поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска;
- суффиксные деревья, суффиксные массивы (suffix trees, suffix arrays, PAT-arrays) - индекс, основанный на представлении всех значимых суффиксов текста в структуре данных, известной как бор (trie). Суффиксом в этом индексе называю любую «подстроку», начинающуюся с некоторой позиции текста (текст рассматривается как одна непрерывная строка) и продолжающуюся до его конца. В реальных приложениях длина суффиксов ограничена, а индексируются только значимые позиции - например, начала слов. Этот индекс позволяет выполнять более сложные запросы, чем индекс, построенный на инвертированных файлах;
- точность(precision) - доля релевантного материала в ответе поисковой системы;
- хеш-значение (hash-value) - значение хеш-функции (hash-function), преобразующей данные произвольной длины (обычно, строчку) в число фиксированного порядка;
- частота (слова) в документах, встречаемость в документах, документная частота (document frequency) - число документов в коллекции, содержащих данное слово;
- частота термина (term frequency, TF) - частота употреблений слова в документе;
- шингл (shingle) - хеш-значение непрерывной последовательности слов текста фиксированной длины;
- статическая популярность (PageRank) - алгоритм расчета статической (глобальной) популярности страницы в интернете, назван в честь одного из авторов - Лоуренса Пейджа. Соответствует вероятности попадания пользователя на страницу в модели случайного блуждания;
- TF*IDF -численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже в коллекции.
Народная ссылка для регистрации:
Глоссарий SE/SEOПоделитесь этой записью или добавьте в закладки
Другие материалы и статьи
» Биржа трафика Bin Layer - кидалы или нет?: Bin Layer - это рекламная сеть super-класса. Cовременная AdServer система с&nb...
» Партнерская программа Luxury Cash: Новая партнерская программа Luxury Cash по продаже различных товаров (реплики) поддерживает такие напра...
» Список партнерок, кидающих с выплатами: По многочисленным просьбам, а изначально по идее одного из моих подписчиков VladMoskva открываю раздел ...
» Twite - русскоязычный сервис монетизации твиттер аккаунта.: Твите.Ру предназначен для обеспечения простой коммуникации между теми, кто хочет рекламировать свои тов...
Комментировать