Март
20

Федеративный поиск или что не может Google. Часть вторая.

С разрешения компании Deep Web Technologies (DWT) размещаю оригинальный перевод поста Дарси Педерсона.

Определение Федеративного поиска

Хотя понимание Федеративного поиска различается в деталях, предлагаю наиболее понятное и точное определение. Федеративный поиск – это процесс выполнения одновременного поиска в реальном времени в нескольких различных и распределенных базах данных, где результаты поиска выдаются на единой странице. Федеративная поисковая машина выступает, таким образом, в качестве посредника. Давайте посмотрим на ключевые слова в определении и их значение для понимания сути федеративного поиска.

Федеративный – полученный контент является комбинацией из нескольких различных источников (баз данных), что обеспечивает экономию поисковых усилий в единицу времени.

Одновременный – федеративный поиск происходит по всем выбранным пользователем источникам  в одно и то же время. Было бы недопустимо медленно, если бы поиск происходил последовательно по каждому источнику.

В режиме реального времени – федеративный поиск использует только те источники, которые являются актуальными на сегодняшний день. Там нет устаревшего содержания.

Несколько – исследователь может использовать все необходимые для него источники.

Различные источники – федеративная поисковая машина может искать источники, содержащие документы различных типов, например, PDF, Word, Powerpoint.

Распределенные источники – федеративный поиск использует любые базы данных вне зависимости от их географической привязки и привязки к серверам различных типов.

Одна строка поиска – федеративная поисковая машина имеет единый интерфейс для поискового запроса.

Федеративная поисковая машина выступает в качестве посредника – парадигма федеративного поиска состоит в том, что пользователь не обращается непосредственно к источникам контента. Пользователь направляет запрос к федеративной поисковой системе, которая в свою очередь проводит поиск по каждому источнику контента. Каждый источник контента предоставляет свои результаты федеративному поисковику, который выдает их все на общей поисковой странице (страницах). Обратите внимание, что федеративный поиск был разработан независимо от веба и, следовательно, федеративные поисковики действуют на основе других алгоритмов, нежели привычные поисковые машины.

Что в имени?

Федеративный поиск имеет ряд различных названий. Довольно часто, но не всегда такие наименования, как метапоиск, глубокий веб поиск, кросс поиск по базе, распределенный поиск являются синонимами «федеративного поиска».  Мета – это термин, который часто используется для обозначения поисковой системы, которая ищет при помощи поисковиков основных поисковых систем. Dogpile, например, использует поиск трех крупных поисковых систем: Google, Yahoo, и MSN (Bing). Некоторые утверждают, что метапоисковики не являются федеративными поисковыми системами, поскольку они также как и основные поисковые системы базируются на обычных пауках и не имеют актуальную информацию.

Другие важные особенности федеративного поиска

Существуют три дополнительных функции, которые не входят в определение федеративного поиска, но являются весьма важными:

Агрегирование – процесс объединения результатов поиска из различных источников и представления их в наиболее удобном виде. Агрегирование может включать также сортировку, например, по дате, автору или названию, или может быть связано с рейтингом.

Рейтинг – зачастую при поиске через федеративную поисковую систему пользователь хочет знать, какие результаты будут ему наиболее полезны среди всех источников. Соответственно, рейтинг сравнивает результаты всех источников друг против друга и отображает результаты в соответствующем порядке. Отмечу, что, на мой взгляд, рейтинг является наиболее уязвимым местом, поскольку критерии рейтингования у каждого пользователя могут быть свои (этим федеративный поиск коренным образом отличается от традиционных поисковых машин типа Yandex и Google, которые сами производят рейтинговани на основе определенных алгоритмов, что облегчает жизнь неискушенному пользователю при формулировании простых запросов и оказывается зачастую совершенно бесполезным при сложном запросе в узкой профессиональной области – Е.Л.).

Дубликаты – непростой задачей для федеративного поисковика является устранение дубликатов. Два документа могут иметь одинаковые названия и автора, но фактически это могут быть разные версии одного документа. Соответственно,  федеративному поисковику бывает иногда трудно избежать такого дублирования. (Например, выходит доклад  «Состояние рынка разработчиков информационно-поисковых систем в 2010 г». Федеративный поисковик может принести два документа, поскольку автор написал два варианта обзора, различающиеся несколькими абзацами. В одном случае это может быть недостатком, поскольку пользователь потеряет время, изучая документы. А в другом – достоинством, поскольку добавленные абзацы могут содержать самую ценную информацию. Так что здесь, что называется, вопрос удачи. Пока никто, кроме человека не смог  найти алгоритм оценки ценности добавленной информации – Е.Л.).

Источник  http://deepwebtechblog.com/a-federated-search-primer-part-ii-of-iii/


1 комментарий к записи “Федеративный поиск или что не может Google. Часть вторая.”

  • Елена 29 Апрель 2011 - 16:10

    Часть примеров можно посмотреть на сайте Федеративного поиска, в посте есть ссылка. Также ряд поисковиков в меню Разведнет, в разделе Deep Web построены на технологии федеративного поиска

Прокомментировать

ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы