Март
13

Федеративный поиск или что не может Google. Часть первая.

С разрешения компании Deep Web Technologies (DWT) размещаю оригинальный перевод поста Дарси Педерсона.

Федеративный поиск облегчает исследования. Он помогает находить документы высокого качества в отдаленных уголках интернета, куда не добираются поисковые системы и на специализированных ресурсах. Федеративный поиск направлен в первую очередь на поиск научных, технических, деловых, правовых документов, находятся ли они на свободных ресурсах или в  подписных базах. Это делает федеративный поиск жизненно важной технологией для исследователей и  тех, кто  профессионально работает с информацией.  По этой причине многие корпорации и исследовательские центры берут на вооружение технологии федеративного поиска.

Для реального понимания, что такое федеративный поиск и как он работает, мы сначала расскажем его отличия от традиционного поиска.

Сканирование Сети: Как работают типичные поисковые машины.

Существует два основных подхода к поиску контента в интернете. Первый подход – это подход, который использует Google и все основные поисковые машины. Это сканирование Веба. Сканирование путем обхода Веба краулерами или «пауками». Google в течение многих лет накопил список из миллиардов страниц. Первоначально его основу составили те сайты, которые их владельцы регистрировали в каталогах Google. Сегодня это уже необязательно. Сегодня Google может найти новые страницы через ссылки со страниц, которые он уже знает. Краулеры Google постоянно обходят сайты и их страницы и просматривают ссылки на них. Каждая новая ссылка регистрируется, и «паук» по ней переходит на следующую страницу. Таким образом, Google открывает сайты, которые он не знал ранее. Этот процесс перехода с одной страницы на другую называется сканированием. Он подобен процессу, когда «паук» перемещается по паутине своей сети. Благодаря этой метафоре веб-сканеры привычно называются «пауками». При создании нового сайта надо просто получить ссылку на него с другого сайта или сделать это самому, разместив такую ссылку. И тогда Google обнаружит вас.

Проблемой сканирования является то, что этот метод поиска находит далеко не всё. На деле только очень небольшой процент содержания интернета доступен для Google. Термин Deep Web относится к огромной части Веба, которая находится за пределами достигаемости краулеров. Google не может проникнуть в «Глубокий веб», потому что большинство ресурсов, находящихся в нем, не имеют ссылок с уже проиндексированных (сканированных) по ссылкам сайтов. Как такое может быть?  Рассмотрим следующий пример. Предположим, что вы исследуете воздействие некоторых опасных химических веществ на человека. Как специалисту вам может быть известно, что эту информацию надо искать в Национальной Библиотеке медицины в разделе токсикологии. Подавляющая часть информации, которую вы там обнаружите, вы никогда не найдете через Google. Почему? Для того чтобы найти нужные вам статьи, вы набрали одно или несколько слов в окне поиска и нажали кнопку «Поиск». Может быть, какую-то часть этой статьи вы обнаружили бы и по ссылкам с сайтов при помощи Google, но это была бы очень незначительная часть. Ведь Google в отличие от человека не предназначен для заполнения форм и выполнения тех или иных функций на сайте. Очевидно, что Google, например, никогда не будет знать, какие поисковые слова надо ввести в форму. Кроме того, даже если бы Google это знал, он не был бы способен релевантно отобрать документы по ключевому запросу. Такой отбор может осуществить только специалист. В общем,  Google даже если доберется до «Глубокого Веба» не сможет извлечь из него много полезной информации.

В чем отличие федеративного поиска? О формах поиска.

Хотя в большинстве случаев Google не заполняет формы поиска, это именно то, что федеративный поиск, также известный как федеративные поисковые системы, делает. Почему Google не заполняет формы? Оказывается, что заполнение форм является трудной задачей. Поисковые машины федеративного поиска включают в себя программное обеспечение, позволяющее алгоритмически заполнять все веб-формы, с которыми они сталкиваются. В отличие от Google, который имеет общий подход сканирования ссылок с любого веб-сайта, федеративные поисковые системы запрограммированы так, чтобы распознавать каждую конкретную форму поиска на конкретном сайте. При этом, специализированное программное обеспечение не только позволяет заполнять формы и имитировать нажатие кнопки «Поиск» на сайте, но и получать выдачу поисковых результатов. В нашем примере это был сайт, посвященный токсикологии. Это, конечно, трудно сделать.

Преимущества федеративного поиска.

Существенные преимущества федеративного поиска для пользователей включают эффективность, качество поисковых результатов, их актуальность и релевантность контента.

Эффективность, экономия времени.

Использование федеративного поиска экономит огромные объемы времени для исследователей. Вместо того чтобы каждый раз разыскивать отдельный источник, федеративная поисковая машина проводит поиск от имени исследователя по всем имеющимся базам. Мало того, федеративная поисковая машина еще и связывает контент из различных источников. Пользователь так же как в обычной поисковой машине заполняет единственную форму и получает выдачу результатов на одной или нескольких страницах из всех необходимых баз Deep web.

Качество результатов.

Технологии федеративного поиска показывают наилучшие результаты при поиске по обширным базам, таким, как  ресурсы исследовательских центров, библиотек, корпораций и государственных ресурсов.  Основное различие между федеративной поисковой системой и стандартной поисковой машиной типа Google заключается в том, что пользователь федеративной поисковой машины сам выбирает источники для поиска. Почти в каждом случае источник будет максимально авторитетным. Именно авторитет источника и является критерием попадания его в список баз, с которым работает федеративный поиск. Google, напротив, имеет минимальный критерий для выбора источника поиска. Это ссылки. Если веб-страница не похожа на спам, Google обязательно представит ее среди результатов поиска. Таким образом, федеративная поисковая технология действует в современном интернете подобно библиотекарям в старые времена, которые помогали читателям найти нужные им книги.

Самые последние сведения. Еще одним важным преимуществом федеративного поиска является то, что он ищет контент в режиме реального времени. Данные в реальном времени имеют решающее значение для тех исследователей, которые ищут информацию о предмете или событии, которое часто меняется. В отличие от стандартных поисковых систем типа Google, вы получите сегодняшнее содержание и вам не придется, как это происходит в стандартных поисковых машинах, перебирать сайты с информацией месячной, а то и многолетней давности.


Прокомментировать

ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы