Март
20

Невидимый интернет – 2011. Часть третья.

О «Невидимом интернете» и быстротекущем времени

Подавляющая часть признанных и обобщающих  работ, посвященных «Невидимому интернету» опубликованных в оффлайне и в онлайне, заканчивается 2005-2006 годами. Пожалуй, единственным исключением является защищенная в 2008 г. в Финляндии диссертация  Дмитрия Шестакова на тему «Глубокого веба». Соответственно, даже в выходящих в настоящее время публикациях наиболее авторитетных специалистов используется статистика периода до 2006 года. Между тем, как мы указывали выше, в интернете можно смело считать год за десять. Поэтому сегодня надо с большой осторожностью относиться к полученным ранее результатам.

Прежде всего, широчайшее распространение «тяжелых» аудио, а тем более, видео файлов привело к совершенно другой нагрузке на составляющие Сети и распределение пропорций между так называемым «Видимым» и «Невидимым интернетом».  Поэтому, в дальнейшем я буду оперировать в основном данными, технологиями и программами, относящимися к информации текстового и статистического характера. «Невидимый интернет» в видео и аудио формате – это совершенно отдельная тема.

Буквально на прошлой неделе Вице-Президент IBM по интеллектуальному анализу данных, сообщил, что за последние 6 лет объем документов в интернете увеличился в десять раз. На следующее десятилетие он прогнозирует увеличение порядка 25 раз. Под документом понимаются текстовые и статистические файлы ограниченного объема. (Т.е. большая книга, либо досье является рядом взаимоувязанных документов). По его мнению, подавляющая  часть этих документов, особенно, в части коммерческой, научной, патентной информации будет относиться к «Невидимому интернету». Более подробно эту тему рассмотрим в серии постов, посвященных проекту Watson и направлениях его применения в различных сферах деятельности.

В этой связи, можно говорить о том, что в современных условиях вообще становится не очень корректно сравнивать объемы информации, находящейся в  так называемом «Открытом Вебе» и в «Невидимом Вебе». По сути, на наших глазах происходит процесс расслоения интернета на несколько малосвязанных сегментов, или даже более точно, слоев.

Доступный слой, где преобладают коммерция, развлечения и справочная информация. В него все более вырождается традиционный Веб 1.

Слой социального взаимодействия, которое в настоящее время в основном происходит на основе групп по интересам, игр, делового нетворкинга и обмена легальным и нелегальным контентом. Это столь быстро развивающиеся сейчас социальные сети и, соответственно, Веб 2.

И, наконец, активно формирующийся, бурно развивающийся, обретающий свои инструменты работы «Невидимый интернет», связанный со знаниями. Как я уже неоднократно писала, знания в корне отличаются от сведений тем, что представляют собой информацию, предназначенную для конкретного использования и предполагающую, как условие этого использования, профессиональный и квалификационный уровень.

Топология «Невидимого интернета»

Традиционную топологию «Невидимого интернета», идущую от К.Шермана и Г.Прайса, можно в сжатой форме увидеть здесь.

Предлагаемая ниже топология является некоторым развитием идей, впервые изложенных Дмитрием Шестаковым в его диссертационной работе.

«Невидимый интернет» грубо можно поделить на «персонифицированный интернет», «неиндексированный интернет» и «deep web».

«Персонифицированный интернет» – это интернет социальных сетей, типа Facebook, с закрытыми для нефрендов страницами. Т.е. мало того, что содержание страниц не индексируется, хотя и, например, через кнопку «Лайк» учитывается  поисковиками (Bing), оно еще и является закрытым внутри Сети. Впрочем, буквально в последние месяцы в Америке и Великобритании появились компании, действующие легально, которые в качестве сервисной услуги предоставляют информации об активности рабоников компании об их активности в социальных сетях. Об это также подробно поговорим в одном из последующих постов.

«Неиндексируемый интернет». Раньше, во времена Шермана-Прайса значительную часть неиндексируемого интернета составляли страницы не html формата, т.е. файлы pdf,  djva, exe и т.п. К настоящему времени поисковики научились  индексировать указанные файлы и эта проблема отпала.

В неиндексируемую часть «Невидимого интернета» сегодня попадают следующие интернет-страницы и сайты:

Страницы, при создании которых в URL вставлены либо robots.txt, либо прописан метатег, либо  NOINDEX.

Страницы, использующие ставшие в последнее время популярными среди интернет дизайнеров, элементы флеш анимации;

Некоторая часть динамических сайтов, выполненных с определенными неточностями на движках типа Joomla;

Страницы сайта, на которые по тем или иным причинам не ведут гиперссылки с других страниц сайта. При этом, эти страницы, как правило, не имеют ограничительных  метатегов и записи в URL. Во многих случаях такие страницы имеются на  больших порталах и сайтах и используются либо для нужд администраторов, либо для хранения различного рода архивной и прочей информации;

Позволю себе предложить еще понятие полуиндексированного сайта. Это сайт, который зарегистрирован в каталогах поисковиков и соответственно при введении в поисковую строку запроса по теме сайта, он открывается. Но, тем не менее, из-за обсужденных выше особенностей поисковых систем, сайты не попадают не то что в первые десять, а зачастую, и в первые пятьдесят страниц выдачи, хотя содержат нужную и полезную информацию.

Причины такой полуиндексации лежат как в чрезвычайно быстром росте количества сайтов, определенном несовершенстве поисковых алгоритмов, так и в некоторых коммерческих моментах работы наиболее популярных поисковиков. Поисковики обслуживают аудиторию, а  правда жизни такова, что особенно в последнее пятилетие не только в России, но и во многих других странах мира в интернет пришла аудитория, которая ищет не информацию о сравнительных преимуществах технологии, а расписание электричек. И поиском занимается не человек, обладающий знаниями и достаточным уровнем образования, а люди, имеющие минимальный уровень подготовки.

Значительной и очень интересной с точки зрения конкурентной разведки частью «Невидимого интернета» является «Глубокий веб» или как принято называть его «Deep web». К нему, вслед за Дмитрием Шестаковым, я отношу сайты с динамическими страницами, требующими заполнения различного рода веб форм, а также в ряде случаев, специальных паролей, логинов и т.п.

Сама по себе динамическая страница присутствует только на сервере и генерируется в соответствии с запросом пользователя и отображается как обычная веб-страница. Сайты, где для такой генерации веб-страницы не предусмотрены специальные формы, как правило, нормально индексируются поисковыми системами. В случае же наличия веб формы, генерация происходит только после ее заполнения.  Соответственно, значительная часть этих страниц не индексируется. Не индексируются страницы, содержащие в полном объеме базы данных,  относящиеся к платным сайтам. Наиболее наглядно, это можно продемонстрировать на примере хорошо всем известного сайта HeadHunter. Индексируются интерфейс сайта, затем при заполнении вручную определенных веб форм, вы можете получить часть информации бесплатно, и, наконец, при введении логина и пароля, идентифицирующего оплативших услугу пользователей, вы получаете базы в полном объеме. Другие базы, такие, как, например, Интегрум, построены в более жестком режиме.

Иными словами, «deep web» это Веб баз данных, отображаемых динамическими страницами, требующими для своей генерации заполнения так называемых Search form и дополнительных форм, подтверждающих идентификацию или оплату. В совокупности эти формы называются веб-формами.

Инструменты и технологии работы в «Невидимом интернете»

Очевидно, что, поскольку «Невидимый интернет» является не только для конкурентной разведки, но и для подавляющего большинства маркетологов, хэдхантеров, огромного отряда исследователей и ученых наиболее интересной частью интернета, то должны были появиться инструменты и технологии, которые позволяют работать в этой части Веба.

Как сказал по другому поводу известный Пол Бернанке, у Соединенных Штатов есть технология для решения своих проблем – это печатный станок. Поэтому следуя «мудрому» совету г-на Бернанке, даже в отсутствие печатного станка для работы во многих сегментах «Невидимого интернета» единственный способ – это просто заплатить деньг и получить доступ к соответствующим базам. Единственное, надо знать, кто даст первоклассную информацию, а перед этим еще, и найти места, где эту информацию предоставляют. Надеюсь, что хотя бы при решении некоторых практических задач  Разведнет оказывает определенную помощь.

Для работы с неиндексированным интернетом существует ряд программных продуктов. В качестве примера можно привести http://www.kbcrawl.co.uk/ .Но лучшей в мире программой для работы с неиндексированной частью «Невидимого интернета» является программа Алексея Мыльникова SiteSputnik + Invisible, которая полностью позволяет сделать видимым неиндексированный интернет. Более того, эксперименты показывают, что дальнейшее развитие программы сможет решать вопросы придания видимости и бесплатной части «deep web». Такой же поиск могут осуществлять и специальные версии программы семейства Avalanche Андрея Масаловича.

В 2006 году Google получил патент на Поиск баз данных через формы-интерфейсы. Однако, как показали исследования Дмитрия Шестакова, применительно к сайтам Amazon.com и т.п. Google индексирует при помощи этого алгоритма не более 10% содержащихся в базе объектов. Повторенное недавно моими специалистами тестирование показало лишь незначительное увеличение до чуть более 15-17% этого показателя.

В этих условиях некоторые компании, например,  Brightplanet реализуют поиск в «deep web» как сервис.

Одновременно, развивается целый ряд поисковиков, в основном связанных с текстовыми публикациями по самым различным отраслям бизнеса, науки и техники, которые я привела в разделе DEEP WEB в меню Разведнет. Фактически, это поисковые системы, сразу выходящие на конкретные базы данных и ведущие поиск в соответствии с заполненной веб-формой.

Едва ли ни наиболее перспективным направлением поиска в deep web, являются технологии федеративного поиска, разработанные компанией Deep Web Technologies (DWT), о которых подробно рассказывается в публикациях  в разделе ПРОГРАММЫ И СЕРВИСЫ.

В общем, сегодня имеется необходимый набор программ и технологий, который при наличии точно поставленной задачи может помочь конкурентному разведчику, специалисту в той или иной сфере бизнеса, использующему методы конкурентной разведки, а также ученым, конструкторам, разработчикам найти практически необходимую информацию в «Невидимом интернете».

    Category БЛОГ     Tags

2 коммент. к записи “Невидимый интернет – 2011. Часть третья.”

  • Игорь 13 Май 2012 - 15:11

    Неужели нет похожих программ- SiteSputnik + Invisible бесплатных?

    • Елена 13 Май 2012 - 19:45

      Бесплатных нет. А цена намного ниже, чем на гораздо менее функциональные зарубежные программы. А вообще моя позиция, что за работу надо платить. А тем более, что у SiteSputnik есть бесплатная простая версия.

Прокомментировать

ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы