Апр
8

Увидеть незримое. Часть шестая

Записывающие будущее

В 2008 г.  впервые появилась публикация о том, что данные поисковых запросов Google могут с опережением прогнозировать возникновение эпидемий гриппа. Эта публикация произвела большое впечатление на Кристофера Альберга. К этому моменту Альберг успел еще в школе написать и продать компьютерную программу для визуализации, послужить в шведском спецназе и разведке, получить докторские степени по философии и информационным технологиям, создать и продать знаменитый Spotfire.

Spotfire по сегодняшний день является одной из трех самых популярных в мире информационных панелей для визуализации внутренних (корпоративных) баз данных. Прочитав сообщение о прогностике Google, К.Альберг вместе со своим партнером С.Труве впервые подумали об интернете, как единой огромной распределенной базе неструктурированных данных.

В результате, в январе 2010 г. за счет собственных вложений К.Альберга, а также инвестиций Google и инвестиционного фонда американского разведывательного сообщества IQT был запущен проектu Recorded Fture. Проект реализует небольшая, но высококвалифицированная команда разработчиков, программистов и лингвистов, в составе чуть более 30 человек. Его целью стало создание системы, позволяющей давать достаточно достоверные прогнозы и выявлять неявные связи в настоящем.

Благодаря любезному согласию компании еще в феврале 2011 г. я впервые в Рунете опубликовала подробное описание методического подхода и архитектуры проекта Recorded Future.

К. Альберг неоднократно отмечал, что компания не публикует пресс-релизы и сотрудники не дают развернутых интервью. Но, благодаря опять же любезности компании, которая не забывает приглашать меня на свои вебинары, сегодня есть возможность подвести некоторые итоги более чем двухлетней реализации проекта.

К настоящему времени стало вполне понятно, что Recorded Future, как и подобает любой серьезной вещи, покоится на трех китах:

  • Встроенном поисковике третьего поколения. В первом поколении были системы типа Yahoo и HotBot. Они искали просто те или иные слова в документах и выдавали документы  в произвольном порядке. Поэтому такого рода поисковики сопровождались каталогами, формировавшимися в основном экспертами на основе поисковой выдачи. Нечто подобное можно до сих пор увидеть на первой странице Rambler. Вторым поколением стал Google. Революция Брина-Пейджа состояла в том, что поисковик стал искать не только по документам, но и в значительной степени по связям между документами или сайтами. Третье поколение ищет не только объекты, соответствующие поисковым запросам, не только связи между документами, но и взаимосвязи между объектами, их характеристиками и отношениями, содержащимися в различных документах. Сегодня это главное направление развития поиска. Оно в полной мере реализовано в Recorded Future. В этом же русле развивается и Ark.com . А вообще-то, первым крупномасштабным проектом на этом пути была российская Nigma.ru, финансируемая в основном американцами.
  • Разделении информационного поля на составляющие. В Recorded Future выделено три класса сообщений. Первый – это сообщения о событиях. События – это длящиеся определенный, достаточно небольшой период времени устойчивые конфигурации, которые характеризуются единством времени, места, участников и т.п. К событиям Recorded Future относит то, что может быть интерпретировано как факты, то, что реально произошло или происходит в данный момент. Второй – это мнения. К мнениям относятся любые сообщения относительно прошлых, настоящих или будущих событий, высказанные в авторитетных источниках, либо авторитетными людьми. В системе есть специальные алгоритмы, которые позволяют для каждой области выделить большую выборку таких источников и персон. Наконец, третий – это реакции. Здесь принимаются во внимание любые спонтанные реакции людей на те или иные ожидаемые события, зафиксированные в различного рода текстовых сообщениях. Не обязательно, чтобы эти сообщения были из авторитетных источников. Главное, чтобы они имели отношение к событиям и мнениям, так или иначе рассматриваемым и высказываемым в авторитетных источниках. Такое разделение на три сегмента информационного поля, как выяснилось, позволяет достаточно хорошо улавливать как господствующие тенденции и опережающим образом реагировать на их изменения, так и выявлять слабые сигналы.
  • Рассмотрении интернета, как огромной распределенной сетевой базы неструктурированных данных. Еще у древних греков были знаменитые Мойры, которые пряли нити судьбы, образующие ткань реальности. Сестер было три. Первая олицетворяла, как мы теперь говорим,  тренды. Вторая – случайности. Третья- неотвратимость последствий поступков и решений. Собственно Recorded Future использует поисковик, работающий в сегментированном информационном пространстве в масштабе огромной сетевой базы данных. В сетевой базе данных разные объекты и их характеристики связаны друг с другом прямыми, обратными и опосредованными связями. Соответственно, такой подход позволяет выявлять не только явные и очевидные связи, но и вести так называемый латентный анализ, т.е. получать неочевидные, а иногда даже и абсолютно не предполагаемые связи и отношения. К тому же обрабатывать огромное количество информации в алгоритмическом режиме. Т.е. оперировать информационными массивами, непосильными для непосредственной обработки человеком. Кстати, российская СУБД Кронос, реализованная еще в 90-е годы, использовала этот подход и была крайне популярна среди правоохранителей и тех, кто занимается конкурентной разведкой.

Что же может уже сегодня делать Recorded Future? Система используется в трех сферах:

  • В сфере государственной разведки и безопасности.
  • В бизнесе для нужд конкурентной разведки.
  • В финансах для разработки инвестиционных стратегий.

Последнее очень важно. С одной стороны, это позволяет реализовать любимый американский подход, когда любой проект, будь даже он рассчитан на использование в бюджетных организациях, должен как можно быстрее выходить на самоокупаемость, а лучше – прибыльность. С другой стороны, мир финансов, как никакая другая сфера человеческой деятельности хорошо задокументирован. Любое действие, событие и  изменение в нем тут же отражается в электронных документах самого различного формата и назначения. Соответственно, с таким материалом легче работать и на нем лучше отрабатывать любую прогностическую методику.

Поэтому интересно посмотреть, как же за эти два года Recorded Future сработал в финансовой сфере.  К.Альберг постоянно подчеркивает, что проект не ориентирован на краткосрочные предсказания в масштабе реального времени. Здесь нужны совершенно другие инструменты и подходы. В финансовом мире краткосрочный масштаб – это уже не минуты, а секунды, а в последе время – сотые секунды.  Recorded Future ориентирован поэтому на среднесрочные и долгосрочные инвестиции.

На мировом финансовом рынке популярно вложение средств в фонды, так  называемого индекса  S&P500 ( это индекс акций 500 лучших компаний, торгуемых на нью-йоркской бирже).  С использованием этого индекса Recorded Future разработал собственную инвестиционную стратегию. По итогам почти двух лет она принесла средств почти в три раза больше, чем фонды, ориентирующиеся строго на этот индекс. Самое интересное, что значительная часть этого превышения была получена в те периоды времени, когда индекс не рос, а падал. Т.е. цены на акции не повышались, а снижались. Тогда, когда фонды теряли деньги, Recorded Future их зарабатывал. Почему это происходило? Прежде всего по той причине, что система позволяла опережающее увидеть разворот тенденций и соответственно подстроиться под будущие события.

Эти результаты произвели неизгладимое впечатление и в настоящее время несколько десятков крупнейших и средних инвестиционных институтов взяли на вооружение финансовый сервис Recorded Future.

Показала свою эффективность система и в отношении прогнозирования политических событий. В частности, наперекор мнению экспертов система спрогнозировала, что Президент Йемена Салех плавно откажется от власти, там не повторятся ливийские события, и президентская семья будет сохранять значительное влияние в стране. Другим прогнозом самого последнего времени, который сбылся, стали итоги парламентских выборов в Египте после отстранения Мубарака. Другие примеры прогнозов вы можете найти на блоге компании.

Так что подход Recorded Future работает, показывая свою эффективность в самых различных областях. При этом К.Альберг далек от самодовольства или от почевания на лаврах. Он отмечает, что пока система еще не в состоянии прогнозировать значительную часть событий, относимых к «Черным лебедям». Но он убежден, что проект находится в самом начале пути и дальнейшее его развитие позволит нащупать подходы к прогнозированию не только высокочастотных, но и большей части низкочастотных событий.

Для бизнеса очень интересен тот факт, что Recorded Future ориентирован не только на государственные структуры и крупнейшие корпорации. В последнее время компания предпринимает большие усилия для того, чтобы полнофункциональный сервис был доступен для среднего  и небольшого бизнеса. На сегодняшний день, любой потенциальный клиент две недели может использовать весь функционал Recorded Future, ориентированный на коммерческого пользователя, бесплатно. Далее месячный абонемент на использование сервиса стоит всего 150 долларов. Это примерно столько же, сколько стоит месячная подписка на каждый сервис мониторинга соцсетей в Рунете. Ну, а дальше, что называется, почувствуйте разницу.

Почему это делает компания? Как я понимаю, здесь присутствует, по меньшей мере, два обстоятельства. По примеру своего первого проекта Альберг отлично знает силу небольшой стоимости сервиса. Когда у вас тысячи клиентов, которые платят небольшие деньги, это дает отличный кэш-флоу и высокую доходность. Но, думаю, это не главное. Главное ж состоит в том, что каждый новый клиент имеет свою сферу интересов, свою структуру использования функционала Recorded Future, собственную манеру работы с ним. В итоге происходит даже не тестирование системы, это вчерашний день, а ее обучение разнообразными пользователями. В теории машинного обучения это называется обучением с учителем. Как показывает практика, это самый эффективный способ обучения и соответственно совершенствования алгоритмов и функционала системы.

    Category БЛОГ     Tags

Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы