Фев
7

Recorded Future

С разрешения одной из наиболее быстро развивающихся и успешных компаний в сфере аналитики Recorded Future, в лице Chris Holden, размещаю свой перевод материала блога компании. Публикация будет состоять из трех частей.

Recorded Future представляет принципиально новый программный продукт-сервис, применяемый в самых разнообразных сферах, в том числе в конкурентной разведке, маркетинге, менеджменте и даже обыденной жизни. Продукт используется на государственном уровне, и в то же время доступен даже для малого бизнеса.

Часть первая

Recorded Future – Белая Книга по аналитике времени.

13 марта 2010 г.
«Твое письмо меня перенесло из
нынешнего в будущее время»
(В.Шекспир «Макбет»)

Введение

Recorded Future  («Записанное Будущее»)  является принципиально новым инструментом на рынке аналитики.

В отличие от традиционных поисковых систем, которые сосредотачиваются на текстовом поиске и оставляют анализ пользователю, мы стремимся обеспечить инструменты, которые способствуют идентификации и пониманию уже произошедших событий и, главное, могут помочь сформулировать гипотезы и дать ключи к пониманию вероятностей будущих событий. Мы выбрали термин «Аналитика времени» или «Темпоральная аналитика», чтобы охарактеризовать аналитические инструменты, способные решать задачи, связанные с изменениями во времени.

Белая Книга описывает основную философию и полную системную архитектуру Recorded Future и его продуктов.

Временная аналитика

Хотя главное в Recorded Future связано с инструментами аналитики изменений, неизбежно его сравнение с поисковыми системами, ведь поиск – это важный аспект аналитики. История поиска возвращает нас, по крайней мере, к 1945 году, когда  Вэнневер Буш издал свою оригинальную статью «Как мы думаем», где, между прочим, он указал, что:

-  трудность, кажется, состоит не в разнообразии и объеме наших интересов и знаний, а в нашей способности их реально использовать. Человеческий опыт и порожденные им знания  расширяются до потрясающих масштабов, а средства, которые мы используем для путешествия по этому лабиринту, остаются такими же, как и в эпоху парусных судов.

В последующие десятилетия была проделана огромная работа в информационных науках и, особенно, текстовом поиске. С появлением интернета, стала очевидной  потребность и возможность создания поисковых систем во всех огромных массивах информации. Бум поисковых систем связан с такими именами, как Excite, Lucos, Infoseek и AltaVista.  Первое поколение поисковиков было сосредоточено на традиционном поиске текста с использованием различных алгоритмов. При этом каждый документ поисковики искали по отдельности, вне связи с другими документами и их источниками.

Все изменил Google, начиная с его дебюта в 1998 г. Google – это второе поколение поисковиков. Оно основано на идеях BackRub. Основой успеха компании Google вместе с умной бизнес-политикой был алгоритм PageRank, который является сердцем системы. Основная идея PageRank алгоритма состоит в том, чтобы проанализировать связи между веб страницами и оценить страницу на основе числа связей и переходов. Использование анализа связей оказалось чрезвычайно полезным и удивительно здравым (даже учитывая то, что Google приходится постоянно совершенствовать этот алгоритм, сражаясь с попытками тех, кто пытается его использовать).

Recorded Future создало «машину» аналитики, которая помимо поиска явного анализа связей добавляет неявный анализ связей. Эта «машина» видит «невидимые связи» между документами, которые дают информацию, а также связанные с ними отношения, объекты, лица и события. Мы делаем это, отделяя документы и их содержание от того, что они говорят о «канонических» (признанных, установленных, достоверных – Е.Л.) объектах, лицах и событиях (да, эта модель в большой степени вдохновлена Платоном и его теорией о различии между реальным миром и миром идей).

Документы содержат ссылки на канонические объекты, лица и события. И мы используем их, чтобы оценить достоверность документов или источников документов, которые содержат эти ссылки. Таким образом, мы также оцениваем  и другие факторы. Например, наличие различных событий, объектов и лиц в одном и том же или связанных документах.  Все это позволяет определять  ранг канонических объектов, событий и лиц, и устанавливать уровень доверия к документам.  Меру ранжирования мы назвали импульсом. Импульс-  это совокупные суждения о том, насколько важны объект, лицо или событие в определенный момент времени. Очевидно, что в нашем динамическом мире импульс изменяется.

В дополнение к добыче событий (по аналогии с добычей данных –  Е.Л.) и ссылок на объекты и лица Recorded Future анализирует также изменения времени и пространства документов – ссылок на то, когда и где событие имело место.  И более того, даже на то, когда и где это событие может произойти – так как многие документы на самом деле относятся к событиям, ожидающимся в будущем. Мы также добавляем дополнительные компоненты. Например, исследуем отношения автора текста или сообщения к событиям, объектам и лицам.

Реализованный в «машине» семантический способ извлечения из текстов информации об объектах, лицах, событиях, времени, местоположении, отношении и т.п. является примером тенденции к созданию «Семантического Веба».

Главный путь, которым Recorded Future может делать предсказание о вероятном будущем – это  агрегация мнений о вероятности времени будущих событий на основе алгоритмизации множества объединенных мнений и знаний. В дополнение к этому мы можем использовать статистические модели, позволяющие предсказывать будущие события на основании данных, предшествующих наступлению подобных событий в сходных случаях в прошлом.

Комбинация автоматического извлечения событий, объектов, лиц, времени, местоположения неявного анализа связей для новых алгоритмов ранжирования и статистических моделей предсказания, является основанием для  временной «машины», аналитики Recorded Future. Наша миссия не состоит в том, чтобы помочь нашим клиентам найти документы. Наша миссия в том, чтобы помочь им понять то, что действительно происходит в мире.

Продолжение следует.


1 комментарий к записи “Recorded Future”

  • Вячеслав 4 Май 2014 - 16:39

    Добрый день!
    Позвольте комментарий:

    В.Буш также участвовал в разработке “дифференциального анализатора” и являлся почетным президентом MIT.

    Реализованный в «машине» семантический способ извлечения из текстов информации точь-в-точь описан в фильме “В поле зрения”.

Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы