Фев
13

Recorded Future. Часть 2.

С разрешения одной из наиболее быстро развивающихся и успешных компаний в сфере аналитики Recorded Future,  в лице Chris Holden, размещаю свой перевод материала блога компании .   Публикация будет состоять из трех частей.

Часть вторая

Recorded Future – Белая Книга по аналитике времени.

«Записанное будущее» и бизнес-аналитика.

Системы бизнес-аналитики прошли длинный путь инноваций, чтобы помочь лицам, принимающим решения в корпорациях и компаниях.

Первоначально инструменты бизнес-аналитики (BI) были нацелены на  обработку и управление данных. Это были хранилища отчетности и OLAR- кубы. Они имели дело, как правило,  с хранением и анализом финансовой, торговой, бухгалтерской,  производственной и т.п. отчетности.

Эти инструменты очень полезны,  но они слишком сосредоточены на прошлом, на том, что уже случилось. Следующий шаг был сделан в сторону оперативности. На первый план вышло обеспечение лиц, принимающих решение, данными в реальном времени. Были созданы инструменты, которые позволяли обрабатывать и предоставлять нужную информацию в режиме он-лайн.

Мы считаем, что будущее направление бизнес-аналитики будет сосредоточено на поиске информации за пределами корпорации, т.е. внешней среде и накоплении данных для принятия решений на основе не только исторических данных предприятия, но и на основе анализа и предугадывания тенденций изменений. Это и есть Recorded Future..

Как работает «Записанное будущее»

Для иллюстрации наших методов приведем простой пример. Предположим, у нас есть множество различных источников из сети, как показано на рисунке. Из этих источников мы извлекаем документы, либо используем RSS каналы, другие формы получения веб-информации. Наш анализ полученных документов из различных источников сети обнаруживает субъекты, указанные в документах и решает, к какой категории они принадлежат (в приведенном ниже примере – синий – для компаний, оранжевый – для людей и зеленый – для городов). Затем определяются события, в которых участвуют субъекты и объекты (во всех трех частях под субъектами понимаются лица, а под объектами – корпорации, компании, продукты и т.п. – Е.Л.). На приведенном ниже примере мы видим пять видов различных событий.

Они называются каноническими событиями. Теперь мы добавляем к этим установленным событиям ссылки из других различных документов (то же самое осуществляется для субъектов и объектов, но для понятности они не включены в приведенный ниже пример).

Как только этот анализ закончен, мы фактически можем избавиться от оригинальных документов и, соответственно, перейти от текстов к области данных.

Так как у нас есть информация и о времени событий, мы можем ввести дополнительные измерения в наши базы данных, например, выделив последовательность событий. На примере ниже зелеными стрелками указаны события, предшествующие другим.

На этом заканчивает переход от текстов из документов, т.е. «мира вещей», к «миру идей» канонических событий, субъектов, объектов, ссылок и отношений между ними. Как только этот важнейший шаг сделан, можно использовать все многообразие методов нашего анализа. Этот анализ  позволяет обогатить используемый набор данных и создает возможности для получения новой информации алгоритмическим путем и используя собственный разум.

Системная архитектура

Recorded Future. содержит компоненты, которые показаны  на диаграмме.

Система сосредоточена вокруг базы данных, которая содержит информацию обо всех канонических события, субъектах и объектах вместе с информацией о ссылках и документах, которые содержат эти ссылки, а также источников, из которых были получены эти документы.

Есть пять главных системных компонентов, работающих с этой базой данных:

  • Сбор урожая. Блок, в котором текстовые документы извлекаются из различных источников сети и хранятся в базе данных (хранятся на протяжении определенного времени, которое определяется разрешенными условиями использования и законодательством);
  • Лингвистический анализ. В этом блоке извлеченные тексты анализируются на предмет определения событий, объектов, субъектов, времени, местоположения, а также эмоциональной реакции и т.д. В этом блоке мы переходим из текстовой области к области данных. Этот компонент является единственным языкозависимым компонентом системы, поскольку поддерживает постоянно пополняющуюся базу естественных языков. В блоке использованы ведущие платформы лингвистики, скомбинированные с нашими оригинальными аналитическими инструментами;
  • Обработка. В этом блоке осуществляется глубинный анализ на предмет вычисления импульса (см.часть 3), субъектов и объектов событий, документов и даже источников, определения эмоциональной реакции и анализа антологий;
  • Анализ данных. В этом блоке к полученной информации о субъектах, объектах, событиях и даже источниках, включая взаимосвязи между ними, применяются различные статистические методы и элементы искусственного интеллекта с тем, чтобы выявить аномалии в полученных данных и генерировать предсказания о будущем. Они базируются на прямой информации из текстов, их обработке на основе моделей и методов, указанных выше, а также учете ранее случавшихся аналогий;
  • Пользовательский опыт. В этом блоке в систему включается сам человек, который взаимодействует с Recorded Future. через дружественный веб-интерфейс, удобную приборную панель и подключаемые при помощи API собственные программные  системы.

Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы