Recorded Future. Часть 2.
С разрешения одной из наиболее быстро развивающихся и успешных компаний в сфере аналитики Recorded Future, в лице Chris Holden, размещаю свой перевод материала блога компании . Публикация будет состоять из трех частей.
Часть вторая
Recorded Future – Белая Книга по аналитике времени.
«Записанное будущее» и бизнес-аналитика.
Системы бизнес-аналитики прошли длинный путь инноваций, чтобы помочь лицам, принимающим решения в корпорациях и компаниях.
Первоначально инструменты бизнес-аналитики (BI) были нацелены на обработку и управление данных. Это были хранилища отчетности и OLAR- кубы. Они имели дело, как правило, с хранением и анализом финансовой, торговой, бухгалтерской, производственной и т.п. отчетности.
Эти инструменты очень полезны, но они слишком сосредоточены на прошлом, на том, что уже случилось. Следующий шаг был сделан в сторону оперативности. На первый план вышло обеспечение лиц, принимающих решение, данными в реальном времени. Были созданы инструменты, которые позволяли обрабатывать и предоставлять нужную информацию в режиме он-лайн.
Мы считаем, что будущее направление бизнес-аналитики будет сосредоточено на поиске информации за пределами корпорации, т.е. внешней среде и накоплении данных для принятия решений на основе не только исторических данных предприятия, но и на основе анализа и предугадывания тенденций изменений. Это и есть Recorded Future..
Как работает «Записанное будущее»
Для иллюстрации наших методов приведем простой пример. Предположим, у нас есть множество различных источников из сети, как показано на рисунке. Из этих источников мы извлекаем документы, либо используем RSS каналы, другие формы получения веб-информации. Наш анализ полученных документов из различных источников сети обнаруживает субъекты, указанные в документах и решает, к какой категории они принадлежат (в приведенном ниже примере – синий – для компаний, оранжевый – для людей и зеленый – для городов). Затем определяются события, в которых участвуют субъекты и объекты (во всех трех частях под субъектами понимаются лица, а под объектами – корпорации, компании, продукты и т.п. – Е.Л.). На приведенном ниже примере мы видим пять видов различных событий.
Они называются каноническими событиями. Теперь мы добавляем к этим установленным событиям ссылки из других различных документов (то же самое осуществляется для субъектов и объектов, но для понятности они не включены в приведенный ниже пример).
Как только этот анализ закончен, мы фактически можем избавиться от оригинальных документов и, соответственно, перейти от текстов к области данных.
Так как у нас есть информация и о времени событий, мы можем ввести дополнительные измерения в наши базы данных, например, выделив последовательность событий. На примере ниже зелеными стрелками указаны события, предшествующие другим.
На этом заканчивает переход от текстов из документов, т.е. «мира вещей», к «миру идей» канонических событий, субъектов, объектов, ссылок и отношений между ними. Как только этот важнейший шаг сделан, можно использовать все многообразие методов нашего анализа. Этот анализ позволяет обогатить используемый набор данных и создает возможности для получения новой информации алгоритмическим путем и используя собственный разум.
Системная архитектура
Recorded Future. содержит компоненты, которые показаны на диаграмме.
Система сосредоточена вокруг базы данных, которая содержит информацию обо всех канонических события, субъектах и объектах вместе с информацией о ссылках и документах, которые содержат эти ссылки, а также источников, из которых были получены эти документы.
Есть пять главных системных компонентов, работающих с этой базой данных:
- Сбор урожая. Блок, в котором текстовые документы извлекаются из различных источников сети и хранятся в базе данных (хранятся на протяжении определенного времени, которое определяется разрешенными условиями использования и законодательством);
- Лингвистический анализ. В этом блоке извлеченные тексты анализируются на предмет определения событий, объектов, субъектов, времени, местоположения, а также эмоциональной реакции и т.д. В этом блоке мы переходим из текстовой области к области данных. Этот компонент является единственным языкозависимым компонентом системы, поскольку поддерживает постоянно пополняющуюся базу естественных языков. В блоке использованы ведущие платформы лингвистики, скомбинированные с нашими оригинальными аналитическими инструментами;
- Обработка. В этом блоке осуществляется глубинный анализ на предмет вычисления импульса (см.часть 3), субъектов и объектов событий, документов и даже источников, определения эмоциональной реакции и анализа антологий;
- Анализ данных. В этом блоке к полученной информации о субъектах, объектах, событиях и даже источниках, включая взаимосвязи между ними, применяются различные статистические методы и элементы искусственного интеллекта с тем, чтобы выявить аномалии в полученных данных и генерировать предсказания о будущем. Они базируются на прямой информации из текстов, их обработке на основе моделей и методов, указанных выше, а также учете ранее случавшихся аналогий;
- Пользовательский опыт. В этом блоке в систему включается сам человек, который взаимодействует с Recorded Future. через дружественный веб-интерфейс, удобную приборную панель и подключаемые при помощи API собственные программные системы.
Прокомментировать
Последние записи
- Рецензия на книгу Р.В.Ромачева «История частной разведки США»
- Новое на блоге
- Воспоминание о будущем — 2050
- Новая среда обитания
- Главная технология ближайшего будущего. Битва за кванты
Архивы
- Март 2022
- Февраль 2022
- Март 2021
- Январь 2021
- Декабрь 2020
- Ноябрь 2020
- Октябрь 2020
- Сентябрь 2020
- Август 2020
- Июнь 2020
- Май 2020
- Апрель 2020
- Март 2020
- Февраль 2020
- Январь 2020
- Декабрь 2019
- Ноябрь 2019
- Август 2019
- Июль 2019
- Май 2019
- Апрель 2019
- Март 2019
- Февраль 2019
- Декабрь 2018
- Октябрь 2018
- Сентябрь 2018
- Август 2018
- Июль 2018
- Июнь 2018
- Апрель 2018
- Март 2018
- Январь 2018
- Декабрь 2017
- Ноябрь 2017
- Октябрь 2017
- Сентябрь 2017
- Август 2017
- Июль 2017
- Июнь 2017
- Май 2017
- Апрель 2017
- Март 2017
- Февраль 2017
- Январь 2017
- Декабрь 2016
- Ноябрь 2016
- Октябрь 2016
- Сентябрь 2016
- Август 2016
- Июль 2016
- Июнь 2016
- Май 2016
- Апрель 2016
- Март 2016
- Февраль 2016
- Январь 2016
- Декабрь 2015
- Ноябрь 2015
- Октябрь 2015
- Сентябрь 2015
- Август 2015
- Июль 2015
- Июнь 2015
- Май 2015
- Апрель 2015
- Март 2015
- Февраль 2015
- Январь 2015
- Декабрь 2014
- Ноябрь 2014
- Октябрь 2014
- Сентябрь 2014
- Июль 2014
- Июнь 2014
- Май 2014
- Апрель 2014
- Март 2014
- Февраль 2014
- Январь 2014
- Декабрь 2013
- Ноябрь 2013
- Октябрь 2013
- Сентябрь 2013
- Август 2013
- Июль 2013
- Июнь 2013
- Май 2013
- Апрель 2013
- Март 2013
- Февраль 2013
- Январь 2013
- Декабрь 2012
- Ноябрь 2012
- Октябрь 2012
- Сентябрь 2012
- Август 2012
- Июль 2012
- Июнь 2012
- Май 2012
- Апрель 2012
- Март 2012
- Февраль 2012
- Январь 2012
- Декабрь 2011
- Ноябрь 2011
- Октябрь 2011
- Сентябрь 2011
- Август 2011
- Июль 2011
- Июнь 2011
- Май 2011
- Апрель 2011
- Март 2011
- Февраль 2011
- Январь 2011
- Декабрь 2010