Июнь
2

Прогностические вооружения и Большие Данные

Е.Ларина, В.Овчинский

Прогнозирование в сфере высшей политики, экономики и военного дела всегда имело амбивалентную, а по-русски говоря, двойственную природу. С одной стороны прогнозирование являлось важнейшей стадией разработки ключевых стратегических, тактических и оперативных решений тех или иных проблем и  задач, разработки и реализации крупных проектов и военных компаний. С другой стороны, прогнозирование, подкрепленное мощным информационно-пропагандистским аппаратом, само по себе выступало как своеобразный вид вооружения, способ формирования будущего. Как стало известно после знаменитых экспериментов американского социолога Томаса, прогнозы, подкрепленные соответствующим информационным воздействием, сами по себе формируют реальность. Как гласит теорема Томаса: «Если человек определяет ситуацию, как реальную, она – реальна по своим последствиям». Другой американский социолог, а по совместительству советник администраций нескольких президентов Р.Мертон на основе теоремы Томаса опубликовал статью «Самоисполняющиеся пророчества». Самоисполняющееся пророчество – это ложное определение ситуации, вызывающее новое поведение, которое превращает первоначально ложное представление в реальность. Таким образом, теорема Томаса вкупе с технологией Мертона позволяют использовать прогнозирование как мощное оружие в геополитике, военном деле и бизнесе.

Поэтому вполне очевидно, что с развитием интернета и появлением Больших Данных, представляющих собой, в том числе, огромный поведенческий архив возникло желание максимально использовать открывающиеся возможности для разработки прогностических вооружений.

При этом, к началу нулевых годов профессионалам, работающим в этой сфере были ясны по меньшей мере три фундаментальных положения:

- во-первых,  используя самые изощренные и эффективные методы, можно прогнозировать процессы, но не события;

- во-вторых, прогнозы с высокой степенью вероятности можно делать в отношении групп различной размерности, но не отдельных индивидуумов;

- в-третьих, знания о действиях групп и индивидуумов в одной ситуации не позволяет давать точные прогнозы о подобных действиях, осуществляемых в другой ситуации.

Соответственно, оказалось, что различного рода прогнозы, базирующиеся на традиционных выборках, построении сценариев, экстраполяции попросту не работают.

Развитие интернета дало возможность оперировать Большими Данными относительно человеческого поведения, намерений, желаний и т.п. В этой связи специалист номер один в мире по интеллектуальному анализу данных Г.Пятецкий-Шапиро писал: «Прогнозирование на основе больших данных состоит в извлечении нетривиальных выводов из заранее известных характеристик, признаков и сведений об объектах».

Использование интернета, как огромного, пополняемого в режиме он-лайн поведенческого архива для прогнозирования развивается по трем ключевым направлениям. Первое – это прямой интеллектуальный анализ общедоступных данных, предоставляемых поисковыми системами и различного рода социальными сетями и платформами. Второе – это создание рекомендательных систем, которые прогнозируют различного рода выбор субъектов и групп, и на этой основе рекомендуют им что угодно – от книг до кандидатов в президенты.  Третье – это сложные прогностические системы, использующие разнородные данные, получаемые из открытой и закрытой части всемирной сети, обрабатываемые с помощью всего арсенала интеллектуального анализа данных.

Исторически главный упор был сделан на работу с общедоступными интернет-данными из социальных сетей и поисковых машин. Еще два-три года назад никто не мог помыслить о том, что инструменты веб-прогнозирования будут в благожелательном ключе обсуждаться на сайте головного банка ФРС. Но это произошло. Первым делом, как всегда бывает, за дело взялись академические исследователи, которые в Америке очень даже прагматически настроены и заинтересованы в максимально быстром внедрении их научных разработок в практику. В октябре 2010 г.  в кругах инвестиционных аналитиков прогремел доклад  Johan Bollen, Huina Mao (Indiana Unviersity), Xiao-Jun Zeng (The University of Manchester) «Twitter mood predicts the stock market».

Ими была сделана программа, которая позволяет использовать сообщения Twitter для прогнозирования движения индекса Dow Jones. Алгоритм работал следующим образом – отбирал из всех Twitter сообщений в режиме реального времени сообщения, маркированные определенными словами, затем удалял эмоционально окрашенные сообщения и на основе обработки нейтральных, эмоционально не окрашенных сообщений выдавал прогноз. Выяснилось, что он позволил предсказывать движение индекса на срок от двух до шести дней с точностью почти до 88%.

Большое признание в последнее время в Америке получили разработки Р.Петерссона, исследователя из Стэндфордского университета. В качестве неструктурированных данных для прогнозирования он использовал не Twitter, а контент социальных СМИ, т.е. платформ, где контент создают сами пользователи. Таких платформ с качественным контентом в англоязычном нете насчитывается сотни.

Его исследования были восприняты компанией MarketPsych. Был создан прогностический модуль. Он уверенно дает при достаточно консервативной стратегии 30% прибыли в год.  В настоящее время эта компания приобретена крупнейшим информационным провайдером, всемирно известным Thompson Reuters. Соответственно прогнозы получают подписчики Thompson Reuters, интересующиеся инвестиционной и политической тематикой.

Совсем недавно за разработку системы, аккумулирующей информацию Twitter для трейдинга, взялась компания Titan Trading Analytics. В своей системе они используют 1500 ключевых слов и более 600 факторов. Как видим, создание и практическое использование программ прогнозирования, базирующихся на неструктурированных данных web 2 и прежде всего Twitter, стало сегодня повсеместной практикой инвестиционных, макроэкономических и политических аналитиков.

Огромную роль в современном геополитическом, военном и инвестиционном прогнозировании играют общедоступные данные, связанные с частотой поисковых запросов, которые постоянно публикуют главные поисковики мира, прежде всего, Google и Bing. В нынешней реальности любой поисковый запрос представляет собой фиксацию процесса мышления о чем-то. Он показывает нам объект этого мышления,  его последовательность и многое другое. Когда интернет с одной стороны стал доступен для подавляющего большинства жителей в развитых странах в режиме он-лайн нон-стоп, а с другой, пользователи приучились к интернету, как к источнику мгновенного получения любой интересующей информации, использование поисковиков для прогнозирования стало возможным.

К настоящему времени независимыми группами исследователей, использующих различные методы и алгоритмы обработки поисковых запросов в целях прогнозирования установлено, что особым образом обработанная статистика поисковых запросов может выполнять роль опережающих индикаторов для целого ряда рынков и экономических параметров. В частности, это относится к  динамике безработицы в США, Германии, Франции;  динамике потребительских расходов на рынках электроники США, странах ЕЭС, Канаде;  ценам на недвижимость США и Великобритании;  биржевым индексам на «голубые фишки» на Нью-Йоркской и Лондонской биржах и фьючерсам на биржевой индекс китайских акций на гонконгской бирже. Уже полгода Министерство здравоохранения США успешно использует систему, построенную на анализе поисковых запросов для опережающего мониторинга и прогнозирования различного рода эпидемий в стране. На сегодняшний день обнаружено более 50 показателей, относительно которых поисковая статистика Google может быть использована как опережающий индикатор.

Вторым, бурно развивающимся направлением прогнозных вооружений, являются так называемые рекомендательные системы. Эти системы базируются на тщательном анализе поведения человека в сети. При этом анализируются не только его желания, высказанные в виде различного рода поисковых запросах, но и поведение на сайтах крупных интернет-магазинов – например, что человек ищет, как долго рассматривает что-либо и т.п. Используется здесь так называемый неявный сбор данных, когда все действия человека в сети протоколируются. Затем, на основе сложных алгоритмов выдаются рекомендации, которые подталкивают человека к тому или иному выбору. Наиболее известные рекомендательные системы созданы Amazon для книг и других товаров, продаваемых на этой универсальной платформе, eBay, Cinemax.com (рекомендации в отношении фильмов, демонстрируемых в кинотеатрах), Videoguide (для потокового видео) и т.п.

Во время последней избирательной кампании команда Б.Обамы, договорившись с крупнейшими рекомендательными платформами, успешно использовала их опыт для рекомендации Б.Обамы в качестве лучшего выбора для выявленных опять же по специальным алгоритмам колеблющихся избирателей и людей, которые вообще не собирались идти на выборы. По оценкам американских экспертов использование этой системы сыграло едва ли не решающую роль в победе Б.Обамы в кампании 2012 года.

Сегодня крупнейшие банки являются клиентами  рекомендательной германской компании  Kreditech.  Гамбургский стартап  Kreditech использует во время принятия решений информацию, почерпнутую из Facebook. Людей, претендующих на получение кредита, просят на время предоставить доступ к учётной записи в Facebook или другой социальной сети. По словам Александра Граубнера-Мюллера, одного из основателей фирмы, список ваших друзей выдаёт немало. Претендент, приятели которого прилично зарабатывают и живут в хороших районах, имеет больше шансов на кредит. Претендент, знакомый которого отказался возвращать деньги, занятые у Kreditech, ничего не получит.

В качестве одного из наиболее ярких примеров сложных прогнозных систем можно привести проект Recorded Future.  В январе 2010 года  проект Recorded Future был запущен  за счет инвестиций Google,  инвестиционного фонда американского разведывательного сообщества In-Q-Tel  и собственных вложений К.Альберга – основателя проекта, в прошлом шведского разведчика и известного программиста.

Recorded Future базируется на трех основных блоках:

- Встроенном поисковике третьего поколения. В первом поколении были системы типа Yahoo и HotBot. Они искали просто те или иные слова в документах и выдавали документы  в произвольном порядке. Поэтому такого рода поисковики сопровождались каталогами, формировавшимися в основном экспертами на основе поисковой выдачи. Нечто подобное можно до сих пор увидеть на первой странице Rambler. Вторым поколением стал Google. Революция Брина-Пейджа состояла в том, что поисковик стал искать не только по документам, но и в значительной степени по связям между документами или сайтами. Третье поколение ищет не только объекты, соответствующие поисковым запросам, не только связи между документами, но и взаимосвязи между объектами, их характеристиками и отношениями, содержащимися в различных документах. Сегодня это главное направление развития поиска. Оно в полной мере реализовано в Recorded Future.

- Разделении информационного поля на составляющие. В Recorded Future выделено три класса сообщений. Первый – это сообщения о событиях. События – это длящиеся определенный, достаточно небольшой период времени устойчивые конфигурации, которые характеризуются единством времени, места, участников и т.п. К событиям Recorded Future относит то, что может быть интерпретировано как факты, то, что реально произошло или происходит в данный момент. Второй – это мнения. К мнениям относятся любые сообщения относительно прошлых, настоящих или будущих событий, высказанные в авторитетных источниках, либо авторитетными людьми. В системе есть специальные алгоритмы, которые позволяют для каждой области выделить большую выборку таких источников и персон. Наконец, третий – это реакции. Здесь принимаются во внимание любые спонтанные реакции людей на те или иные ожидаемые события, зафиксированные в различного рода текстовых сообщениях. Не обязательно, чтобы эти сообщения были из авторитетных источников. Главное, чтобы они имели отношение к событиям и мнениям, так или иначе рассматриваемым и высказываемым в авторитетных источниках. Такое разделение на три сегмента информационного поля, как выяснилось, позволяет достаточно хорошо улавливать как господствующие тенденции и опережающим образом реагировать на их изменения, так и выявлять слабые сигналы.

- Рассмотрении интернета, как огромной распределенной сетевой базы неструктурированных данных. Еще у древних греков были знаменитые Мойры, которые пряли нити судьбы, образующие ткань реальности. Сестер было три. Первая олицетворяла, как мы теперь говорим,  тренды. Вторая – случайности. Третья- неотвратимость последствий поступков и решений. Собственно Recorded Future использует поисковик, работающий в сегментированном информационном пространстве в масштабе огромной сетевой базы данных. В сетевой базе данных разные объекты и их характеристики связаны друг с другом прямыми, обратными и опосредованными связями. Соответственно, такой подход позволяет выявлять не только явные и очевидные связи, но и вести так называемый латентный анализ, т.е. получать неочевидные, а иногда даже и абсолютно не предполагаемые связи и отношения. К тому же обрабатывать огромное количество информации в алгоритмическом режиме. Т.е. оперировать информационными массивами, непосильными для непосредственной обработки человеком.

В настоящее время Recorded Future используется в трех сферах:  государственной разведке и безопасности, в бизнесе, и в финансах для разработки инвестиционных стратегий.

Другим ярким примером прогностических систем нового поколения является платформа Quid. Эта система создана известным американским программистом и разработчиков Ш.Горли на деньги знаменитого Питера Тиля, чья разведывательная программа Palantir является любимым инструментом американского разведывательного сообщества.

Quid занимается прежде всего научно-техническим прогнозированием, поиском тех ниш, которые могут дать максимальный эффект с точки зрения развития технологий в любых сферах, включая сферу вооружения. Одновременно система может быть использована как своего рода организационное оружие, поскольку выявляет, образно говоря, технологические дыры в потенциале любой страны мира.  В качестве материала для прогнозирования программа использует Большие патентные Данные, т.е. миллионы файлов,  входящих в патентные базы по всем странам мира, а также информацию, почерпнутую из научно-технических, технологических журналов и средств массовой информации. В основе системы лежит простая, но очень эффективная мысль. Впервые она была высказана более 50 лет назад знаменитым польским мыслителем и фантастом С.Лемом. Идея состоит в том, что техника развивается примерно по тем же законам, что и живая природа.  Как известно, в живой природе существует такая ключевая единица, как биоценоз, в который входят различного рода живые виды, составляющие пищевые цепочки, системы взаимодействия и в совокупности полностью заполняющими природный ландшафт. С.Лем предположил, что то же самое происходит в технике. И назвал это техноценозом. Система Ш.Горли обнаруживает такие техноценозы, ищет в них пустые, незаполненные места. Именно эти пустые места оказываются точками роста, где появляются наиболее эффективные и одновременно наиболее прибыльные технические и технологические решения. С другой стороны, если это пятно не будет заполнено, то система техноценоза будет уязвимой, неустойчивой и плохо приспособленной к дальнейшему развитию. За 2,5 года работы компании Ш.Горли ее клиентами стали ведущие американские корпорации, разведывательные и военные структуры.

Таким образом, Большие Данные  обеспечили появление  новых, на порядки более эффективных, чем раньше, методов прогнозирования научно-технических, инженерно-технологических, инвестиционных, политических, социальных и военных процессов. Эти методы в совокупности с методиками глубокого анализа на основе все тех же Больших Данных позволяют говорить о создании принципиально нового вида вооружений, а именно – прогностических вооружений. Они могут быть использованы как обеспечивающий механизм для разработки и применения традиционных вооружений, так и при определенных условиях, о которых расскажем в следующих статьях, как отдельный, принципиально новый вид вооружений. Более того, они становятся своего рода основой Shadow Power или невидимой силы, которая идет на смену мягкой силе.

    Category БЛОГ     Tags

1 комментарий к записи “Прогностические вооружения и Большие Данные”

Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы