Март
18

Увидеть незримое. Часть четвертая

Карты, деньги и web 2

Все, конечно, смотрели фильм «Карты, деньги, два ствола». К теме нашей он никакого отношения не имеет. Но название подходит. Надо только «два ствола» на «web 2» заменить. В самом деле, карты гадалки использовали для предсказаний, а у нас речь о прогнозировании. Деньги, тут все понятно. Любые прогнозные методики в первую очередь ориентированы на бизнес, а в сегодняшнем мире, как правило, апробируются применительно к финансовым рынкам. Что же до web 2, то именно он в последние пару-тройку лет стал давать необходимый контент для использования новыми инструментами прогнозирования.

Однако начнем, как водится, с истории.  Когда по земле ходили динозавры, а по небу летали птеродактили, для подключения к интернету требовалось отключать телефон, а Сергей Брин и Ларри Пейдж еще не встретились, был запущен знаменитый «Web-bot». Проект был ориентирован на то, чтобы использовать контент форумов только что появившихся в интернете и ставших предтечей web 2 для прогнозирования фондовых рынков. Команда разработчиков подобралась маленькая, но серьезная. В нее вошли первоклассный математик, программист и что немаловажно лингвист. Они составили обширнейшие словари для поиска, включающие три тысячи слов, разбитых по определенным категориям и группам, оцениваемых по большому числу параметров. Интересно, что проект был реализован на одно время подзабытом, а сегодня в своих продолжателях возрождающемся языке PROLOG. Вообще-то этот язык вместе с LISP использовался для работы над искусственным интеллектом, а сегодня новое поколение таких языков применяется для написания интеллектуальных агентов, которые, собственно говоря, уже находятся в нескольких шагах от искусственного интеллекта, проходящего тест Тьюринга.

С web-bot произошла интересная эволюция. Постепенно авторы проекта стали расширять сферу предсказаний. Прославились они тем, что смогли достаточно точно предсказать несколько судьбоносных событий, включая 11.09.2001. В последние годы эффективность web-bot стала неуклонно падать, а его прогнозы, начиная с 2010 года, отличались стопроцентной неточностью, после чего проект был по факту закрыт.

Впрочем, здесь не все так просто и история web-bot дает много пищи для размышлений относительно работающих инструментов прогнозирования. Но об это в следующей части. Пока же зафиксируем, что более полутора десятилетий назад уже начались достаточно успешные эксперименты по использованию социального контента для построения инструментов прогнозирования, базирующихся на достижениях математики, структурной лингвистики и когнитивной психологии.

Как это часто бывает в жизни, ровно в тот момент, когда первопроходцы превратились в маргиналов и ушли со сцены, начался подлинный бум направления. Этот бум связан с тремя обстоятельствами. Во-первых, появились социальные сети с сотнями миллионов пользователей и, прежде всего, Twitter, где люди пишут сообщения практически в режиме реального времени и зачастую не очень задумываясь. Во-вторых, резко возросли вычислительные мощности, и появилась возможность обрабатывать гигантские объемы данных или как их теперь называют big data. В-третьих, делом web-прогнозирования занялись не сверх талантливые одиночки-энтузиасты, а хорошо финансируемые команды, включающие профессионалов разных специальностей.

Еще два-три года назад никто не мог помыслить о том, что инструменты веб-прогнозирования будут в благожелательном ключе обсуждаться на сайте головного банка ФРС. Но это произошло. Первым делом, как всегда бывает, за дело взялись академические исследователи, которые в Америке очень даже прагматически настроены и заинтересованы в максимально быстром внедрении их научных разработок в практику. В октябре 2010 г.  в кругах инвестиционных аналитиков прогремел доклад  Johan Bollen, Huina Mao (Indiana Unviersity), Xiao-Jun Zeng (The University of Manchester) «Twitter mood predicts the stock market».

Ими была сделана программа, которая позволяет использовать сообщения Twitter для прогнозирования движения индекса Dow Jones. Алгоритм работал следующим образом – отбирал из всех Twitter сообщений в режиме реального времени сообщения, маркированные определенными словами, затем удалял эмоционально окрашенные сообщения и на основе обработки нейтральных, эмоционально не окрашенных сообщений выдавал прогноз. Выяснилось, что он позволил предсказывать движение индекса на срок от двух до шести дней с точностью почти до 88%.

Большое признание в последнее время в Америке получили разработки Ричарда Петерссона, исследователя из Стэндфордского университета. В качестве неструктурированных данных для прогнозирования он использовал не Twitter, а контент социальных СМИ, т.е. платформ, где контент создают сами пользователи. Грубо говоря, американские аналоги Хабрахабра, имеющие финансовую и инвестиционную направленность. Таких платформ с качественным контентом в англоязычном нете насчитываются сотни.

Его исследования были восприняты компанией MarketPsych. Был создан прогностический модуль. Он уверенно дает при достаточно консервативной стратегии 30% прибыли в год.  Правда, сразу надо сказать, что модуль действует пока всего в течение полутора лет.

Совсем недавно за разработку системы, аккумулирующей информацию Twitter для трейдинга, взялась компания Titan Trading Analytics. В своей системе они используют 1500 ключевых слов и более 600 факторов. Запуск системы намечается на вторую половину текущего года. Между тем, уже успешно работает хедж фонд Dervent Capital, один из портфелей которого формируется на основе twitter-прогнозирования. Первые три месяца работы Фонда показали весьма хорошие результаты.

Как мы видим, создание программ прогнозирования, базирующихся на неструктурированных данных web 2 и прежде всего Twitter, делает в коммерческом смысле только первые шаги. Но шаги, надо сказать, уверенные. Особенно интересно то обстоятельство, что эти инструменты по свидетельству инвестиционных аналитиков показывают наибольшую эффективность на самом сложном – волотильном, или по-русски говоря, неустойчивом рынке. Поэтому есть все основания полагать, что в эти инструменты прогнозирования, которые очевидно применимы не только для финансовых рынков, но и для других сфер будут вкладываться все большие деньги и туда пойдут «лучшие мозги».

Мы же в следующей части вернемся к наследию скандального web-bot.

    Category БЛОГ     Tags

Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы