Март
11

Увидеть незримое. Часть третья

Расчет на цифровой гуще

Так и хотелось написать – гадание на цифровой гуще. Но гадание имеет дело с будущим. Методы, о которых я буду писать в этом посте – это  работа с будущим, как с прошлым. Для начала – две истории.

То, что вы прочтете дальше – не вариация сюжета «Одиннадцати друзей Оушена». Это  реальное исследование, проведенное еще в 2004-2005 гг. в одном из американских университетов. Вкратце история такова. После тщательной подготовки группа студентов, вооруженных миниатюрными видеокамерами, в течение двух недель ходила в одно из известных казино Лас-Вегаса и снимала все, что происходило за вполне определенным игровым столом для игры в рулетку. При этом единственное, что интересовало – это сам игровой стол, шарик и рулетка. После того, как наблюдатели завершили свою работу, все материалы из видео формата были переведены в цифру. Цифровые данные были обработаны мощным компьютером. Затем наступила последняя часть эксперимента.

Трое студентов, взяв деньги, зашли в казино, заодно не забыв про видеокамеры, которые были снабжены специальным устройством, транслирующим в реальном времени изображение за пределы казино. И начали играть, делая маленькие ставки. Соответственно, информация о  поведении шарика поступала с видеокамеры в базу данных, по определенному алгоритму сверялась с уже накопленным массивом данных. На этой основе алгоритмически прогнозировалось выпадения шарика на то или иное поле. Игрокам выдавались определенные команды. После двух с половиной часов игры студенты покинули казино с выигрышем более чем полтора миллиона долларов.

Затем они опубликовали строго задокументированную научную работу. С одной стороны был огромный фурор в научных кругах, с другой – казино подало в суд на студентов и организаторов эксперимента. Несмотря на все усилия казино, присяжные оправдали исследователей. От себя замечу, что студенты были видимо не простые, если им удалось пронести в казино мимо охраны сверхминиатюрные видеокамеры и телефоны и наладить двустороннюю связь.

История вторая. В Миннеаполисе существует крупная компания, занимающаяся интеллектуальным анализом больших данных. Она выполняет заказы в интересах крупных корпораций в сфере недвижимости, потребительской торговли, услуг и т.п. Главный смысл работы состоит в следующем. Оперируя большими данными о потребителях того или  иного продукта, товара или услуги, компания сегментирует их на как можно более мелкие группы. Каждая из этих групп обладает определенными признаками и имеет устойчивое поведение. Естественно, как любая компания, она не занимается отдельным конкретным потребителем, ее интересуют массы, сведенные в небольшие группы или кластеры, поведение которых можно с высокой степенью вероятности предсказать.

Один из ведущих разработчиков компании в шутку поставил маркер на данных своей семнадцатилетней дочери.  Она участвовала в различного рода обследованиях, опросах, а также в сообществе, чьи потребительские данные и поведение в интернете с их согласия отслеживалось и анонимно обрабатывалось компанией.

Однажды удивленный отец получил информацию о том, что его дочь попала в группу, идентифицируемую как вероятные клиенты магазина для беременных. Поскольку девушка отличалась дома крайней строгостью, отец посмеялся и вскоре забыл.  Однако через месяц дочь объявила ошарашенному отцу, что она на третьем месяце беременности. В итоге ведущий разработчик стал дедушкой, а история попала на первые страницы ведущих компьютерных изданий и даже Нью-Йорк Таймс.

Обе эти истории наглядно показывают принцип прогнозирования на основе больших данных. Смотрите, в первом примере речь шла о физических объектах – шарике, рулетке, столе. Хорошо известно, что если один бильярдный шар ударяется о другой, то если ему ничего не помешает, не составит труда точно рассчитать, куда он попадет. Были бы данные.

В этой связи специалист номер один в мире по интеллектуальному анализу данных Пятецкий-Шапиро писал: «Прогнозирование на основе больших данных состоит в извлечении нетривиальных выводов из заранее известных характеристик, признаков и сведений об объектах».

Но ведь человек – не бильярдный шар. У него есть свобода воли, эмоции, право выбора и т.п. Но как показывают опять же многочисленные проведенные в самых различных странах мира в последние пять-семь лет исследования, в обычных, не экстремальных  ситуациях люди действуют в основном по привычке, или как говорят – на автомате. Нейрофизиологи даже установили, что в экстремальных и в обычных ситуациях у человека доминируют совершенно различные участки мозга.

Когда человек действует по привычке, его поведение прогнозируемо с очень высокой степенью вероятности. Соответственно, в этом случае главная задача – провести классификацию или распределение целого на группы как можно меньшей размерности, чье поведение поддается прогнозированию.

Классификация в самом грубом смысле означат нахождение у тех или иных объектов или субъектов устойчивых общих признаков. Оказывается, что при наличии таких общих признаков люди одинаковым образом себя и ведут. Собственно, на этом базируются и все психологические классификации и известные всем опросники. Но в случае использования больших данных впервые появилась возможность классифицировать не свойства людей, а всю совокупность их характеристик, а главное – типы поведения в реальных жизненных условиях.

Прогнозирование на основе интеллектуального анализа больших данных становится с каждым днем все более востребованным информационным продуктом на самых различных рынках. Все наиболее авторитетные эксперты и консалтинговые фирмы в сфере IT сходятся на том, что прогнозирование на основе интеллектуального анализа больших данных станет хитом информационных технологий ближайшего десятилетия, а специалисты в этой области будут наиболее востребованной профессией 20-х годов.

В заключение, пару слов об ограничениях этого метода. Не зря вначале я написала, что прогнозирование на основе интеллектуального анализа больших данных – это работа с будущим, как с прошлым. Этот метод работает в ситуации, когда будущее является просто продолжением настоящего и прошлого. Он хорош тогда, когда не происходит ничего экстремального и люди ведут себя в соответствии с привычками и установками, сформированными годами. Надо сказать, что даже в наше турбулентное время метод достаточно хорошо работает потому, что природа человека такова, что он как можно скорее хочет уйти от экстрима и вернуться в привычный мир жизни по привычке.  Но от турбулентности, неустойчивости, и тем более «Черного лебедя» никуда не спрячешься. Поэтому данный метод, также как и любой другой применим при всей своей модности и перспективности только в определенных сферах и для определенных периодов времени.

    Category БЛОГ     Tags

3 коммент. к записи “Увидеть незримое. Часть третья”

  • Вадим 15 Март 2012 - 18:19

    Первый пример про казино очень похож на байку, хотелось бы профлинк. Методы второго примера достаточно распространены. Я, как обычно, говорю о эконометрике и статистике в финансах и рынках.

    • Елена 17 Март 2012 - 17:11

      Первый пример ни разу ни фейк. Что касается текста исследования в Бёркли, то оно в платном доступе. Но аналогичный эксперимент был проведен в Лондоне в 2004 году. Ссылочка вот http://www.accenture.com/us-en/outlook/Pages/outlook-journal-2005-predictive-insight.aspx

      Эконометрика – вещь, конечно, полезная, но немного не про то. Она в классическом понимании имеет дело с агрегаторами, т.е. теми или иными показателями макро или микро экономики. Текст же был о том, как при помощи больших данных получить то, что в науке называется “таксонами” или классификационными единицами, описываемыми теми или иными параметрами.

      Идут споры, не сводится ли интеллектуальный анализ данных к статистике, но споры в основном без обид среди неспециалистов. Специалисты хорошо знают, что интеллектуальный анализ данных включает достаточно много областей математики за пределами статистики, и к тому же математики, доведенной до алгоритмического, программного уровня. Но даже и это не самое главное. Самое главное, что соединение интеллектуального анализа данных и больших данных позволяет именно сегодня, а тем более завтра решать в сфере человеческого поведения задачи принципиально не решаемые еще вчера.

      • Вадим 19 Март 2012 - 0:17

        Почему-то сообщение на почту не пришло, что мне ответили…
        Я тут подумал… в принципе, предположив, что дилер давно приноровился к рулетке, крутит ее примерно с одинаковой силой и шарик бросает тоже практически одинаково, то, зная эти два параметра плюс расположение чисел рулетки относительно дилера перед вращением, можно составить модель, предсказывающую конечное положение шарика. По крайней мере область на колесе. Соответственно, ставим фишки на все числа из этой области и тем самым повышаем свои шансы… Вероятно, важно, чтобы и дилер, и стол были теми же самыми, как в обучающем множестве.
        А про статистику, кончено, согласен – не только она используется. И Data Mining, и кластерный анализ, и нейронные сети, и искусственный интеллект в целом и много чего еще… Интересная вещь, например, теория измерений, говорящая, что свойства определяются отношениями, и этот принцип позволяет программно реализовать проверку практически любых гипотез в любых областях чего угодно и понять, верны ли они или нет. Говорят, даже законы физики таким образом проверяются, причем полностью автоматически. А когда известны связи, закономерности, то скорость вычислений, когда текущая ситуация подпадает под какие-то найденные условия закономерностей, – это дело техники :)
        А вобще да, надо посмотреть другие Ваши посты, вдруг выражение “соединение интеллектуального анализа данных и больших данных” несет в себе что-то радикально новое, ведь часто всё новое – это забытое (или непопулярное) старое :)

Прокомментировать

ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы