Фев
26

Эра больших данных. Часть вторая

Сокращенный оригинальный перевод статьи Steve Lohr в New York Times

Интеллектуальный анализ больших данных открывает новые перспективы для прогнозирования. Особенно активно большие данные в прогнозировании используются в таких областях как здравоохранение, финансы и экономика, корпоративная и государственная безопасность.

Можно привести следующий необычный пример. Анализируя большие данные интернет-запросов, исследователи обнаружили странный феномен. Уже несколько лет всплеск поисковых запросов Google по таким терминам, как лечение гриппа, симптомы гриппа и т.п. на несколько недель предваряет начало стремительного нарастания эпидемии гриппа. Эта закономерность уже сегодня используется для проведения превентивных мер по предотвращению во многих штатах эпидемии гриппа, подготовке врачей, освобождению лечебных коек и т.п. Следует отметить, что используемая до этого информация, поступающая от участковых врачей и  пунктов неотложной помощи, как правило, отставала от реальной картины. Это приводило к тому, что развертывание борьбы с гриппом начиналось через две недели после фактического начала эпидемии.

Другим примером использования больших данных является новая инициатива ООН «Глобальный пульс». В рамках этой программы ведется мониторинг веб 2, включая социальные сети, микроблоггинг, аудио и видео контент. На основе мониторинга осуществляется предсказание грядущих потерь рабочих мест в тех или иных регионах, вспышек заболеваемости, волн преступности и т.п.

Большие данные эффективны и для решения прикладных задач экономического прогнозирования. Специалисты Федеральной резервной системы выяснили, что статистика поисковых запросов Google относительно покупки домов является более надежным источником для определения тенденций в увеличении или уменьшении объемов продаж недвижимости и динамики жилищного строительства, чем прогнозы наиболее известных экономистов.

Джон Клейнберг, профессор Корнелльского университета сказал: «Большие данные позволяют мне определить горячие точки, в которых начинаются процессы, которые станут господствующими в будущем. Если бы интернета с социальными сетями не было, если бы не существовало подхода больших данных, я бы никогда не смог инструментально определить эти горячие точки».

Конечно, большие данные несут не только возможности, но и угрозы. Зачастую обрабатывать большие данные берутся не специалисты. В результате, интеллектуальный анализ данных подменяется не очень квалифицированной их обработкой.  Другой, наиболее распространенной опасностью является свойственное для исследователей стремление подогнать данные под гипотезу. В этих случаях используются не многомерный анализ больших данных, не методы машинного интеллектуального анализа данных, а выбираются только те выводы, которые устраивают исследователей. Новые технологии в этом случае обслуживают старый как сама наука трюк: я знаю факты наперед, а теперь давайте найдем их.

Интеллектуальный анализ данных производится с помощью статистических методов и математических моделей. Надо всегда помнить, что модели, как и метафоры в литературе базируются на упрощениях. Они очень полезны для понимания, но они же могут исказить реальную картинку. Точно также и статистические методы, будучи использованными не системно, могут преувеличить те или иные зависимости или связи. Поэтому, применяя доступные методы статистики и математики, нужно понимать, что обрабатывая большие данные из реального мира, на выходе мы получаем не саму реальность, а ее более или менее приблизительную картину. Степень приблизительности зависит от качества данных и совершенства моделей и методов. Это надо всегда иметь в виду.

Но, несмотря на все предостережения, жизнь показывает, что при всем несовершенстве статистических методов и математических моделей при использовании больших данных они позволяют получать результаты гораздо лучше, чем раньше. Это касается не только настоящего, но и что особенно важно и для отдельного человека, и для бизнеса, и для государства – будущего. Поэтому Эндрю Гельман, один из наиболее авторитетных статистиков и политологов Америки говорит: «Методы не изменились, но большие данные сделали их эффективными. Теперь математика и статистика – это интересно и весело. Это просто круто».

    Category МНЕНИЕ ГУРУ     Tags

Прокомментировать

ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы