Эра больших данных. Часть вторая
Сокращенный оригинальный перевод статьи Steve Lohr в New York Times
Интеллектуальный анализ больших данных открывает новые перспективы для прогнозирования. Особенно активно большие данные в прогнозировании используются в таких областях как здравоохранение, финансы и экономика, корпоративная и государственная безопасность.
Можно привести следующий необычный пример. Анализируя большие данные интернет-запросов, исследователи обнаружили странный феномен. Уже несколько лет всплеск поисковых запросов Google по таким терминам, как лечение гриппа, симптомы гриппа и т.п. на несколько недель предваряет начало стремительного нарастания эпидемии гриппа. Эта закономерность уже сегодня используется для проведения превентивных мер по предотвращению во многих штатах эпидемии гриппа, подготовке врачей, освобождению лечебных коек и т.п. Следует отметить, что используемая до этого информация, поступающая от участковых врачей и пунктов неотложной помощи, как правило, отставала от реальной картины. Это приводило к тому, что развертывание борьбы с гриппом начиналось через две недели после фактического начала эпидемии.
Другим примером использования больших данных является новая инициатива ООН «Глобальный пульс». В рамках этой программы ведется мониторинг веб 2, включая социальные сети, микроблоггинг, аудио и видео контент. На основе мониторинга осуществляется предсказание грядущих потерь рабочих мест в тех или иных регионах, вспышек заболеваемости, волн преступности и т.п.
Большие данные эффективны и для решения прикладных задач экономического прогнозирования. Специалисты Федеральной резервной системы выяснили, что статистика поисковых запросов Google относительно покупки домов является более надежным источником для определения тенденций в увеличении или уменьшении объемов продаж недвижимости и динамики жилищного строительства, чем прогнозы наиболее известных экономистов.
Джон Клейнберг, профессор Корнелльского университета сказал: «Большие данные позволяют мне определить горячие точки, в которых начинаются процессы, которые станут господствующими в будущем. Если бы интернета с социальными сетями не было, если бы не существовало подхода больших данных, я бы никогда не смог инструментально определить эти горячие точки».
Конечно, большие данные несут не только возможности, но и угрозы. Зачастую обрабатывать большие данные берутся не специалисты. В результате, интеллектуальный анализ данных подменяется не очень квалифицированной их обработкой. Другой, наиболее распространенной опасностью является свойственное для исследователей стремление подогнать данные под гипотезу. В этих случаях используются не многомерный анализ больших данных, не методы машинного интеллектуального анализа данных, а выбираются только те выводы, которые устраивают исследователей. Новые технологии в этом случае обслуживают старый как сама наука трюк: я знаю факты наперед, а теперь давайте найдем их.
Интеллектуальный анализ данных производится с помощью статистических методов и математических моделей. Надо всегда помнить, что модели, как и метафоры в литературе базируются на упрощениях. Они очень полезны для понимания, но они же могут исказить реальную картинку. Точно также и статистические методы, будучи использованными не системно, могут преувеличить те или иные зависимости или связи. Поэтому, применяя доступные методы статистики и математики, нужно понимать, что обрабатывая большие данные из реального мира, на выходе мы получаем не саму реальность, а ее более или менее приблизительную картину. Степень приблизительности зависит от качества данных и совершенства моделей и методов. Это надо всегда иметь в виду.
Но, несмотря на все предостережения, жизнь показывает, что при всем несовершенстве статистических методов и математических моделей при использовании больших данных они позволяют получать результаты гораздо лучше, чем раньше. Это касается не только настоящего, но и что особенно важно и для отдельного человека, и для бизнеса, и для государства – будущего. Поэтому Эндрю Гельман, один из наиболее авторитетных статистиков и политологов Америки говорит: «Методы не изменились, но большие данные сделали их эффективными. Теперь математика и статистика – это интересно и весело. Это просто круто».
Прокомментировать
Последние записи
- Рецензия на книгу Р.В.Ромачева «История частной разведки США»
- Новое на блоге
- Воспоминание о будущем — 2050
- Новая среда обитания
- Главная технология ближайшего будущего. Битва за кванты
Архивы
- Март 2022
- Февраль 2022
- Март 2021
- Январь 2021
- Декабрь 2020
- Ноябрь 2020
- Октябрь 2020
- Сентябрь 2020
- Август 2020
- Июнь 2020
- Май 2020
- Апрель 2020
- Март 2020
- Февраль 2020
- Январь 2020
- Декабрь 2019
- Ноябрь 2019
- Август 2019
- Июль 2019
- Май 2019
- Апрель 2019
- Март 2019
- Февраль 2019
- Декабрь 2018
- Октябрь 2018
- Сентябрь 2018
- Август 2018
- Июль 2018
- Июнь 2018
- Апрель 2018
- Март 2018
- Январь 2018
- Декабрь 2017
- Ноябрь 2017
- Октябрь 2017
- Сентябрь 2017
- Август 2017
- Июль 2017
- Июнь 2017
- Май 2017
- Апрель 2017
- Март 2017
- Февраль 2017
- Январь 2017
- Декабрь 2016
- Ноябрь 2016
- Октябрь 2016
- Сентябрь 2016
- Август 2016
- Июль 2016
- Июнь 2016
- Май 2016
- Апрель 2016
- Март 2016
- Февраль 2016
- Январь 2016
- Декабрь 2015
- Ноябрь 2015
- Октябрь 2015
- Сентябрь 2015
- Август 2015
- Июль 2015
- Июнь 2015
- Май 2015
- Апрель 2015
- Март 2015
- Февраль 2015
- Январь 2015
- Декабрь 2014
- Ноябрь 2014
- Октябрь 2014
- Сентябрь 2014
- Июль 2014
- Июнь 2014
- Май 2014
- Апрель 2014
- Март 2014
- Февраль 2014
- Январь 2014
- Декабрь 2013
- Ноябрь 2013
- Октябрь 2013
- Сентябрь 2013
- Август 2013
- Июль 2013
- Июнь 2013
- Май 2013
- Апрель 2013
- Март 2013
- Февраль 2013
- Январь 2013
- Декабрь 2012
- Ноябрь 2012
- Октябрь 2012
- Сентябрь 2012
- Август 2012
- Июль 2012
- Июнь 2012
- Май 2012
- Апрель 2012
- Март 2012
- Февраль 2012
- Январь 2012
- Декабрь 2011
- Ноябрь 2011
- Октябрь 2011
- Сентябрь 2011
- Август 2011
- Июль 2011
- Июнь 2011
- Май 2011
- Апрель 2011
- Март 2011
- Февраль 2011
- Январь 2011
- Декабрь 2010