Калев Литару по-русски. Часть 2.
Источники данных.
Как правило, при анализе печати, интернета и электронных СМИ используются либо базы данных типа LexisNtxis, либо новостные ленты, типа Рейтерс. Проблема состоит в том, что базы, как правило, включают международные издания средств массовой информации, а также источники только на основных языках. Для анализа контента дополнительную сложность составляет то, что в такие базы и новостные ленты входят источники, которые написаны представителями западной цивилизации для западных же читателей. А картины мира у каждой цивилизации существенно различаются. Поэтому значительная часть источников выпадает из анализа. Кроме того, в такие базы не входят источники из многих регионов. Например, сервисы Рейтерс охватывают лишь незначительную часть африканских СМИ.
Государственная разведка, начиная со Второй мировой войны, прежде всего, в США и Великобритании, осознала эти недостатки. Были созданы соответственно FBIS – Центр открытых источников и SVB – мониторинг глобальных новостей. В этих службах аккумулировались и продолжают аккумулироваться не только крупнейшие, но и региональные, и даже местные издания. Потом к ним добавились радио и телестанции, затем интернет. Т.е. фактически, они собирают весь контент по более чем 130 странам мира. Согласно источникам, эти службы обеспечили 80% всей информации разведсообщества о Советском Союзе во времена «холодной войны». В этой связи в 2001 году «Вашингтон Пост» отметила: «многое из того, что ЦРУ узнало, оно получило из газетных и журнальных вырезок, поэтому директор Агентства может быть назван генералом-библиотекарем».
Надо отметить, что FBIS и SVB работают не только по горячим точкам, а ведут сплошной мониторинг всех новостных источников по всем видам контента по подавляющему числу стран мира. При этом обеспечивается он-лайн перевод всех языков на английский.
Сегодня оба источника доступны и для широкой публики. При этом архивы FBIS оцифрованы начиная с 1993 года, в том время, как SVB оцифровало архивы, начиная с 1979 года. Они-то в основном и используются в моем исследовании. В настоящее время SVB содержит 3,9 млн. источников. Архивы и текущую информацию от FBIS я использовал для Соединенных Шатов. Это происходило потому, что SVB из-за юридических ограничений по деятельности ЦРУ не имеет право проводить мониторинг американской прессы.
Приведенный ниже рисунок показывает, что за последние 15 лет интернет-новости стремительно теснят печатные и электронные СМИ и уже в 2010 году в мире брали на себя 46% всего содержания мониторинговых источников. Соответственно, и разведка по открытым источникам все более перестраивается от мониторинга печатных и вещательных СМИ на сканирование интернета в реальном времени с обеспечением он-лайн перевода источников, их классификации и агрегации. Правда, по-прежнему остаются регионы пока с низким проникновением интернета, поэтому упомянутые выше системы и мое исследование не ограничилось только анализом интернет-новостей, а наряду с ними были использованы печатные и вещательные СМИ.
Особо хотел бы остановиться на новых социальных медиа. Египет предоставил просто идеальные возможности тестирования, чтобы изучить содержание новостей Facebook и Twitter для стран, где уровень охвата интернетом стремительно растет. Хорошо известно, что за несколько недель до начала уличных акций протеста социальные медиа сыграли важную организующую роль в мобилизации протестующих.
Социальные медиа, как показывают результаты исследования, по своей природе гораздо более эффективно выполняют роль организаторов по сравнению с традиционными и вещательными СМИ, в том числе контролируемыми государством.
При анализе социальных СМИ я столкнулся с рядом проблем. Первая из них связана с тем, что в отличие от открытых социальных СМИ и блогов, доступных для мониторинга, другие платформы и, прежде всего, Facebook, отказали в мониторинге новостей даже для нужд сугубо академического исследования. Вторая сложность связана с тем, что в социальных сетях особенно широко используется локализованный сленг, идеоматические выражения, местные, характерные только для данной территории или даже социальной группы или группы по интересам слова и выражения. Осуществлять их перевод в режиме он-лайн представляется крайне затруднительно, а зачастую именно эти слова являются ключевыми для понимания общего смысла сообщения, отношения субъекта сообщения к тому или иному событию и т.п. Кроме того, соцсети оказывают несколько искажающее влияние, связанное с тем, что, например, интенсивность пользования Twitter конкретно в Калифорнии и Нью-Йорке в несколько раз выше, чем в целом по США, где-либо в Европе или в мире.
Мы также в исследовании использовали и поисковые тенденции, т.е. поисковые запросы, которые вводились в тех или иных странах в преддверии и в разгар различных событий. Например, были осуществлены поисковые запросы египтян на арабском языке перед и во время известных событий. В ряде других случаев нам не удалось этого сделать, поскольку правительства некоторых стран активно блокируют поиск по ключевым словам. Интересно, мы и предыдущие исследователи установили, что поисковое поведение является вторичным и в решающей степени определяется интернет-новостями, темами социальных сетей, а также некими базовыми потребностями.
Метод
Для проведения исследований мы использовали два ключевых метода текст-майнинга. Первый- это так называемая добыча настроений или определение отношений к событию, и второй – это полнотекстовой анализ с геокодированием. На практике это означает проведение текст-майнинга в привязке к конкретным географическим точкам.
Для добычи настроений мы использовали множество национальных словарей с прилагательными, определяющими эмоциональный язык и общий тон отношения. При этом использовался алгоритм, который в каждой точке геокодирования отсекал крайне негативные оценки, если они в общей выборке имели малый вес. Таким образом, мы боролись с искажениями.
Важно отметить, что компьютерная оценка новостных и других источников включает в себя как оценку фактических событий, так и их представление источниками новостей. Мы прекрасно отдаем себе отчет, что отношение источника новости к событию может серьезно искажать фактическое положение дел. Самый простой пример – это отчет в интернет СМИ двух городов о матче по американскому футболу. Естественно, одно и то же событие они описывают совершенно по-разному. Поэтому нами использовались специальные алгоритмы, которые позволяли отделить редакционную тональность источников новостей всех видов от их содержания. Мы использовали составленные различными учреждениями и центрами множество словарей для различных языков, позволяющих вычленять с одной стороны эмоциональную оценку, а с другой стороны редакционные отношения и стоящие за ними интересы. При помощи геокодирования мы осуществляли привязку источника документа к конкретному географическому местоположению, что собственно и позволило нам вместе с алгоритмами текст-майнинга и разделения субъективной оценки и событийного ряда сделать те прогнозы, о которых говорилось выше, и которые оправдались.
P.S. Представлен сокращенный вариант. В оригинальном документе подробно описаны примеры действия алгоритма, а также даны ссылки на все работы и источники, которыми автор пользовался как для формирования контентной базы своего исследования, так и для создания оригинального алгоритма.
P.S. Всем, кому тема интересна профессионально, советую прочесть сокращенный русский перевод и оригинальный английский, что называется, между строк. Скрытое, латентное содержание текста гораздо богаче и полнее представленного в тексте.
2 коммент. к записи “Калев Литару по-русски. Часть 2.”
Прокомментировать
Последние записи
- Рецензия на книгу Р.В.Ромачева «История частной разведки США»
- Новое на блоге
- Воспоминание о будущем — 2050
- Новая среда обитания
- Главная технология ближайшего будущего. Битва за кванты
Архивы
- Март 2022
- Февраль 2022
- Март 2021
- Январь 2021
- Декабрь 2020
- Ноябрь 2020
- Октябрь 2020
- Сентябрь 2020
- Август 2020
- Июнь 2020
- Май 2020
- Апрель 2020
- Март 2020
- Февраль 2020
- Январь 2020
- Декабрь 2019
- Ноябрь 2019
- Август 2019
- Июль 2019
- Май 2019
- Апрель 2019
- Март 2019
- Февраль 2019
- Декабрь 2018
- Октябрь 2018
- Сентябрь 2018
- Август 2018
- Июль 2018
- Июнь 2018
- Апрель 2018
- Март 2018
- Январь 2018
- Декабрь 2017
- Ноябрь 2017
- Октябрь 2017
- Сентябрь 2017
- Август 2017
- Июль 2017
- Июнь 2017
- Май 2017
- Апрель 2017
- Март 2017
- Февраль 2017
- Январь 2017
- Декабрь 2016
- Ноябрь 2016
- Октябрь 2016
- Сентябрь 2016
- Август 2016
- Июль 2016
- Июнь 2016
- Май 2016
- Апрель 2016
- Март 2016
- Февраль 2016
- Январь 2016
- Декабрь 2015
- Ноябрь 2015
- Октябрь 2015
- Сентябрь 2015
- Август 2015
- Июль 2015
- Июнь 2015
- Май 2015
- Апрель 2015
- Март 2015
- Февраль 2015
- Январь 2015
- Декабрь 2014
- Ноябрь 2014
- Октябрь 2014
- Сентябрь 2014
- Июль 2014
- Июнь 2014
- Май 2014
- Апрель 2014
- Март 2014
- Февраль 2014
- Январь 2014
- Декабрь 2013
- Ноябрь 2013
- Октябрь 2013
- Сентябрь 2013
- Август 2013
- Июль 2013
- Июнь 2013
- Май 2013
- Апрель 2013
- Март 2013
- Февраль 2013
- Январь 2013
- Декабрь 2012
- Ноябрь 2012
- Октябрь 2012
- Сентябрь 2012
- Август 2012
- Июль 2012
- Июнь 2012
- Май 2012
- Апрель 2012
- Март 2012
- Февраль 2012
- Январь 2012
- Декабрь 2011
- Ноябрь 2011
- Октябрь 2011
- Сентябрь 2011
- Август 2011
- Июль 2011
- Июнь 2011
- Май 2011
- Апрель 2011
- Март 2011
- Февраль 2011
- Январь 2011
- Декабрь 2010
Официальный сайт ЦРУ: https://www.cia.gov/index.html , кстати, активно используется в качестве источника справочной информации целым рядом российских государственных ведомств и служб, включая правоохранительные…
На данном ресурсе в совершенно открытом доступе выкладывается информация, которая многими отечественными структурами, почему-то засекречивается…
Такая вот, парадигма….
Огромное спасибо! Думаю, информация будет очень полезна не только мне, но и всем читателям блога.