Окт
2

Калев Литару по-русски. Часть 2.

Источники данных.

Как правило, при анализе печати, интернета и электронных СМИ используются либо базы данных типа LexisNtxis, либо новостные ленты, типа Рейтерс. Проблема состоит в том, что базы, как правило, включают международные издания средств массовой информации, а также источники только на основных языках. Для анализа контента дополнительную сложность составляет то, что в такие базы и новостные ленты входят источники, которые написаны представителями западной цивилизации для западных же читателей. А картины мира у каждой цивилизации существенно различаются. Поэтому значительная часть источников выпадает из анализа. Кроме того, в такие базы не входят источники из многих регионов. Например,  сервисы Рейтерс охватывают лишь незначительную часть африканских СМИ.

Государственная разведка, начиная со Второй мировой войны, прежде всего, в США и Великобритании, осознала эти недостатки. Были созданы соответственно FBIS – Центр открытых источников и SVB – мониторинг глобальных новостей. В этих службах аккумулировались и продолжают аккумулироваться не только крупнейшие, но и региональные, и даже местные издания. Потом к ним добавились радио и телестанции, затем интернет. Т.е. фактически, они собирают весь контент по более чем 130 странам мира. Согласно источникам, эти службы обеспечили 80% всей информации разведсообщества о Советском Союзе во времена «холодной войны». В этой связи в 2001 году  «Вашингтон Пост» отметила: «многое из того, что ЦРУ узнало, оно получило из газетных и журнальных вырезок, поэтому директор Агентства может быть назван генералом-библиотекарем».

Надо отметить, что  FBIS и SVB работают не только по горячим точкам, а ведут сплошной мониторинг всех новостных источников по всем видам контента по подавляющему числу стран мира. При этом обеспечивается он-лайн перевод всех языков на английский.

Сегодня оба источника доступны и для широкой публики. При этом архивы FBIS оцифрованы начиная с 1993 года, в том время, как SVB оцифровало архивы, начиная с 1979 года. Они-то в основном и используются в моем исследовании.  В настоящее время SVB содержит 3,9 млн. источников. Архивы и текущую информацию от FBIS я использовал для Соединенных Шатов. Это происходило потому, что  SVB из-за юридических ограничений по деятельности ЦРУ не имеет право проводить мониторинг американской прессы.

Приведенный ниже рисунок показывает, что за последние 15 лет интернет-новости стремительно теснят печатные и электронные СМИ и уже в 2010 году в мире брали на себя 46% всего содержания мониторинговых источников. Соответственно, и разведка по открытым источникам все более перестраивается от мониторинга печатных и вещательных СМИ на сканирование интернета в реальном времени с обеспечением он-лайн перевода источников, их классификации и агрегации. Правда, по-прежнему остаются регионы пока с низким проникновением интернета, поэтому упомянутые выше системы и мое исследование не ограничилось только анализом интернет-новостей, а наряду с ними были использованы  печатные и вещательные СМИ.

Особо хотел бы остановиться на новых социальных медиа. Египет предоставил просто идеальные возможности тестирования, чтобы изучить содержание новостей Facebook и Twitter для  стран, где уровень охвата интернетом стремительно растет. Хорошо известно, что за несколько недель до начала уличных акций протеста социальные медиа сыграли важную организующую роль в мобилизации протестующих.

Социальные медиа, как показывают результаты исследования, по своей природе гораздо более эффективно выполняют роль организаторов по сравнению с традиционными и вещательными СМИ, в том числе контролируемыми государством.

При анализе социальных СМИ я столкнулся с рядом проблем. Первая из них связана с тем, что в отличие от открытых социальных СМИ и блогов, доступных для мониторинга, другие платформы и, прежде всего, Facebook, отказали в мониторинге новостей даже для нужд сугубо академического исследования. Вторая сложность связана с тем, что в социальных сетях особенно широко используется локализованный сленг, идеоматические выражения, местные, характерные только для данной территории или даже социальной группы или группы по интересам слова и выражения. Осуществлять их перевод в режиме он-лайн представляется крайне затруднительно, а зачастую именно эти слова являются ключевыми для понимания общего смысла сообщения, отношения субъекта сообщения к тому или иному событию и т.п. Кроме того, соцсети оказывают несколько искажающее влияние, связанное с тем, что, например, интенсивность пользования Twitter конкретно в Калифорнии и Нью-Йорке в несколько раз выше, чем в целом по США, где-либо в Европе или в мире.

Мы также в исследовании использовали и поисковые тенденции, т.е. поисковые запросы, которые вводились в тех или иных странах в преддверии и в разгар различных событий. Например, были осуществлены поисковые запросы египтян на арабском языке перед и во время известных событий. В ряде других случаев нам не удалось этого сделать, поскольку правительства некоторых стран активно блокируют поиск по ключевым словам. Интересно, мы и предыдущие исследователи установили, что поисковое поведение является вторичным и в решающей степени определяется интернет-новостями, темами социальных сетей, а также некими базовыми потребностями.

Метод

Для проведения исследований мы использовали два ключевых метода текст-майнинга. Первый- это так называемая добыча настроений или определение отношений к событию, и второй – это полнотекстовой анализ с геокодированием. На практике это означает проведение текст-майнинга в привязке к конкретным географическим точкам.

Для добычи настроений мы использовали множество национальных словарей с прилагательными, определяющими эмоциональный язык и общий тон отношения. При этом использовался алгоритм, который в каждой точке геокодирования отсекал крайне негативные оценки, если они в общей выборке имели малый вес. Таким образом, мы боролись с искажениями.

Важно отметить, что компьютерная оценка новостных и других источников включает в себя как оценку фактических событий, так и их представление источниками новостей. Мы прекрасно отдаем себе отчет, что отношение источника новости к событию может серьезно искажать фактическое положение дел. Самый простой пример – это отчет в интернет СМИ двух городов о матче по американскому футболу. Естественно, одно и то же событие они описывают совершенно по-разному. Поэтому нами использовались специальные алгоритмы, которые позволяли отделить редакционную тональность источников новостей всех видов от их содержания. Мы использовали составленные различными учреждениями и центрами множество словарей для различных языков, позволяющих вычленять с одной стороны эмоциональную оценку, а с другой стороны редакционные отношения и стоящие за ними интересы.  При помощи геокодирования мы осуществляли привязку источника документа к конкретному географическому местоположению, что собственно и позволило нам вместе с алгоритмами текст-майнинга и разделения субъективной оценки и событийного ряда сделать те прогнозы, о которых говорилось выше, и которые оправдались.

P.S. Представлен сокращенный вариант.  В оригинальном документе подробно описаны примеры действия алгоритма, а также даны ссылки на все работы и источники, которыми автор пользовался как для формирования контентной базы своего исследования, так и для создания оригинального алгоритма.

P.S. Всем, кому тема интересна профессионально, советую прочесть сокращенный русский перевод и оригинальный английский, что называется, между строк. Скрытое, латентное содержание текста гораздо богаче и полнее представленного в тексте.

Оригинал статьи: http://www.uic.edu/htbin/cgiwrap/bin/ojs/index.php/fm/article/viewArticle/3663/3040#p1


2 коммент. к записи “Калев Литару по-русски. Часть 2.”

  • Генрих 2 Октябрь 2011 - 21:15

    Официальный сайт ЦРУ: https://www.cia.gov/index.html , кстати, активно используется в качестве источника справочной информации целым рядом российских государственных ведомств и служб, включая правоохранительные…

    На данном ресурсе в совершенно открытом доступе выкладывается информация, которая многими отечественными структурами, почему-то засекречивается…

    Такая вот, парадигма….

    • Елена 2 Октябрь 2011 - 22:58

      Огромное спасибо! Думаю, информация будет очень полезна не только мне, но и всем читателям блога.

Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы