Март
24

АНБ глазами блондинки. Софт «Дворца головоломок». Часть вторая.

Благодаря информации о проектах DARPA, а также публикациям специализированных американских он-лайн источников и сообщениям на форумах, посвященных военным и информационным технологиям, можно составить некоторое представление о софте, используемом АНБ в сферах добычи данных, аналитики и прогнозирования. Более менее понятно, что данный софт был получен в рамках семи основных программ. Каждая из программ к настоящему времени имеет несколько реализованных программных продуктов, которые, используются разведывательным сообществом, в т.ч. предположительно и АНБ.

Начнем с программы TISI. Это английская аббревиатура может быть переведена как тотальная интеграция информационных потоков. АНБ стояло и стоит перед необходимостью решить весьма сложную, и на сегодняшний момент не реализованную в гражданском секторе задачу. Как известно, АНБ получает информацию из самых различных источников в самой различной форме. Но различной формой она выступает для человеческого восприятия. Строго говоря, для машины текстовая информация, видео, аудиопотоки, потоки показаний различных приборов являются не чем иным, как числовыми рядами. Соответственно, исходя из этой тривиальной мысли, еще в 1997 г. была поставлена задача интеграции всех информационных потоков в едином хранилище с одной стороны, и их разделение по источникам получения, а также другим критериям, с другой стороны. К настоящему времени, согласно мнению экспертов, задача полностью решена. Одним из показателей решенности этой задачи является идущее ударными темпами строительство гиперкомплекса IBM в штате Юта.

Другой важной программой является OLKM. По-русски это означает – добыча знаний в он-лайн режиме. Поскольку АНБ имеет дело с чудовищными по объемам потоками данных, обрабатывать их вручную не представляется возможным. Нужна машинная обработка данных с целью извлечения из  них знаний, т.е. индексированных классов, которые включают объекты, субъекты, события и т.д., в свою очередь со своими многочисленными свойствами и параметрами. В середине нулевых годов эта задача была в основном на алгоритмическом уровне решена для текстовой информации. В 2005-2009 гг. под воздействием успехов в разработке различных практических аспектов семантического веба, удалось существенно продвинуться в автоматизированной обработке текстовой информации. Сегодня, согласно имеющейся информации, машины могут извлекать знания примерно о 40 млн. сущностей и более чем 2,5 трлн. свойств. Под сущностями, или как их еще называют онтологиями, понимаются объекты, субъекты, события, предметы, имеющие определенную идентификацию. Под свойствами понимаются их характеристики и параметры.

Одна задача, несмотря на колоссальные средства, брошенные на ее решение, пока реализована лишь частично. Дело в том, что АНБ работает с текстами более чем на 150 языках и диалектах и соответственно встает задача извлечения онтологий на соответствующем языке. Здесь у АНБ имеются существенные трудности, поскольку при всех успехах машинный перевод еще не совершенен. Соответственно, Агентству приходится держать огромный штат лингвистов, которые работают с текстовыми сообщениями на различных языках, в которых  машина обнаружила наиболее интересные онтологии.

Большие успехи были сделаны в сфере извлечения дополнительных знаний из потокового видео. Здесь ведущим разработчиком является MTI.  В Институте создан алгоритм  для анализа потокового видео и программа с открытым исходным кодом, способная показывать ускользающее от человеческого взгляда изменение в кадре. В одних случаях эта программа может обнаружить скрытые детали, а в других – показать, например, микродвижения человеческого лица, наполнение поверхностных сосудов кровью и т.п. Эти признаки в свою очередь позволяют с достаточно высокой степенью вероятности определять эмоции человека, его реакцию на ту или иную информацию, самочувствие и т.п. Кстати, на этом же принципе была построена российская программа VibraImage, созданная в нулевых годах, но не получив должной финансовой поддержки до работы с потоковым видео ее разработчики так и не добрались.

Здесь интересно отметить, что сам по себе алгоритм является открытым и соответственно развивается сообществом программистов , а вот его модификация, используемая вероятно в АНБ, абсолютно засекречена. Таким образом, без ущерба для секретности, АНБ использует мировое программистское сообщество для совершенствования своих решений.

В последние годы удалось реализовать первый этап программы SOKB. По-русски означает – самоорганизующаяся база знаний. По заказу DARPA уже упомянутый военный подрядчик Raytheon создал компьютерную систему, которая автоматически составляет досье на граждан и организации, собирая информацию из открытых источников. Фактически эта программа делает то же самое, что и армия редакторов Википедии – изучает средства информации, извлекает из них новые факты и дописывает их в статьи или досье со ссылкой на источник информации. Только делается все это автоматически и на многих языках.

Большое внимание АНБ и американское разведывательное сообщество уделяли и уделяют программе OLPP. По-русски эта аббревиатура расшифровывается как программы он-лайн прогнозирования. Наиболее известной из них является программный комплекс Palantir. О сути этой программы лучше всех в Рунете рассказал руководитель компании «Витология» Сергей Карелов:

«И все же, как это ни фантастично звучит, «Машина» из фильма «Person of Interest» существует. И зовут ее Palantir – система для анализа и визуализации данных, разработанная калифорнийской компанией Palantir Technologies.

Разработчик системы в своем интервью  Businessweek так описал работу Palantir:

«В октябре иностранный гражданин по имени Майк Фикри приобрел билет в один конец на самолет из Каира в Майами, где он снимал квартиру. В течение нескольких недель до того он неоднократно снимал ощутимые суммы со счета в российском банке и много раз звонил нескольким абонентам в Сирию. Совсем недавно он арендовал грузовик, поехал в Орландо и в одиночку посетил Диснейленд. Там, как показывают многочисленные видеозаписи камер наблюдения, он не резвился среди веселых аттракционов и прочих достопримечательностей, а провел почти весь день, фотографируя на переполненной площади при входе в Диснейленд.

Ни одно из этих действий само по себе не вызывает подозрений. Многие арендуют грузовики. Многие покупают билет в один конец. Многие имеют связи в Сирии. Немало иностранцев хранят деньги в российских банках. И есть среди них немало угрюмых бук, не умеющих веселиться даже в Диснейленде. Однако все эти факты, только будучи взятые в комплексе, наводят на подозрение, что он, возможно, что-то замышляет.

Несколько лет назад этот комплексный взгляд был невозможен. Аналитик ЦРУ обратил бы внимание на билет в один конец из Каира в Майами, агент ФБР увидел бы серию банковских проводок из российского банка. Но ничто не могло помочь аналитику и агенту связать эти факты вместе. Не говоря уж об их увязке с данными об аренде грузовика и о поездке в Орландо. А про увязку всего названного с анализом видео с камер наблюдения Диснейленда нечего и говорить. Все это было невозможно еще несколько лет назад.

А сейчас это не просто возможно, а работает на задачи безопасности. Благодаря программе, созданной компанией Palantir Technologies, ставшей любимицей спецслужб США».

Сравнив эти два описания, не трудно понять принцип работы «Машины» и системы Palantir. Он один и тот же (за одним маленьким отличием, о котором скажу чуть позже).

1. Идет сбор потоков данных со ВСЕХ доступных информационных каналов обо ВСЕХ регистрируемых событиях, касающихся ВСЕХ людей: покупка и аренда (билеты, авто, недвижимость, лодки и т.д.), банковские транзакции, транзакции по кредиткам с привязкой к локатору местоположения и характеру покупки (например, оплата на конкретной автозаправке), телефонные звонки, электронная почта, информация со ВСЕХ камер видеонаблюдения, информация о транзакциях во всех федеральных и муниципальных базах данных (полиция, пожарные, госпитали и т.д.) и много что еще.

2. В каждом потоке данных средствами интеллектуального анализа данных Data Mining выявляются необычные события, вероятность которых мала (например, 18 заправок на одной станции в конкретный день месяца), и события из наперед заданных «тревожных списков» (например, переводы из российских банков).

3. Дальше самое сложное в «Машине» – объединение и увязка через специальные адаптеры информации о необычных событиях из разных баз.

4. Если расчетная вероятность всего комплекса связанных необычных событий окажется ниже некоего заданного порога вероятности (допускающего, что связка событий хоть и редкая, но чего не бывает), выдается сигнал тревоги, указывающий на конкретного человека, с которым связан весь комплекс событий.

Теперь о единственном отличии в том, как работают «Машина» и система Palantir. Я специально называю это системой, а не программой. Эта система состоит из комплекса программ и человека – аналитика, взаимодействующего с программой».

Т.е. Palantir требует на стадии вывода участие человека.

Еще в 80-е гг. началась работа над программой ICWS – информационной интегрированной системой раннего предупреждения о возникновении кризисных ситуаций. Головным разработчиком был выбран гигантский военный концерн Локхид Мартин. История первого этапа разработки системы хорошо описана в статье в журнале Wired. Система постоянно совершенствовалась. Максимально кратко ее можно описать следующим образом. Были составлены цифровые образы конфликтов, представляющие собой наборы из 70-80 показателей. Далее программа отслеживала по этим показателям текущее состояние и, начиная с определенного их значения, характеризовала высокую степень вероятности того или иного конфликта. Однако в 2011 г. Локхид Мартин, как головной разработчик программы, был отстранен от работы. Причину объяснил тогдашний директор ЦРУ Дэвид Петреус. Он сказал, что в период с 2006 по 2011 г. произошло 16 кризисов, которые должна была распознать система и выдать ранее предупреждение. По факту она смогла выдать ранние предупреждения лишь о четырех кризисах, т.е. эффективность работы составила 25%. Это ровно в два раза ниже, чем эффективность  предсказания блондинки о вероятности встречи с динозавром на улицах современного города.

С конца 2011 г. головными разработчиками различных вариантов системы стали IBM, Recorded Future и сборная команда исследователей и разработчиков под флагом Стенфордского университета. Первые рабочие варианты системы они должны выдать в конце текущего года. Между тем, по заказу отдельных родов войск США удалось создать в рамках программы эффективные системы раннего предупреждения кризисов. От глобальной системы они отличались тем, что были привязаны к конкретному региону. Подробно об этом можно прочитать в посте «Прогнозирование войн как путь их выигрыша».

Опыт успешных прогнозных систем показывает, что при всей значимости  количественных методов очень важно наполнить систему максимумом качественной конкретной информации относительно того или иного региона или сферы военных действий.

Очень большие надежды связываются с программой ADMS – комплекса автоматизированного выявления аномальных процессов, протекающих в различном масштабе. Ежегодно на программу тратится более 12 млн.долларов. Сейчас идет третий год реализации программы. Источниками информации для программы является как обычно веб 1 и веб 2, а также анализ потокового видео, финансовых транзакций и т.п. Пока сложно говорить о достигнутых результатах. Одним из головных разработчиков программы является  Школа вычислительных и инженерных наук Университета Джорджии, а первые итоги программы описаны в статье журнала Wired.

Наконец, большие надежды АНБ связывает с программой QAES, что означает вопрос-ответная экспертная система. Ее основой выступает знаменитый Watson компании IBM.  В рамках программы идет обучение Watson применительно к задачам, решаемым Пентагоном, Департаментом национальной безопасности и американским разведывательным сообществом. Предполагается, что в 2017 г. ключевые специалисты в этих структурах будут иметь терминальный выход на соответствующие модификации Watson и будут получать от них консультации на естественном человеческом языке.

В следующем посте серии – об АНБ, Google, Facebook, Microsoft и проч.

    Category БЛОГ     Tags

Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы