Авг
19

Kanjova vs Kanjoya или мониторинг социальных сетей по-американски

На прошлой неделе все ведущие российские интернет-порталы разместили у себя новость о том, что у компаний появилась возможность в онлайн режиме оценивать эмоциональное состояние сотрудников. Эту возможность, согласно сообщениям российских порталов, им предоставила компания  Kanjova. Она разработала программное обеспечение CRANE, которое позволяет по текстам из внутренних социальных сетей, email переписки, текстов с Скайпе и т.п. распознавать в онлайн режиме до 80 эмоций. Мало того, что программное обеспечение позволяет распознавать эмоции, но одновременно оно дает возможность оценивать и уровень их интенсивности. Плюс ко всему прочему, ПО в автоматизированном режиме с заданной периодичностью генерирует отчеты по компании, подразделениям и даже отдельным работникам.

Продукт интегрирован в платформу Yammer. Эта платформа вместе с одноименной компанией была недавно приобретена за 1, 2 млрд. долларов корпорацией Microsoft. Стоимость самой  Kanjova, главным продуктом которой является этот самый CRANE, составляет по оценкам от 180 до 200 млн. долларов. Но это только начало истории.

Поскольку по работе я в последнее время интересуюсь семантическими технологиями, то естественно решила узнать о продукте побольше. Ввела, как водится, в поисковик ключевые слова – Kanjova, Yammer и CRANE, получила 16 600 результатов. Единственное, что меня смутило – это то, что на первых 10 страницах выдачи оказались только русскоязычные сайты. Я сильно удивилась и поняла, что что-то здесь не так.  Вскоре обнаружилось, что никакой компании Kanjova в природе не существует, а есть компания Kanjoya, которая и разработала знаменитый CRANE, ныне интегрированный Microsoft во все свои приложения, начиная от SharePoint и Dynamics, заканчивая вездесущим Офисом.

Интересно, что ни один из ведущих новостных и компьютерных порталов размещая новости даже не перепроверил название компании. Отсюда становится понятным, что большая часть новостей о новых разработках и программных продуктах в рунете имеет тот или иной единственный первоисточник, а затем просто тиражируется путем либо перепащивания, либо рерайтинга.

Англоязычной выдачи оказалось как ни странно меньше, чем российской. Примерно около 2 тыс. сайтов и ресурсов. При этом, и здесь отметились абсолютно все ведущие новостные компьютерные и бизнес порталы. Все они без исключения посвятили продукту хвалебные отзывы.

Зайдя на сайт компании Kanjoya я обнаружила, что, действительно, разработчики написали о том, что их программное обеспечение распознает до 80 эмоций. На том же сайте я выяснила, что компания рекомендует в зависимости от целей мониторинга выставлять в режиме онлайн индикаторы по восьми-девяти интересующим заказчика эмоциям и следить за их интенсивностью и валидностью в режиме реального времени.

И тут я задумалась. Скажите, пожалуйста, вот лично вы можете назвать 80 эмоций, или хотя бы 50. Я не могу. Более того, не могут их назвать и профессионалы-психологи. Столь разительное расхождение между психологической практикой и ее компьютерной реализацией заставило меня поглубже ознакомиться с методами, положенными в основу CRANE.  Внимательно проштудировав блог компании, я выяснила, что наличие или отсутствие эмоций, а также степень их интенсивности и валидности (положительные или отрицательные) устанавливаются по текстам сообщений в различных сферах – от внутренних сетей до email.  При этом не смейтесь, но не только по словам, но и по смайликам.

Кроме того, поскольку в блоге для оценки эмоций и степени их напряженности постоянно используются термины «плотности вероятности», «нормирования по хи-квадрату» и другие термины математической статистики, то становится понятным, что разработчики использовали в своих алгоритмах методы классической статистики.

При внимательном изучении поисковой выдачи в Google по слову Kanjoya, выяснилось еще одно любопытное обстоятельство. Одни источники называют продукт средством эмоционального анализа и мониторинга социальных сетей, а другие – не эмоционального, а чувственного. При этом и те и другие говорят об одном и том же продукте. Казалось бы, какая разница. Просто авторы статей используют различные синонимы. На обыденном языке это именно так. Но, поскольку продукт создан на стыке вычислительной математики, психологии и программирования, то естественно, что опираться он должен не на обыденный язык, а на данные психологии.

Вот здесь-то и «порылась собака». Википедия, конечно, стала всеобщим источником знаний, хотя на ее страницах, бывает, и содержится немалое количество шлака. Однако, в данном случае, статья в Википедии об эмоциях строго соответствует экспериментальным данным психологической науки, накопленном за многие десятилетия. Для психологов очевидно, что эмоции, чувства, настроения и аффекты – это разные вещи. Если говорить грубо, то эмоции испытываются в отношении определенного события или ситуации. Вот радость – это эмоция. Чувства всегда направлены на что-то – на человека, вещь, компанию и т.п. Настроения – это своего рода долговременные эмоции. А аффекты –привязаны не столько к личности человека, сколько к его психофизиологии.

Так вот выяснилось, что в CRANE измеряется все, причем одинаковым образом, по одному алгоритму. И это все – собственно эмоции, чувства,  настроения и аффекты называются разработчиками одним словом «эмоция».

Далее, каждую эмоцию разработчики оценивают по определенному набору слов. Т.е. употребление в текстах тех или иных слов или смайликов, является, по мнению разработчиков, надежным индикатором как наличия, так и силы той или иной эмоции. Система работает следующим образом. Определяется словарный запас или эквивалент для каждой эмоции, считается частота употребления этих слов в текстах и выдается соответствующий показатель. Собственно по этому принципу действуют почти все системы мониторинга социальных сетей и в интернете, и в рунете.

Вот здесь «порылась следующая собака». Эмпирические исследования, проведенные во всех ведущих странах мира самыми известными психологами, показывают, что связь между эмоциональной сферой и языком весьма и весьма не проста. Кстати, ведущий вклад в эти разработки внесли еще советские ученые и, прежде всего, Лурия, Пономарев, Зейгарник, Леонтьев и т.п.

В ходе этих исследований было достоверно установлено, что эмоции яснее всего выражаются через невербальные признаки, т.е.  мимику лица, тон голоса и т.п. Собственно, на этом и построена теория лжи знаменитого Пола Экмана. На прямом анализе невербальных признаков эмоций базируется и российская разработка Vibraimage. Что же касается речевого, а соответственно, и текстового проявления эмоций, то здесь несколько чувств или эмоций, а также настроений могут выражаться через одни и те же слова. Для психологов это не теоретический вывод, а многократно эмпирически проверенное наблюдение.

Но и это еще не все. Еще в 70-е годы выдающийся советский методолог, социолог, биолог и психолог Ю.Шнейдер непреложно установил на сотнях текстов, что слова в текстах распределяются не по нормальному распределению, описываемому классической статистикой, а по распределению Парето. Нынешнему поколению оно известно, как распределение 20/80. После Шнейдера исследования были проведены во всех ведущих странах мира применительно к самым разным текстам и языкам. В результате было установлено, что этот принцип действует универсально, не только для текстов, но и для всех языков в целом. Исключением являются языки с иероглифической письменностью.

Из этого факта следует то, что вряд ли целесообразно в качестве математического аппарата оценивания текстов использовать методы классической статистики, базирующиеся на центральной предельной теореме и нормальном распределении. Применение этих методов возможно и лучше, чем отсутствие чего-либо вообще. Но при этом надо помнить, что поскольку они используются для текстов, в которых прослеживаются другие закономерности, то и результаты они дают соответствующие.

В общем, оказывается, естественно  на мой личный взгляд, что широко используемые методы эмоционального анализа в структуре мониторинга социальных сетей скорее не проясняют, а искажают картину. Более того, чем более изощренный традиционный инструментарий используется, тем сильнее может оказаться искажение. По всей вероятности твердо сегодня можно говорить о том, что достаточно репрезентативными результатами мониторинга социальных сетей являются частота упоминаемости того или иного ключевого слова, обозначающего персону, компанию, бренд и т.п., а также динамика валидности этих упоминаний.

Означает ли написанное выше, что невозможен или нереализуем углубленный, эмпирически обоснованный анализ текстовых сообщений, в первую очередь,  из социальных сетей?  Моя позиция состоит в том, что сегодня для этого уже имеется и научная и методологическая, и вычислительная базы. А о конкретных направлениях и воплощениях этих баз поговорим осенью.

    Category БЛОГ     Tags

1 комментарий к записи “Kanjova vs Kanjoya или мониторинг социальных сетей по-американски”

  • Александр 11 Сентябрь 2012 - 13:49

    Лена, отличный анализ и статья. Снимаю шляпу.

Прокомментировать

ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы