Сен
1

Развитие семантических технологий от компании Семантика

Я недавно писала об эффективных, недорогих и интегрируемых в сторонние разработки решениях в сфере семантического анализа от компании «Семантик».

В настоящее время компания активно развивает новое направление, связанное с полноценным семантическим анализом. Это направление позволит в автоматизированном режиме решать такие важнейшие задачи, как семантическая нормализация, классификация, автоаннотирование, извлечение сложных и составных сущеностей из текста и др.Это направление представляет собой особый интерес для конкурентной разведки, разведывательной аналитики, повседневной работы правоохранительных органов.

Чтобы разъяснить возможности и принципы действия новых семантических технологий, Константин Кузнецов, технический директор компании «Семантик» прислал большой материал на эту тему, который я с удовольствием публикую.

Семантический анализ

Под семантическим анализом будем понимать построение семантической сети для текста на естественном (русском) языке.  Сеть представляет собой ориентированный граф, узлами которого выступают семантические элементы, а дугами – связи элементов. Каждый узел обладает множеством значений атрибутов, набор атрибутов зависит от типа элемента.

Рассмотрим пример текста: Рокгруппа The Charlatans выпустила к настоящему времени 11 студийных альбомов. При этом многие из них часто занимали первые строчки в британском чарте альбомов.

Основные типы элементов семантической сети:

  • Анонимный объект (просто Объект) – на схеме зелёный квадрат;
  • Именованный объект – красный квадрат;
  • Временной объект – песочные часы;
  • Количественный объект – @;
  • Объект-действие (просто Действие) – синий круг;

Основные типы связей:

  • Действия -> Объект – список объектов, имеющих непосредственное отношение к действию (неважно, активно или пассивно);
  • Действие -> Действие – когда одно действие влечёт другое действие;
  • Объект1 -> Объект2 – когда объект 2 является некоторой дополнительной характеристикой объекта 1, но не наоборот. Например, «в британском чарте альбомов» объект «АЛЬБОМ» является дополнительной характеристикой объекта «БРИТАНСКИЙ ЧАРТ». А для «Рокгруппа The Charlatans» объект «РОКГРУППА» является дополнительной характеристикой именованного объекта «THE CHARLATANS».
  • Количественный объект -> Объект – задаёт количественную характеристику, не обязательно точную. Например, «многие», «большинство» и т.п.

Каждый элемент обладает своим набором пар «атрибут – значение».  Приведём список возможных атрибутов для различных типов элементов.

Атрибут Количество атрибутов Значение
Для анонимных объектов
Корень 1 Существительное именной группы. Например, для «СТУДИЙНЫЙ АЛЬБОМ» это «АЛЬБОМ».
Свойство Любое Это прилагательные именной группы. Например, «СТУДИЙНЫЙ» для «СТУДИЙНЫЙ АЛЬБОМ».
Псевдоним Любое Возможное сокращение или аббревиатура. Например, для «ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА» это «ИПС».
Для именованных объектов
Имя 1..* Имя и его варианты нормализации
Псевдоним Любое Возможное сокращение или аббревиатура.
Ссылка на сущность 0..1 Если есть именованная сущность, соответствующая этому объекту, то это ссылка на неё.
Для действий
Корень 1 Нормализованный глагол.
Свойство Любое Это наречия и частица «НЕ». Например, для текста «часто занимали» корнем является «ЗАНИМАТЬ», а свойством «ЧАСТО».
Для количественных объектов
Значение 1 Собственно значение количества.
Для временных объектов
Значение 1 Собственно значение
Ссылка на сущность 0..1 Если есть именованная сущность «ДАТА», соответствующая этому объекту, то это ссылка на неё.

Рассмотрим ещё несколько примеров.

Социальная устойчивость РФ при неоднородности экономического пространства страны и региональной дифференциации требует согласованных действий Федерального центра и субъектов РФ по повышению результативности институционального регулирования, а цикличность экономического развития диктует необходимость создания регулятивного  механизма не только для стандартных, но и для кризисных ситуаций.


Здесь видно, что в одном предложении фактически содержатся 2 независимых подграфа. Обратим внимание на то, что в ряде случаев сложно правильно определить взаимосвязи объектов в плане конкретизации. Например, во фразе «при неоднородности экономического пространства страны и региональной дифференциации» непонятно, куда отнести «РЕГИОНАЛЬНАЯ ДИФФЕРЕНЦИАЦИЯ» – то ли к «НЕОДНОРОДНОСТИ», то ли к «ЭКОНОМИЧЕСКОЕ ПРОСТРАНСТВО». В случае неоднозначности система относит к ближайшему объекту.

При анализе анафорические ссылки заменяются на соответствующие объекты, а также вводятся неявно присутствующие в тексте глагольные формы:

Для этого необходим переход на адаптивно-ландшафтное земледелие, обеспечивающее сохранение почв от деградации, повышение их плодородия и урожая сельскохозяйственных культур.

Здесь анафорическая ссылка ИХ из «их плодородие» заменено на объект «ПОЧВА», а прилагательное «необходим» превратилось в действие с корнем «БЫТЬ» и свойством «НЕОБХОДИМО».

Ещё пример: Исследовав материалы дела, суд приходит к выводу о том, что исковые требования подлежат удовлетворению в полном объеме по следующим основаниям. Приговор окончательный и обжалованию не подлежит.


Здесь пример связи действия с действием, а также пример выделения именной группы, у которой прилагательное находится после существительного.

Вот пример обработки прямой речи:

Граждане, уже купившие путевки, имеют право вылететь в Египет, но это крайне нежелательно, сказала Ломидзе. «Если документы на руках, то вылететь сможете, но лучше не надо», – сказала она.


Возможные области применения

Поиск плагиата

Получаемая из текста семантическая сеть обладает некоторой устойчивостью по отношению к синтаксическим вариациям текста. Например, «Приговор окончательный и обжалованию не подлежит» будет давать точно такую же сеть, как и «Окончательные приговоры не подлежат обжалованию», «Итак, обжалованию не подлежит окончательный приговор» и т.д. То есть если плагиат искать на уровне семантических сетей, то это может несколько поднять качество.

Здесь можно попытаться использовать синонимию, скажем, преобразуя некоторые как отдельные объекты, так и комбинации.

Автореферирование

Для объектов можно вычислять коэффициенты значимости по отношению к тексту.

Например, значимость объекта О равна S(O) = (1 + ln(N)) * (1 + K + S(O1) + … + S(OR)), где N – число прямой встречаемости объекта в тексте (то есть когда он явно, а не в качестве свойства другого объекта), K – количество свойств, O1…OR – объекты, на которые ссылается объект как на свойства.

Упорядочиваем объекты по значимости, оставляя только те, которые выше некоторого относительного порога, или по количеству (чем меньше количество, тем меньше аннотация).

Далее, идём по предложениям, смотрим в предложении наличие значимых объектов. Если они есть, то предложение добавляем в аннотацию, а соответствующие объекты удаляем из списка значимых. Тем самым в аннотацию попадают предложения, которые первыми содержат хотя бы один из значимых объектов.

Например:  Китай и Тайвань установили авиасообщение после 60-летнего перерыва.

После почти 60-летнего перерыва открылось регулярное авиасообщение между Тайванем и материковым Китаем. Первый чартерный рейс с 250 пассажирами уже прибыл в столицу Тайваня из китайского города Гуанчжоу, передает «Би-би-си». Ожидается, что аэропорты острова будут принимать рейсы из пяти китайских городов: Пекина, Шанхая, Гуанчжоу, Сямэня и Нанкина. Договоренность о прямых регулярных авиарейсах была достигнута в середине июня 2008 года на переговорах между руководством Тайваня и Китая. Восстановление авиасообщения произошло не в последнюю очередь благодаря победе на выборах главы администрации Тайваня в марте 2008 года сторонников тесного сотрудничества с материковым Китаем. Прямых регулярных авиарейсов между Тайванем и Китаем не осуществлялось с 1949 года, когда Тайвань стал убежищем потерпевших поражение в гражданской войне с коммунистами сторонников партии Гоминьдан. До июля 2008 года прямые рейсы между материковым Китаем и Тайванем осуществлялись только по спецдоговоренности, в основном – в дни праздников, напоминает Лента.ру

Вот объекты, упорядоченные по значимости относительно текста (не все):

Если взять первые 5 значимых объекта, то реферат получится таким:

Китай и Тайвань установили авиасообщение после 60-летнего перерыва. Договоренность о прямых регулярных авиарейсах была достигнута в середине июня 2008 года на переговорах между руководством Тайваня и Китая.

Классификация

Есть классификаторы, которые содержат неплохие описания своих рубрик. Из текстов таких рубрик можно выделять объекты, которые сравнивать с объектами классифицируемого текста. То есть такие классификаторы можно использовать сразу без какой-либо ручной корректировки и обучения.

Идеальным в этом плане представляется классификатор ГРНТИ (Государственный рубрикатор научно-технической информации). Он имеет 3-х уровневую иерархию, так что текст конечного узла (рубрики) неявно имеет тексты двух вышележащих узлов.

Например, рубрика 68.37.29 «Вредители растений и борьба с ними», вышележащие 68.37 «Защита сельскохозяйственных растений» и 68 «СЕЛЬСКОЕ И ЛЕСНОЕ ХОЗЯЙСТВО».

Если объединить тексты рубрик, то получим объекты:

Соответственно для объектов можно определять значимости на основании того, в какое число рубрик они входят. Рубрики ранжируются по сумме значимостей входящих в них объектов, умноженных на значимости этих же объектов по отношению к тексту.


Прокомментировать

ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы