http://www.asknet.ru/Analytics/arion.htm
Повсеместное использование информационных технологий привело к тому, что в компаниях и организациях накопились огромные массивы данных и информации, обрабатываемые множеством приложений разного назначения:
системы управления предприятием
электронная почта
системы электронного документооборота
системы бухгалтерского и складского учета
текстовые документы в различных форматах
и пр.
Входные данные, как правило, поступают из следующих источников:
электронный архив и система электронного документооборота организации
почтовый сервер организации
новостные СМИ и ленты информагентств
Интернет/Интранет сайты компании
внешние Интернет-сайты
накопленные текстовые массивы
Количество используемой информации в электронном виде постоянно растет, чему способствует набирающая обороты интеграция информационных потоков различных предприятий с применением web-технологий и переход на безбумажное делопроизводство. В сложившихся условиях необходимы новые подходы к обработке информационных массивов.
Информационно-аналитическая система «АРИОН» - мощное средство работы с разнородными источниками информации, использующее инновационные технологии извлечения и обработки знаний.
Система позволяет работать как со структурированными (таблицы, базы данных, xml), так и неструктурированными (документы и тексты на естественном языке) источниками информации. Пользователь получает эффективный инструмент аналитики с развитыми механизмами визуализации и большим набором функций по извлечению, загрузке, очистке и обработке информации.
ИАС «АРИОН» позволяет эффективно решать следующие классы задач:
выделение значимых материалов из больших информационных массивов
поиск, извлечение, анализ и обобщение информации по интересующим объектам, фактам и событиям
формирование онтологий предметных областей
мониторинг деятельности организации
расследование происшествий и инцидентов
сбор и ведение досье на объекты учета
оперативная обработка и мониторинг материалов СМИ
аналитическая обработка обращений граждан и организаций
Наиболее востребована и эффективна в применении аналитическая система специализированными информационными подразделениями:
информационно-аналитические подразделения государственных органов
информационные службы и пресс-службы организаций
службы безопасности крупных компаний и банков, частные охранные предприятия
консалтинговые компании, отделы маркетинга крупных компаний
страховые компании
кадровые агентства, отделы кадров крупных организаций
кредитные организации, банки
риэлтерские компании
В основу системы «АРИОН» заложены специализированные алгоритмы обработки информации, разработанные компанией «САЙТЭК» совместно с ИПИ РАН на базе более чем 20-летних теоретических исследований. Система «АРИОН» зарегистрирована Федеральной службой по интеллектуальной собственности, патентам и товарным знакам, а применяемые технологии защищены свидетельствами и патентами.
В настоящее время система не имеет аналогов на российском рынке, как с точки зрения технологичности, так и с точки зрения функциональности и удобства применения.
Ключевой возможностью ИАС «АРИОН» является проблемный анализ текстов на естественном языке.
Что такое проблемный анализ текстов?Проблемный (семантический) анализ текстов - это извлечение из них сведений об интересующих объектах, фактах и событиях. Полученные таким образом сведения представляются в формализованной форме в виде объектов предметной области и связей между ними, после чего поступают на обработку традиционными методами в зависимости от текущих задач.
Зачем это нужно?Мы привыкли к тому, что компьютеры, как правило, работают со структурированными и формализованными данными. Это могут быть базы данных с таблицами и полями, электронные формы и карточки объектов, тексты программ на формальных языках и инструкции (программы) в машинных кодах. Вместе с тем, для человека наиболее естественной формой представления информации является естественный язык, то есть применительно к компьютеру, это записанный в документ текст. Какие возможности по обработке текста нам предоставляют современные информационные средства? Это, прежде всего, хранение, передача, поиск и проверка орфографии. Но все эти сервисы относятся непосредственно к текстовому представлению (символам, в лучшем случае – словам и фразам), а не к информации, которая в этих текстах содержится! В итоге складывается ситуация, когда в организации накоплен значительный объем текстовых документов, но информация, содержащаяся в них, не доступна для обработки классическими автоматизированными средствами. Семантический анализ текстов позволяет эффективно использовать эти информационные ресурсы для решения различных задач.
Как это работает?В состав ИАС «АРИОН» входит специальный модуль – Лингвистический процессор АРИОН-ЛИНГВО. На вход Лингвистический процессор получает текстовый документ. Результатом его работы является массив связной фактографической информации, который далее передается в модуль идентификации для выделения похожих и слияния совпадающих объектов.
Выделение фактографической информации осуществляется с помощью специализированных правил, которые описывают процедуры выделения объектов и связей на внутрисистемном языке Лингвистического процессора, построенном на базе XML.
Лингвистический процессор выполняет обработку полнотекстовой информации в соответствии со следующими этапами:
На этапе графематического анализа текст разбивается на отдельные образцы специальных типов: «слово_в_кавычках», «слово», «знак_пунктуации», «блок_чисел», «блок_буквенно_цифровой» и т.д.
На этапе морфологического анализа для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки. Результатом морфологического анализа является сеть, состоящая из отдельных лексем с порядковым номером в тексте.
В процессе синтаксического анализа выявляется структура предложения и зависимости между его членами (словами).
Выделение фактографической информации заключается в выделении словарных понятий, разборе объектов предметной области и создании связей между выделенными объектами.
Что является результатом разбора?Результатом работы Лингвистического процессора является набор объектов и связей между ними, который традиционно представляют в виде так называемой фактографической (семантической) сети.
Данная форма визуализации является удобной и естественной для дальнейшей работы пользователя с выделенной информацией. Такой интерфейс интуитивно понятен и не требует длительного освоения и обучения.
Каждый объект имеет набор атрибутов, заданных в рамках описания предметной области. Атрибуты – это характеристики объекта, например, «Имя», «Фамилия» и «Дата рождения» для объекта «Человек».
Связь имеет смысловую окраску и тип.
Как это можно использовать?
Информационно-аналитическая система Arion
Информационно-аналитическая система "Арион" разработана ООО "Сайтэк" (SyTech, Россия). Система предназначена для обработки структурированной и неструктурированной текстовой информации и предоставления отчетов пользователю.
Использование информационно-аналитической системы "Арион" предполагает ее настройку на форматы представления текстовой информации, настройку лингвистической системы на прикладную область применения (определение перечней фактов и связей), статистическую обработку текстовой информации для выявления фактографической информации и формирование различных отчетов. Непосредственно аналитической работой должен заниматься пользователь, так как система не содержит никаких средств, реализующий функции логического вывода, обобщения и дедукции.
Анализ функциональных возможностей
Лингвистический процессор системы "Арион" не реализует синтаксический и точный семантический анализ текстовой информации. Система позволяет определенные слова анализируемого текста соотносить с вводимыми в нее списками слов, описывающих фактографическую информацию (объекты и связи). Однако это рутинная задача сопоставления не обеспечивает никакой интеллектуальной обработки тестов, а тем более "извлечения знаний".
Система не обеспечивает автоматическую обработку произвольных массивов текстовой информации. Система "Арион" не имеет никаких средств самообучения и автоматической адаптации к предметной области. Требуется вручную проводить настройку системы на предметную область перед ее использованием:
- для обработки неформализованной информации для выявления фактографической информации вводить учитываемые семантические объекты (словарные понятия), правила разбора объектов, типы учитываемых связей объектов;
- для обработки структурированной информации описывать названия, типы обрабатываемых полей баз данных и правила работы с ними.
Система неудобна в работе, так как требует предварительного обучения пользователя правилам формирования запросов:
- знания языка формализованных запросов (операторов объединения искомых слов по "И", по "ИЛИ", указания обязательности слов и т.п.);
- знания правил формирования поисковых шаблонов, в которых для каждого искомого объекта надо в явном виде указывать формализованные признаки его типа и атрибуты.
Для этого, например, на этапе ввода информацию в системе используется АРМ корректора, выполняющего вручную функции выделения объектов и связей, загрузку данных. Потоковый ввод данных реализуется для документов определенного формата и тематики, только после ручной настройки системы.
На этапе предварительного отбора информации (фильтрации) от пользователя требуется знание языка xml для конфигурирования фильтра.
Графическое представления структуры выделенных связей малоинформативно, а зачастую и противоречиво. Так, например, исходя из приведенной граф-схемы обработанного текста следует связь взрыва с организацией AFP, в то время как в тексте сказано: "Как отмечает AFP, взрыв произошел в тот момент, когда …".
Это обусловлено изложенными далее недостатками лингвистического анализа (синтаксис, семантика) в общем, и в частности тем, что не отслеживается направление и тип связи.
Система неудобна в работе ввиду отсутствия возможности ведения диалога с ней на естественном языке. Например, система не может отвечать на вопросы пользователя (например, "Когда погиб Басаев?"), строить аналитические отчеты по запросам на естественном языке (например, "Связь Бен Ладена с Афганистаном").
Информационно-аналитическая система "Арион" не "извлекает из документов знания" (именно так о системе заявляют разработчики), а только формирует отчеты о встречающихся в анализируемых документах словах. Пользователь системы настраивает списки слов (объекты и связи), настраивает фильтр ввода данных, формализует запросы. Эти неавтоматизированные процессы требуют творческой работы пользователя, использования его знаний. Знания (в информатике) - вид информации, отражающей опыт специалиста (эксперта) в определенной предметной области, его понимание множества текущих ситуаций и способы перехода от одного описания объекта к другому.
По Д.А.Поспелову для знаний характерны: внутренняя интерпретируемость, структурированность, связанность и взаимная активность.
Именно поэтому система "Арион" не является системой извлечения знаний. Она не работает даже со статическим представлением иерархических семантических категорий. Используемые семантические категории не образуют иерархической семантической сети понятий, характерных для онтологий.
Анализ технологии лингвистического анализа
Морфологический анализ
Система "Арион" работает практически только с морфологией (словоизменением) отдельных слов. Это обеспечивает возможность поиска одинаковых слов в различных морфоформах.
Система не обеспечивает поиск по различным словоформам для слов, не имеющихся в словарях. Это обусловлено отсутствием реализации бессловарной морфологии, обеспечивающей автоматическую генерацию лексем для неизвестных системе слов.
Синтаксический анализ
Система "Арион" не обеспечивает высокой точности анализа неформализованного текста в автоматическом режиме ввиду отсутствия реализации полного синтаксического анализа предложений.
Система не реализует разрешение омонимии, в результате чего система не может в автоматическом режиме корректно провести семантический анализ омонимов в предложениях. Например, система не может корректно определить значение слова "Иванов" (город или фамилия) в предложениях "Петров живет в Иванове на улице Шевченко" и "Иванов был назначен губернатором".
Система не реализует разрешение анафоры. В результате автоматически не связываются объекты в соседних анафорически связанных предложениях. Например, имеем два предложения: "Сидоров родился в 1963 году. Он жил в Ленинграде". В данном случае система "Арион" автоматически не связывает объект "Сидоров" с "Ленинградом".
Семантический анализ
Система не обеспечивает возможности проведения обработки неформализованной текстовой информации с учетом семантической вложенности понятий. Используемые семантические категории представляют собой списки слов одного уровня, которые не связаны в иерархическую структуру взаимоувязанных понятий, характерную для онтологий.
Это приводит к невозможности реализации логического вывода от частного к общему. Например, для связки "континет-страна-город-улица", если в анализируемом тексте имеется текст "Иванов живет на Фонтанке", то не происходит автоматическая связка объекта "Иванов" с объектами "Санкт-Петербург" и "Россия".
Таким образом, полный лингвистический анализ в системе "Арион" не реализован. Лингвистическая обработка неструктурированной текстовой информации сводится к морфологическому анализу только для "известных" слов, имеющихся в морфологическом словаре системы.
Выводы
Система "Арион" может использоваться для автоматизации рутинных этапов обработки текстовой информации. Однако аналитическую обработку текстовой информации, в традиционном понимании этого термина, система "Арион" не реализует.
Система "Арион" не обеспечивает высокие показатели по достоверности выявления связей, наглядности их представления ввиду отсутствия реализации полного лингвистического анализа текстовой информации.
Система "Арион" не может быть использована для обработки больших объемов разнородной информации ввиду того, что что она не имеет собственных средств ведения поискового индекса, требует большого объема ручного труда для настройки системы на новые прикладные области, а также отсутствия автоматического определения словоформ неизвестных системе слов.
Система "Арион" неудобна в работе ввиду отсутствия возможности ведения диалога пользователя с ней на естественном языке.
Система "Арион" не обеспечивает оперативной настройки на новые прикладные области применения ввиду большого объема работы, выполняемой подготовленными IT специалистами.
Система "Арион" требует предварительного обучения пользователя ввиду использования весьма сложных и неочевидных процедур работы с данными.