https://ru.wikipedia.org/wiki/Сегалович,_Илья_Валентинович

http://www.dialog-21.ru/digests/dialog2 … kovYuG.pdf

Илья  Сегалович  является  автором  алгоритма  открытого  (т.  е.  позволяющего с высокой точностью обрабатывать не входящие в словарь слова) морфологического  анализа  и  синтеза  для  нескольких  языков  — 
ключевого  лингвистического инструмента поисковой технологии Яндекса


Сегалович И., Маслов М. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов. // Компьютерная  лингвистика  и  интеллектуальные  технологии:  Труды  международной конференции «Диалог’99». Т. 2. С. 547–552. Казань, 1998.

Программа MyStem, первая версия которой была написана Ильей Сегаловичем и Виталием Титовым, умеет строить такие гипотетические разборы для слов, не входящих в словарь.


вычисляем  по  корпусу  следующие  величины:  частоту каждой морфологической схемы (парадигмы), а внутри схемы — частоты каждой  основы  и  каждого  окончания  слова.  Каждому  разбору  конкретного  слова 
соответствует своя схема, точно определяющая границы основы и окончания. Мы  предполагаем,  что  события  «встретилась  данная  основа  stem»  и  «встретилось  данное  окончание  flex»  слова  word
  при  фиксированной  схеме  разбора  scheme  независимы.  Поэтому  вероятность  разбора  слова  word  по  схеме  scheme можно определить по формуле Байеса
...
Этот  подход  представляет  собой  наивный  байесовский  классификатор.  Его преимущество состоит, во-первых, в том, чтоданные о частотах распределены  по  основам  и  окончаниям  (и  поэтому  их  можно  эффективно  упаковать), 
а  во-вторых,  в  том,  что  разреженность  корпуса  и  низкие  частоты  отдельных форм слов уже не представляют проблемы: эти данные будут сглажены за счет других форм с такой же основой и других слов с таким же окончанием внутри
данной схемы. Кроме того, полученные частоты дополнительно сглаживаются (например, простейшим методом Лапласа).

Точность   этой   модели   на   русском   языке   достигает   95,9%   (по   тексту леммы), в то время как точность простого выбора леммы с самой частотной схемой (baseline) равна 90%. Обращаем внимание на то, что здесь не используется контекст слова.


Зеленков Ю.,  Сегалович И.,  Титов В. Вероятностная  модель  снятия  морфологической  омонимии  на  основе  нормализующих  подстановок  и  позиций  соседних слов // Компьютерная лингвистика и интеллектуальные технологии:
Труды международной конференции «Диалог’2005». — М.: Наука, 2005. 616 с.

Илья  в  2008  г.  предложил  разработать универсальный алгоритм практической транскрипции (записи русскими буквами  максимально  близкого  звучания  иностранного  имени)  собственной  лексики.

В процессе транскрипции исходное слово разбивается на сегменты с контекстами, для каждого сегмента выбираются все варианты  «перевода»,  вероятности  суммируются,  и  результаты  ранжируются по  убыванию  сумм  вероятностей.
Подход  полностью  симметричен  как  в  направлении от латиницы к кириллице, так и обратно.


Ilyinsky S., Kuzmin M., Melkov A., Segalovich I.  An efficient method to detect duplicates of Web documents with the use of inverted index. WWW'2002 — Eleventh International World Wide Web Conference.

Отредактировано Лис (2018-01-04 02:05:53)