https://ru.wikipedia.org/wiki/Сегалович,_Илья_Валентинович
http://www.dialog-21.ru/digests/dialog2 … kovYuG.pdf
Илья Сегалович является автором алгоритма открытого (т. е. позволяющего с высокой точностью обрабатывать не входящие в словарь слова) морфологического анализа и синтеза для нескольких языков —
ключевого лингвистического инструмента поисковой технологии Яндекса
Сегалович И., Маслов М. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов. // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог’99». Т. 2. С. 547–552. Казань, 1998.
Программа MyStem, первая версия которой была написана Ильей Сегаловичем и Виталием Титовым, умеет строить такие гипотетические разборы для слов, не входящих в словарь.
вычисляем по корпусу следующие величины: частоту каждой морфологической схемы (парадигмы), а внутри схемы — частоты каждой основы и каждого окончания слова. Каждому разбору конкретного слова
соответствует своя схема, точно определяющая границы основы и окончания. Мы предполагаем, что события «встретилась данная основа stem» и «встретилось данное окончание flex» слова word
при фиксированной схеме разбора scheme независимы. Поэтому вероятность разбора слова word по схеме scheme можно определить по формуле Байеса
...
Этот подход представляет собой наивный байесовский классификатор. Его преимущество состоит, во-первых, в том, чтоданные о частотах распределены по основам и окончаниям (и поэтому их можно эффективно упаковать),
а во-вторых, в том, что разреженность корпуса и низкие частоты отдельных форм слов уже не представляют проблемы: эти данные будут сглажены за счет других форм с такой же основой и других слов с таким же окончанием внутри
данной схемы. Кроме того, полученные частоты дополнительно сглаживаются (например, простейшим методом Лапласа).Точность этой модели на русском языке достигает 95,9% (по тексту леммы), в то время как точность простого выбора леммы с самой частотной схемой (baseline) равна 90%. Обращаем внимание на то, что здесь не используется контекст слова.
Зеленков Ю., Сегалович И., Титов В. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов // Компьютерная лингвистика и интеллектуальные технологии:
Труды международной конференции «Диалог’2005». — М.: Наука, 2005. 616 с.
Илья в 2008 г. предложил разработать универсальный алгоритм практической транскрипции (записи русскими буквами максимально близкого звучания иностранного имени) собственной лексики.
В процессе транскрипции исходное слово разбивается на сегменты с контекстами, для каждого сегмента выбираются все варианты «перевода», вероятности суммируются, и результаты ранжируются по убыванию сумм вероятностей.
Подход полностью симметричен как в направлении от латиницы к кириллице, так и обратно.
Ilyinsky S., Kuzmin M., Melkov A., Segalovich I. An efficient method to detect duplicates of Web documents with the use of inverted index. WWW'2002 — Eleventh International World Wide Web Conference.
Отредактировано Лис (2018-01-04 02:05:53)