ПО, ЭВМ и АСУ из Таможенного Союза

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » ПО, ЭВМ и АСУ из Таможенного Союза » книги и публикации » 2016, Николаев & Митренина, Прикладная и компьютерная лингвистика.


2016, Николаев & Митренина, Прикладная и компьютерная лингвистика.

Сообщений 1 страница 6 из 6

1

Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.)
ЛЕНАНД, 2016
Вниманию читателей предлагается первое на русском языке практическое введение в современные лингвистические технологии. Из книги можно узнать о применении знаний о языке для решения прикладных задач. Монография позволяет найти ответы на базовые вопросы, возникающие у начинающего исследователя: как работают современные лингвистические технологии, где взять основные компоненты программ и что читать дальше для углубленного понимания.
Многие сложные научно-технические проблемы станут намного понятнее. Например, как заставить компьютер прочитать текст для слабовидящего человека. Или как сделать автоматический переводчик, чтобы договориться с торговцем на рынке в глухой провинции Китая. Или даже — как научить смартфон давать рекомендации, на какой фильм пригласить подругу.
Книга предназначена для преподавателей и студентов, для разработчиков программ по компьютерной обработке языка, для всех интересующихся многогранными возможностями современной прикладной лингвистики.

Отредактировано MihalNik (2019-08-25 20:38:41)

0

2

Лис, современное в #2. Это сразу очевидно по содержанию:
Часть I. Компоненты .............................................................. 14
  Глава 1.  Компьютерная морфология .......................................... 14
1.  Как найти слова ................................................................. 14
2.  Каким может быть анализ слов ........................................ 16
3.  Лексическая неоднозначность ......................................... 18
4.  Анализ морфологии на основе правил ............................ 20
4.1.  Что хранить в словарях? .....................................................20
4.2.  Морфологические модули АОТ .........................................21
4.3.  Морфологический анализатор Pymorphy2
и словарь проекта OpenCorpora .........................................24
4.4.  Анализатор Mystem .............................................................26
5.  Статистические методы анализа слов ............................. 27
5.1.  Статистическая частеречная разметка...............................27
5.2.  Триграммная скрытая Марковская модель .......................29
5.3.  Частеречная разметка незнакомых слов ............................31
Литература .............................................................................. 32
Электронные ресурсы ............................................................ 33
  Глава 2.  Компьютерный синтаксис ............................................. 35
1.  Разные подходы к анализу синтаксических
структур .............................................................................. 35
1.1.  Что такое парсинг ................................................................35
1.2.  Грамматики зависимостей ..................................................36
1.3.  Грамматики непосредственных составляющих................40
1.4.  Комбинированные теории анализа предложения .............43
2.  Неоднозначность и проблема комбинаторного
взрыва ................................................................................. 44
4  Содержание   
3.  Статистический парсинг ................................................... 47
4.  Современные синтаксические анализаторы: семь
глаз и типы в цехе .............................................................. 48
4.1.  Лингвистический процессор ЭТАП ..................................48
4.2.  DictaScope и АОТ ................................................................50
4.3.  Stanford NLP, RASP, OpenNLP ...........................................52
4.4.  Link Grammar Parser ............................................................53
4.5.  NLTK ....................................................................................56
5.  Дальнейшие задачи ........................................................... 57
Литература .............................................................................. 58
Электронные ресурсы ............................................................ 59
  Глава 3.  Компьютерное представление значений ..................... 60
1.  О семантическом модуле .................................................. 60
2.  Модели представления знаний в компьютерной
семантике ........................................................................... 61
2.1.  Виды семантических представлений ................................61
2.2.  Сетевые модели ...................................................................61
2.3.  Концептуальные графы ......................................................64
2.4.  Фреймы и сценарии ............................................................65
2.5.  Современные разновидности семантических
представлений .....................................................................68
3.  Формальные онтологии .................................................... 69
3.1.  Структура формальных онтологий ....................................69
3.2.  Классификация формальных онтологий ...........................70
3.3.  Особенности создания формальных онтологий ...............71
3.4.  Языки представления и редакторы формальных
онтологий .............................................................................72
3.5.  Методы автоматического построения формальных
онтологий .............................................................................74
3.6.  Современные онтологические ресурсы. ...........................75
3.7.  Применение формальных онтологий ................................76
3.8.  Стандартизация и оценка качества формальных
онтологий .............................................................................78
  Содержание  5
4.  Компьютерные тезаурусы ................................................. 79
4.1.  Какие бывают тезаурусы ....................................................79
4.2.  Компьютерные тезаурусы типа WordNet ...........................82
4.3.  Компьютерные тезаурусы для русского языка..................84
4.4.  Надстройки к компьютерным тезаурусам .........................87
4.5.  Прикладное использование компьютерных
тезаурусов ............................................................................89
5.  Настоящее и будущее компьютерной семантики ........... 90
Литература .............................................................................. 90
Электронные ресурсы ............................................................ 93
  Глава 4.  Распознавание и синтез речи ........................................ 96
1.  Навстречу эпохе говорящих машин ................................ 96
2.  Синтез речи ........................................................................ 97
2.1.  Методы синтеза ...................................................................99
2.2.  Устройство TTS-синтезатора речи ...................................103
2.3.  Модуль лингвистической обработки текста ...................103
3.  Распознавание речи ......................................................... 107
3.1.  Вариативность речи — главное препятствие для
разработчиков систем распознавания речи .....................109
3.2.  Основные типы современных систем
распознавания речи ........................................................... 112
3.3.  Лингвистический и статистический подходы к
распознаванию речи .......................................................... 114
3.4.  Скрытые Марковские модели .......................................... 116
3.5.  Как работает статистическая система
распознавания речи? ......................................................... 117
4.  Новые горизонты ............................................................. 119
Литература ............................................................................ 120
Электронные ресурсы .......................................................... 122
  Глава 5.  Машинное обучение в лингвистике .......................... 123
1. Введение: Формализация задач машинного
обучения ........................................................................... 123
6  Содержание   
2.  Методы машинного обучения ........................................ 126
2.1.  Метрические методы классификации .............................128
2.2.  Статистические методы классификации .........................129
2.3.  Линейные методы классификации ..................................131
2.4.  Регрессионные методы .....................................................132
2.5.  Искусственные нейронные сети ......................................133
2.6.  Кластеризация ...................................................................135
3.  Заключение ...................................................................... 137
Литература ............................................................................ 137
Электронные ресурсы .......................................................... 138
  Глава 6.  Корпусная лингвистика ............................................... 140
1.  Корпусы вчера и сегодня ................................................ 140
2.  Основные свойства корпуса ........................................... 141
2.1.  Электронный .....................................................................141
2.2.  Репрезентативный .............................................................141
2.3.  Размеченный ......................................................................142
2.4.  Прагматически ориентированный ...................................143
3.  Какие бывают корпусы ................................................... 143
3.1.  Параллельные корпусы .....................................................144
3.2.  Корпусы устной речи ........................................................144
4.  Разметка корпусов ........................................................... 145
4.1.  Средства разметки .............................................................145
4.2.  Лингвистическая разметка ...............................................146
5.  Интернет как корпус ....................................................... 148
6.  Сервис корпусного менеджера ....................................... 150
7.  Как сделать корпус самому ............................................ 152
8.  Корпусы как инструмент будущего ............................... 153
Литература ............................................................................ 154
Электронные ресурсы .......................................................... 156
  Содержание  7
Часть II. Направления ......................................................... 158
  Глава 7.  Машинный перевод ...................................................... 158
1.  Три подхода к машинному переводу ............................. 158
2.  Перевод на основе правил .............................................. 160
2.1.  Три способа перевода с помощью правил ......................160
2.2.  Трансферный подход ........................................................161
2.3.  Пример словарей и грамматик компании PROMT .........162
3.  Статистический машинный перевод ............................. 164
3.1.  Главная формула перевода ...............................................164
3.2.  Модель языка и цепи Маркова .........................................165
3.3.  Оценка максимального правдоподобия ...........................169
3.4.  Методы сглаживания ........................................................170
3.5.  Модель перевода ...............................................................172
4.  Гибридный перевод ......................................................... 184
5.  Методы оценки качества перевода ................................ 185
6.  Некоторые современные системы машинного
перевода ........................................................................... 186
Литература ............................................................................ 190
Электронные ресурсы .......................................................... 190
  Глава 8.  Информационный поиск ............................................. 192
1.  Где ищем? ......................................................................... 192
2.  Что ищем? ........................................................................ 193
3.  Как ищем? ........................................................................ 194
3.1.  Индекс ................................................................................194
3.2.  В идеальном мире .............................................................196
3.3.  Тем временем в реальности .............................................196
4.  Что такое хорошо? ........................................................... 198
4.1.  Релевантность, полнота, точность ...................................198
4.2.  Фильтрация и ранжирование ...........................................199
4.3.  Факторы ранжирования ....................................................200
4.4.  Оценки релевантности ......................................................201
8  Содержание   
4.5.  Не все слова одинаково полезны .....................................201
5.  А где же лингвистика? .................................................... 204
5.1.  Стандартные запчасти ......................................................205
5.2.  Расширения ........................................................................206
5.3.  Расстояния .........................................................................208
5.4.  Еще немного поисковой лингвистики .............................209
Литература ............................................................................ 210
Электронные ресурсы .......................................................... 212
  Глава 9  Извлечение информации ............................................. 213
1.  Какую информацию извлекаем? .................................... 213
2.  Распознавание сущностей .............................................. 216
2.1.  Какие сущности извлекаем ..............................................216
2.2.  Зависимость категории от контекста ...............................217
2.3.  Неоднозначность идентификации ...................................218
2.4.  Концептуальные сложности .............................................218
2.5.  Разрешение анафоры и кореферентности .......................219
2.6.  Установление референта...................................................220
2.7.  Автоматические подходы .................................................220
2.8.  Использование экстратекстуальных сигналов ................222
3.  Извлечение отношений ................................................... 224
3.1.  Какие отношения извлекаем ............................................224
3.2.  Обучение моделей на размеченных текстах ...................225
3.3.  Полуавтоматическое создание размеченного
корпуса ...............................................................................226
3.4.  Временное измерение .......................................................228
4.  Извлечение событий ....................................................... 228
5.  Для тех, кто хочет попробовать сам .............................. 232
Литература ............................................................................ 233
Электронные ресурсы .......................................................... 234
Глава 10.  Диалоги и чат-боты ....................................................... 235
1.  Компьютер притворяется человеком ............................. 235
  Содержание  9
2.  Особенности диалога на естественном языке .............. 236
3.  Архитектура диалоговых систем ................................... 237
3.1.  Модуль понимания естественного языка ........................238
3.2.  Диалоговый менеджер ......................................................238
3.3.  Модуль генерации естественного языка .........................239
4.  Как работают чат-боты ................................................... 240
4.1.  Имитация беседы ..............................................................240
4.2.  Язык AIML и другие подходы ..........................................241
5.  Обучение диалоговых систем на реальных
диалогах ........................................................................... 243
6.  Углубление диалога ......................................................... 244
Литература ............................................................................ 245
Электронные ресурсы .......................................................... 246
Глава 11.  Анализ тональности ..................................................... 247
1.  Компьютер отслеживает чувства ................................... 247
2.  С чего начинается оценка? ............................................. 248
3.  Как измерить тональность текста .................................. 250
3.1.  Подход с использованием правил и словарей .................250
3.2.  Подход с использованием машинного обучения ............255
4.  Как это выглядит на практике ........................................ 256
5.  Оценка качества работы алгоритмов ............................. 257
Литература ............................................................................ 258
Электронные ресурсы .......................................................... 260
Глава 12.  Компьютерная текстология ........................................ 261
1.  Что такое текстология ..................................................... 261
2.  Этапы текстологического исследования
рукописной традиции ...................................................... 262
3.  Компьютер в работе текстолога ..................................... 267
3.1.  Автоматическое сравнение рукописей ............................267
3.2.  Компьютерная классификация рукописей ......................268
10  Содержание   
Литература ............................................................................ 274
Глава 13.  Квантитативная лингвистика: что можно
сосчитать в языке и речи? ........................................... 275
1.  Буквы и звуки: как определить, на каком языке
написан текст? — Дешифровка ..................................... 275
2.  Морфемы: как оценить сложность языка? —
Типология ........................................................................ 277
3.  Части речи: можно ли определить, о чем текст? —
Стилеметрия .................................................................... 279
4.  Сто слов: как определить возраст языков? —
Глоттохронология ............................................................ 281
5.  Слова, слова, слова: сколько слов мы знаем и
сколько нам нужно знать? — Частотные словари ........ 284
6.  Порядок, строй, парадигма: насколько стройна
грамматика? — Квантитативная морфология .............. 291
Литература ............................................................................ 293
Электронные ресурсы .......................................................... 294
Глава 14.  Речевое воздействие и манипулирование ................. 296
1.  Что такое речевое воздействие? ..................................... 296
2.  Кто и зачем изучает речевое воздействие? ................... 298
3.  Разновидности речевого воздействия ............................ 299
4.  Языковое манипулирование: приемы и ресурсы .......... 303
Литература ............................................................................ 308

Отредактировано MihalNik (2019-08-25 22:11:28)

0

3

Я к тому написал, что "все, что выдано" - это не всё, что там есть, примерно 75% выпало из рассмотрения.

В книге к каждой главе список литературы, источников в сети, упоминаются и обе книги в #3-4 из http://gen.lib.rus.ec/, много статей из тех же "Диалогов".
Все авторы указывают на малое кол-во литературы по-русски. Это на 2016 год.

Отредактировано MihalNik (2019-08-27 19:18:48)

0

4

Да, литературы мало. Но популярность данного направления у нас возникло как раз лет 5 назад не более.  Так что скоро это может изменится.

А во-вторых, а много-ли нужно статей?

0

5

А во-вторых, а много-ли нужно статей?

Ссылки на англоязычные источники для чего-то даны.

0

6

MihalNik написал(а):

Ссылки на англоязычные источники для чего-то даны.

Не все умеют бежать впереди паровоза. И не всем это дано.  Что-бы повторить то что кто-то открыл изобрёл нужно в 10 а то и в 100 раз меньше усилий.

Вот к примеру сколько в русском языке частей речи? В школе нас учат:
1. существительное
2. прилагательное
3. глагол
4. наречие
5 частица
6 союз.
7. числительное

А сколько у Зализняка?

1.
м — существительное мужского рода неодушевленное
мо — существительное мужского рода одушевленное
ж — существительное женского рода неодушевленное
жо — существительное женского рода одушевленное
с — существительное среднего рода неодушевленное
со — существительное среднего рода одушевленное
мо-жо — существительное так наз. общего рода одушевленное (т. е. выступающее как
существительное мужского рода при обозначении мужчин, женского рода — при обозначении
женщин)
мн. (без слова от), мн. неод., мн. одуш.— существительные группы pluralia tantura (см.
стр. 5); одушевленность — неодушевленность, если она не указана прямо, определяется
дополнительным буквенным символом (который в этом случае обязательно имеется)
мн. от — форма мн. числа от существительного, употребляющегося также и в единственном
числе (см. стр. 5) и обозначенного после слова от его основным буквенным символом и индексом
(или приведенного непосредственно)

2. п — прилагательное
3. мс — местоимение (точнее, местоимение-существительное; см. также стр. 6)
мс-п — местоименное прилагательное
4.
част. — частица
5.
числ.-— числительное (количественное или собирательное; см. также стр. 6)
числ.-п — порядковое числительное (= счетное прилагательное)
6.
св — глагол совершенного вида
нсв — глагол несовершенного вида
св-нсв — двувидовой глагол (т. е. могущий выступать и как глагол совершенного, и как глагол несовершенного вида).
7. союз — союз

Пометы:
нп — непереходный глагол.
«безл.» — обозначение безличных глаголов.
Помета «многокр.» — обозначение многократных глаголов

И того 7 против 7. Нестыковочка. Зализняк наречия объединяет с прилагательными. А я местоимения забыл.

Возьмём Американца
http://snowball.tartarus.org/algorithms … emmer.html

1.PERFECTIVE GERUND
2 ADJECTIVE:
3 PARTICIPLE:
4 REFLEXIVE:
5 VERB:
6 NOUN:
7 SUPERLATIVE:
8 DERIVATIONAL:

Аж 8 штук.

Каталонский институт. Проект apertium, тут даже не знаю как считать
  <sdef n="n" c="Noun"/>
    <sdef n="np" c="Proper noun"/>
    <sdef n="det" c="Determiner"/>
    <sdef n="prn" c="Pronoun"/>
    <sdef n="num" c="Numeral"/>
    <sdef n="pr" c="Preposition"/>
    <sdef n="prb" c="problematic"/>
    <sdef n="pass" c="reflexive passive"/>
    <sdef n="vblex" c="Verb"/>
    <sdef n="vbmod" c="Modal verb"/>
    <sdef n="vbser" c="Verb 'to be'"/>
    <sdef n="vbhaver" c="Verb 'to have'"/>
    <sdef n="adj" c="Adjective"/>
    <sdef n="adv" c="Adverb"/>
    <sdef n="pred" c="Predicative"/>
    <sdef n="preadv" c="Pre-adverb"/>
    <sdef n="part" c="Particle"/>
    <sdef n="abbr" c="Abbreviation"/>
    <sdef n="ij" c="Interjection"/>
    <sdef n="cnjcoo" c="Coordinating conjunction"/>
    <sdef n="cnjsub" c="Subordinating conjunction"/>
    <sdef n="cnjadv" c="Adverbial conjunction"/>
    <sdef n="rel" c="Relative"/>
    <sdef n="sg" c="Singular"/>
    <sdef n="pl" c="Plural"/>
    <sdef n="sp" c="Singular / plural"/>
    <sdef n="nom" c="Nominative"/>
    <sdef n="gen" c="Genitive"/>
    <sdef n="dat" c="Dative"/>
    <sdef n="acc" c="Accusative"/>
    <sdef n="ins" c="Instrumental"/>
    <sdef n="prp" c="Prepositional"/>
    <sdef n="abl" c="Ablative"/>
    <sdef n="loc" c="Locative"/>
    <sdef n="par" c="Partitive"/>
    <sdef n="short" c="Short form adjective"/>
    <sdef n="sint" c="Adjective with comparative"/>
    <sdef n="cmp" c="Compound form adjective"/>
    <sdef n="aa" c="Animate"/>
    <sdef n="an" c="Animate / inanimate"/>
    <sdef n="nn" c="Inanimate"/>
    <sdef n="qnt" c="Quantifier"/>
    <sdef n="m" c="Masculine"/>
    <sdef n="f" c="Feminine"/>
    <sdef n="comp" c="Comparative"/>
    <sdef n="nt" c="Neuter"/>
    <sdef n="mfn" c="Masculine / feminine / neuter"/>
    <sdef n="mf" c="Masculine / feminine"/>
    <sdef n="p1" c="First person"/>
    <sdef n="p2" c="Second person"/>
    <sdef n="p3" c="Third person"/>
    <sdef n="pers" c="Personal"/>
    <sdef n="itg" c="Interrogative"/>
    <sdef n="ord" c="Ordinal"/>
    <sdef n="ref" c="Reflexive"/>
    <sdef n="dem" c="Demonstrative"/>
    <sdef n="ind" c="Indefinite"/>
    <sdef n="pos" c="Possessive"/>
    <sdef n="coll" c="Collective"/>
    <sdef n="neg" c="Negative"/>
    <sdef n="def" c="Definite"/>
    <sdef n="pprep" c="Pre-prepositional"/>
    <sdef n="perf" c="Perfective"/>
    <sdef n="impf" c="Imperfective"/>
    <sdef n="dual" c="Dual aspect"/>
    <sdef n="tv" c="Transitive"/>
    <sdef n="iv" c="Intransitive"/>
    <sdef n="actv" c="Active"/>
    <sdef n="pasv" c="Passive"/>
    <sdef n="inf" c="Infinitive"/>
    <sdef n="imp" c="Imperative"/>
    <sdef n="pres" c="Present tense"/>
    <sdef n="fut" c="Future tense"/>
    <sdef n="fac" c="facultative"/>
    <sdef n="pp" c="Past participle"/>
    <sdef n="pprs" c="Present participle"/>
    <sdef n="past" c="Past tense"/>
    <sdef n="nonpast" c="Present/future form for dual aspect verbs"/>
    <sdef n="top" c="Toponym"/>
    <sdef n="org" c="Organisation"/>
    <sdef n="hyd" c="Hydronym"/>
    <sdef n="ant" c="Anthroponym"/>
    <sdef n="cog" c="Cognomen"/>
    <sdef n="al" c="Altres"/>
    <sdef n="cm" c="Comma"/>
    <sdef n="percent" c="Percent"/>
    <sdef n="roman" c="Roman numeral"/>
    <sdef n="sent" c="Sentence marker"/>
    <sdef n="lpar" c="Left parenthesis"/>
    <sdef n="rpar" c="Right parenthesis"/>
    <sdef n="lquot" c="Left quote"/>
    <sdef n="rquot" c="Right quote"/>
    <sdef n="quot" c="Quote"/>
    <sdef n="guio" c="Hyphen"/> 
    <sdef n="past3p"     c="past third person"/> 

Можно ли по окончанию определить падеж или часть речи? Если учесть что падежей у нас насчитывается от 6 до 13 то честно говоря сделать это трудно. ДА ещё и с повторами окончаний.

Отредактировано Павиа (2019-08-27 21:29:01)

0


Вы здесь » ПО, ЭВМ и АСУ из Таможенного Союза » книги и публикации » 2016, Николаев & Митренина, Прикладная и компьютерная лингвистика.