Посоветовали послушать лекцию:
2010-07-08, А. A. Зализняк, О происхождении слов
https://youtu.be/6XxAUWFt1wY
Из этой лекции я вынес:
1) способ составления слов путём комбинирования морфем.
берём, значит, словарь морфем, комбинируем их перестановками и сочетаниями, а затем оцениваем встречаемость результата поиском в интернете,
можно детектить тренды (использование растёт)
Таким образом можно из толкового словаря получить словарь всех форм слова
(но надо уметь разбирать словоформу на морфемы, а это неточно не зная смысла, можно разобрать больше, чем нужно)
Ну и словарь морфем надо иметь заранее.
2) лингвисты заморачиваются такой фигнёй как замена в речи одних звуков на другие (мода на звукоподражание, фонетический переход)
ну тогда, надо ещё моделировать речевой аппарат человека, и, по аналогии, ещё и опечатки клавиатуры (например переход слов из-за смены раскладки
пример: RSDN -> кывт).
Но я такой фигнёй заниматься не буду, это выпендрёж с точки зрения наших целей.
Слова укорачиваются со временем. Да и пофиг, неважно. Неясно, почему это должно быть важно.
3) удлинение слов происходит из объединения слов (морфем) с объединением смысла.
«все аффиксы являются наследниками когда-то существовавших отдельных слов.»
у нас нет большого количества данных, чтобы восстановить всё.
краткие слова со слишком редкими смыслами выбрасываются из языка, потому что у них много омонимов.
4) китайский и английский противопоставляются санскриту и русскому (это интересно)
языки первого типа изменяются в сторону второго, а языки второго типа в сторону первого...
английский движется в сторону китайского. Русский это наиболее архаичный из европейских (по мнению Зализняка)
но языки колеблются от одного типа к другому и сказать какой лучше нельзя.