Есть индексаторы текстов для поисковых движков, там эта задача как-то решается.
[html]
<a href="https://gijn.org/2018/07/28/извлечение-данных-из-pdf-файлов-для-чай/">2017-07-28, Лора Грант , Извлечение данных из PDF-файлов для «чайников»</a>
[/html]
Ghostscript
gswin64c -sDEVICE=txtwrite -o output.txt input.pdf
В чём идея? Мы хотим затребовать, чтобы тексты программ были документами. Ну вот пусть компилятор принимает на вход .pdf-файлы %)
git-у поплохеет, конечно, но кому сейчас легко?
Отредактировано Лис (2019-08-25 20:57:48)