Есть индексаторы текстов для поисковых движков, там эта задача как-то решается.

[html]
<a href="https://gijn.org/2018/07/28/извлечение-данных-из-pdf-файлов-для-чай/">2017-07-28,  Лора Грант , Извлечение данных из PDF-файлов для «чайников»</a>
[/html]

Ghostscript
gswin64c -sDEVICE=txtwrite -o output.txt input.pdf

В чём идея? Мы хотим затребовать, чтобы тексты программ были документами. Ну вот пусть компилятор принимает на вход .pdf-файлы %)

git-у поплохеет, конечно, но кому сейчас легко?

Отредактировано Лис (2019-08-25 20:57:48)