Извлечение текста из .pdf-файлов

Страница: 1

Сообщений 1 страница 1 из 1

Поделиться12019-08-25 20:55:47

Автор: Лис [К]
Сочувствующий
Зарегистрирован: 2019-05-16
Приглашений: 0
Сообщений: 1009
Уважение: [+1/-0]
Позитив: [+0/-0]
Провел на форуме:
6 дней 3 часа
Последний визит:
2021-02-04 17:36:28

Есть индексаторы текстов для поисковых движков, там эта задача как-то решается.

[html]
<a href="https://gijn.org/2018/07/28/извлечение-данных-из-pdf-файлов-для-чай/">2017-07-28, Лора Грант , Извлечение данных из PDF-файлов для «чайников»</a>
[/html]

Ghostscript
gswin64c -sDEVICE=txtwrite -o output.txt input.pdf

В чём идея? Мы хотим затребовать, чтобы тексты программ были документами. Ну вот пусть компилятор принимает на вход .pdf-файлы %)

git-у поплохеет, конечно, но кому сейчас легко?

Отредактировано Лис (2019-08-25 20:57:48)

Страница: 1

Нужен автокод - иностранцам вежливо настраивать язык кириллический

Меню навигации

Пользовательские ссылки

Информация о пользователе

Извлечение текста из .pdf-файлов

Сообщений 1 страница 1 из 1

Поделиться12019-08-25 20:55:47