Извлечение текста из pdf документов c помощью gpdftext

Оригинал статьи находится на http://librerussia.blogspot.ru/2014/10/pdf-c-gpdftext.html

PDF очень удобный формат и в нем распространяется множество файлов, особенно учебных. Однако при копировании текста из PDF файлов в текстовые процессоры возникает проблема.

Вёрстка: Копирование текста из PDF

Каждая строка вставляется с отступом «первой строки».

Чтобы избежать лишней работы, я использую программу gpdftext (не путать с pdftotext). Программа есть в репозитории Ubuntu.

Пользоваться программой легко. Запускаете программу, открываете pdf файл и все. Полученный результат можно сохранить в .txt файле.

Вёрстка: Извлечение текста из pdf документов c помощью gpdftext

Но есть несколько проблем. Вот результат при копировании полученного текста в текстовый процессор.

Вёрстка: Извлечение текста из pdf документов c помощью gpdftext

1-я — Программа видит не все абзацы.
На предыдущем скриншоте в этом отрезке текста должно быть два абзаца. Эту проблему я решил ручным способом.

2-я — Программа подчеркивает все слова с буквой «й»
Не такая уж проблема, но лишние подчеркивания отвлекают.

Оказывается, что программа распознает букву «й» как два символа — как букву «и» и диакритический знак "ˇ". Решается эта программа поиском и заменой.

Вёрстка: Извлечение текста из pdf документов c помощью gpdftext

Вот итоговый результат:

Вёрстка: Извлечение текста из pdf документов c помощью gpdftext

P.S. Пробовал консольную программу pdftotext, результат не удовлетворил.

Вёрстка: Извлечение текста из pdf документов c помощью gpdftext

0 комментариев

Оставить комментарий