Один из популярных вопросов относительно формата PDF звучит так: "Чем можно сделать OCR в PDF-файле?".
Естественно, что речь идёт о чисто растровом PDF-файле.
Мне известны такие варианты:
1. Открыть растровый PDF в Adobe Acrobat Professional и сделать там над ним OCR. Однако, многие говорят, что полученное качество будет невысоким.
2. ABBYY Finereader. Позволяет открыть PDF-файл (с преобразованием его в обычный графический формат), сделать OCR - и сохранить результат в PDF со встроенным OCR.
3. Есть ещё занятная технология в Adobe Acrobat Professional - называется "ClearScan"
http://acrobatusers.com/print/2215 . Принцип действия - тот же OCR, только векторные шрифты генерируются на основе конкретного текста, а не подбираются из имеющегося набора.
Помимо готовых программ, было бы здорово также и заиметь удобную бесплатную программную библиотеку, способную брать на входе OCR-слой (в виде XML или hOCR) и внедрять его в целевой растровый PDF.
Общий список программных PDF-библиотек можно посмотреть тут:
http://en.wikipedia.org/wiki/List_of_PDF_softwareМне, кстати, недавно Илья Межиров сообщил интересную вещь - цитирую:
Насколько я знаю, в PDF нету специального OCR-слоя. Нужный эффект достигается путем наложения прозрачного текста на видимую картинку.
Вот это да!
Кто бы мог подумать!
Тогда, может быть, с задачей внедрения OCR сможет справиться какая-нибудь обычная PDF-библиотека - например, LibHaru
http://en.wikipedia.org/wiki/LibHaru или iText
http://en.wikipedia.org/wiki/IText .
iText помощнее, чем LibHaru, но он лишь под Java/C#, а LibHaru зато - на языке СИ (и LibHaru, говорят, быстрей, чем iText).