Использование OCR-системы Tesseract при создании текстового слоя в djvu

Главное > Программирование

(1/683) > >>

Globus2:
Существует Open Source OCR-система Tesseract 3.00
Там есть и русский язык - распознавал ею текст с фотографии - был поражен неплохим качеством
(конечно, если изображение более-менее).
Интересно, нельзя ли использовать Tesseract для создания текстового слоя в djvu-файлах?

monday2000:
Надо будет глянуть - если там есть экспорт OCR-слоя в XML - почему бы и нет. Кажется, там в hOCR есть экспорт.

SI{AY:
на форуме либгена, был проект массового распознования книг, и там как раз для клиентской части использовалась тессеракт.
вот сам скрипт для линуха на питоне http://rusfolder.com/36958044
как работало. Скрипт обращается к координирующему серверу, получает ссылку на скачку. По ней скачивал дежавю, распознавал его, собирал обратно дежавюшку, и отправлял ее координирующему серверу.
внутри ReadMe там копия текста с сайта про зависимости. Но там вроде не все описано, всплывало еще несколько что требовалось до установить. Но названия этих модулей из ошибки будет видно

Jennienat:
Да мне эта абстракция понятна. А вот как именно помехоустойчивость зависит от скорости передачи данных, почему в учебниках не принято это рассматривать?

Shirleybolo:
query выводил, синтаксически все правильно. По идее должен выполняться.
В MySQL нашел только протоколирование UPDATE-запроссов. Включал. Но почему-то мне кажется это не совсем то, других в my.ini не нашел.

Навигация

[0] Главная страница сообщений

[#] Следующая страница

Перейти к полной версии