Автор Тема: Использование OCR-системы Tesseract при создании текстового слоя в djvu  (Прочитано 1659 раз)

Globus2

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Существует Open Source OCR-система Tesseract 3.00
Там есть и русский язык - распознавал ею  текст с фотографии - был поражен неплохим качеством
(конечно, если изображение более-менее).
Интересно, нельзя ли использовать Tesseract для создания текстового слоя в djvu-файлах?

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Надо будет глянуть - если там есть экспорт OCR-слоя в XML - почему бы и нет. Кажется, там в hOCR есть экспорт.

SI{AY

  • Новичок
  • *
  • Сообщений: 6
    • Просмотр профиля
на форуме либгена, был проект массового распознования книг, и там как раз для клиентской части использовалась тессеракт.
вот сам скрипт для линуха на питоне http://rusfolder.com/36958044
как работало. Скрипт обращается к координирующему серверу, получает ссылку на скачку. По ней скачивал дежавю, распознавал его, собирал обратно дежавюшку, и отправлял ее координирующему серверу.
внутри ReadMe там копия текста с сайта про зависимости. Но там вроде не все описано, всплывало еще несколько что требовалось до установить. Но названия этих модулей из ошибки будет видно
« Последнее редактирование: 23 ёоЭм 2013, 01:24:39 от SI{AY »

Jennienat

  • Новичок
  • *
  • Сообщений: 7
    • ICQ клиент - 331182453
    • MSN клиент - gulbandrei@yandex.com
    • Просмотр профиля
    • Test, just a test
    • E-mail
Да мне эта абстракция понятна. А вот как именно помехоустойчивость зависит от скорости передачи данных, почему в учебниках не принято это рассматривать?

Shirleybolo

  • Новичок
  • *
  • Сообщений: 1
    • ICQ клиент - 228172783
    • MSN клиент - hgjjydtt@gmail.com
    • Просмотр профиля
    • E-mail
query выводил, синтаксически все правильно. По идее должен выполняться.
В MySQL нашел только протоколирование UPDATE-запроссов. Включал. Но почему-то мне кажется это не совсем то, других в my.ini не нашел.