Автор Тема: Кривой импорт OCR в DjVu.  (Прочитано 411 раз)

Kroll

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Кривой импорт OCR в DjVu.
« : 01 ёоЫм 2015, 13:10:35 »
После скантэйлора сделал djvu вот как в этой инструкции. Далее распознал в файнридере 9.0 и при помощи DjvuOCR 2.4beta R4 в ручном режиме внедрил результат файнридера в свой djvu.

Результат, мягко говоря, не айс. На некоторых страницах выделяемый текст подсвечивает в другом углу страницы. А на некоторых вообще не выделяется. При этом после выдёргивания ocr слоя обратно утилиткой djvused (с опцией -u) этот текст там поиском обнаруживается.

Как победить?

textsharik

  • Постоялец
  • ***
  • Сообщений: 138
    • Просмотр профиля
    • E-mail
Re: Кривой импорт OCR в DjVu.
« Ответ #1 : 01 ёоЫм 2015, 17:52:01 »
По описанию похоже, что не совпадает порядок страниц в DjVu-файле и проекте FineReader'а.
Проверьте для начала порядок страниц. Если не поможет - выложите проблемный файл, посмотрим.

Kroll

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: Кривой импорт OCR в DjVu.
« Ответ #2 : 01 ёоЫм 2015, 18:27:43 »
Нумерация странная у файлов внутри проекта. Начинается почему-то с 0010. А так, если посмотреть в файнридере, то номера картинок всех совпадают с номерами страниц на них.

Kroll

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: Кривой импорт OCR в DjVu.
« Ответ #3 : 01 ёоЫм 2015, 19:15:35 »
Вот пдфку он при этом почеловечески сохранил и, что примечательно, с чуть меньшим весом.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
Re: Кривой импорт OCR в DjVu.
« Ответ #4 : 01 ёоЫм 2015, 22:11:03 »
Как победить?
1. Использовать 8й файн + DjvuOCR
2. 9й файн ограничить на работу только одним ядром + DjvuOCR
3. 11 или 12й + FR11 DjVu Text Layer Crutch

была утилитка, предназначенная для решения данной проблемы - переименования номеров файлов в проекте, но чёта она не всегда корректно работала..