Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 58121 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
qx87
Цитировать
А какая в общем технология внедрения OCR-слоя?
Да как обычно - используете FineReader 8 Portable. Создаёте там пакет, заполняете его сканами, в фоновом режиме распознаёте. Затем в DjvuOCR 2 указываете этот пакет и целевой DjVu - и всё.

qx87

  • Новичок
  • *
  • Сообщений: 9
    • Просмотр профиля
    • E-mail
Спасибо, monday2000, разобрался.

Но что-то очень геморно получается. Я не создаю с нуля книги, а обрабатываю уже готовые djvu. Моя задача: проставить ссылки в предметном указателе. Тогда, если я правильно понял, мой путь таков:

1) Разбить книгу на tif'ы — DjVuOCR
2) Распознать в tif'ах текст — Fine Reader 8
3) Вшить OCR в оригинальный файл — DjVuOCR
4) Проставить ссылки — DjVu Hyperlinks Editor

Меня смущает то, что приходится дополнительно возиться с разбивкой на страницы. Как выяснилось, Fine Reader 9 умеет открывать djvu-файлы, но с ним отказывается работать DjVuOCR, хотя в некоторых местах говорится, что вроде как должна.

Fine Reader 11 умеет уже даже сохранять в djvu-файл, так что можно обойтись без DjVuOCR, но во-первых, новый djvu-файл создаётся без ссылок, которые были в оригинале, и содержания. Взяв волю в кулак, эту проблему можно решить предварительным экспортом этого дела из оригинала и импортом в результат, но тут вступает во-вторых: DjVu Hyperlinks Editor проставляет 20-30% ссылок. Здесь результат, если интересно поглядеть.

При этом качество распознавания у всех версий FineReader вроде бы одинаково хорошее, глюков я не заметил: и текст, и цифры распознаются верно и располагаются по правильным координатам. Не только обидно, но и очень странно.

Возможности сохранить документ в старом формате у версий Fine Reader 9-11 не нашёл. Вариантов других уже и не знаю. Я обречён делать всё по верхней схеме?

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
qx87
Цитировать
Я обречён делать всё по верхней схеме?
Пока да.
Цитировать
При этом качество распознавания у всех версий FineReader вроде бы одинаково хорошее,
FineReader имеет построчное разбиение OCR в DjVu (если уже не улучшили) - что мало, надо пословное (как в схеме с FineReader 8).

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
FineReader имеет построчное разбиение OCR в DjVu (если уже не улучшили) - что мало, надо пословное (как в схеме с FineReader 8).

Улучшили. И уже́ достаточно давно. Во всяком случае у меня в 11.0.102.583 такая фича есть. Т.е. пословное выделение и корректный перенос слов. Чего в ранних билдах одинадцатки не было.
Впрочем это все-равно не спасает от выдерания OCR и внедрения его в свой документ, так как сохранение ФР — пока что довольно коряво. На мой взгляд. 

qx87

  • Новичок
  • *
  • Сообщений: 9
    • Просмотр профиля
    • E-mail
Чем отличается пословное и построчное распознавание для пользователя?

yuree, каким образом выдираете-вставляете OCR из FR 11? И где в настройках нужно указать фичу с корректным переносом? У меня тот же самый билд, но я такого не нашёл.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Чем отличается пословное и построчное распознавание для пользователя?

В пословном выделяется каждое слово в отдельности, в построчном — вся строка в абзаце целиком.

Цитировать
yuree, каким образом выдираете-вставляете OCR из FR 11? И где в настройках нужно указать фичу с корректным переносом? У меня тот же самый билд, но я такого не нашёл.

 :o

Странно. Может всё таки у Вас более ранняя версия? Дело в том что за последнии пол года я их порядка 4-х насчитал, если не больше. Качал с офф. сайта а пилюли брал на руборде, впрочем эту сборку в нете найти можно.
По поводу выдирания. ФР 11 конечно же сохраняет в DjVu но файл выходит в худшим качество, по сравнению с Вами сделанным "оригиналом". Поэтому я выдираю по старинке. После распознавания в ФР, сохраняю файл в DjVu и с помощью DjVu OCR → http://getsoft.ho.ua/Djvu_OCR.htm выдираю из него OCR и вставляю в первый DjVu, тот который ранее сделал собственными руками.

Если всё же возникнут трудности с ФР11 то могу скинуть архив на народ.

qx87

  • Новичок
  • *
  • Сообщений: 9
    • Просмотр профиля
    • E-mail
Чем отличается пословное и построчное распознавание для пользователя?

В пословном выделяется каждое слово в отдельности, в построчном — вся строка в абзаце целиком.

Спасибо, кэп (:
Я имел в виду, что это значит потом для меня, как для обработчика djvu и для пользователя, который будет с этим файлом работать? Вот я загрузил картинки в FR8 и тупо нажал "Распознать", опции не менял. И весь текст нормально распознался. Почему пословное распознавание считается лучшим?

А каким образом вы подружили DjVuOCR и FR11? Мой DjVuOCR (2.4 beta R4) отказывается кушать документы FR любой версии, старше восьмой.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail

Спасибо, кэп (:

 :)

Цитировать
Вот я загрузил картинки в FR8 и тупо нажал "Распознать", опции не менял. И весь текст нормально распознался. Почему пословное распознавание считается лучшим?

Про ФР8 и речи нет. Это в старых билдах 11-ой такой прикол был, когда он всю строку выделял в готовом DjVu. Теперь этот глюк исправили.

Цитировать
А каким образом вы подружили DjVuOCR и FR11? Мой DjVuOCR (2.4 beta R4) отказывается кушать документы FR любой версии, старше восьмой.

А его и не надо скармливать, как в примере с 8-й версией. Рецепт прост.
Вот у Вас есть DjVu файл(оригинал) → Вы его распознали в ФР11 → сохранили в DjVu под другим именем → выдрали из него OCR с помощью DjVuOCR и вставили в свой первоначальный (оригинал).
Всё нормально работает.

И, да, чуть не забыл. В ФР11, в установках, надо поставить размер как в оригинале, т.е. не менять. А то OCR совпадать не будет. Ну-эт понятно.
« Последнее редактирование: 26 ёоЭм 2012, 21:29:02 от yuree »

MihaDr

  • Новичок
  • *
  • Сообщений: 2
    • Просмотр профиля
Сделал по приведённой выше инструкции - в результате удвоились пробелы. В  djvu, сделанном FR, пробелы правильные. Пробовал DjvuOCR_2.4beta и DjvuOCR_2.1, а также ставить галочку в дополнительных настройках FR "корректировать пробелы до и после..." (правда без повторного распознавания). Результат идентичен. Куда дальше думать не знаю. Вопрос не критичный, но напрягает глюк неизвестного происхождения.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Сделал по приведённой выше инструкции - в результате удвоились пробелы. В  djvu, сделанном FR, пробелы правильные.

В чём удвоились пробелы?
Напишите всю последовательность Ваших действий.

MihaDr

  • Новичок
  • *
  • Сообщений: 2
    • Просмотр профиля
ST-0.9.11.1-64bit + ST Split v1.4 + DjVu Small v0.4.4 + DjVu Imager v2.9 = file.djvu
file.djvu -> FR_11..583 = file_FR.djvu
file_FR.djvu -> DjvuOCR_2.4beta + file.djvu = file_OCR.djvu

Далее открываю в WinDjView-2.0.1, выделяю текст, копирую в Ворд. Из file_FR.djvu с пробелами всё в порядке (не в порядке с делением на абзацы. Уважаемый monday2000, может Вы возьмёте на себя труд написать в ABBYY просьбу делить абзац на строки символом разрыв_строки, а не символом абзаца как сейчас. Извините, отвлекся). Из file_OCR.djvu - после каждого слова добавлено по пробелу. Итого имеющиеся пробелы удвоились, в конце строки появился пробел.  Такая история..

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Понятно.
Непонятно только почему у меня этого не наблюдается ???

melancholic

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
    • E-mail
Попробовал по рецепту в шапке обработать один документ: распознал в FR11, сохранил в PDF, сконверировал в DjVu при помощи pdf2djvu, извлек OCR с помощью DjVuOCR, собрал новый DjVu с помощью DjVuSmall и импортировал OCR с помощью DjVuOCR. Так вот, OCR вставился криво: не совпадает расположение текста и картинки. Так что результатом не удовлетворен. Придется перераспознать в FR8 и юзать DjVuOCR по старой схеме.
« Последнее редактирование: 25 ёоЫм 2012, 02:18:28 от melancholic »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Попробовал по рецепту в шапке обработать один документ: распознал в FR11, сохранил в PDF, сконверировал в DjVu при помощи pdf2djvu, извлек OCR с помощью DjVuOCR, собрал новый DjVu с помощью DjVuSmall и импортировал OCR с помощью DjVuOCR. Так вот, OCR вставился криво: не совпадает расположение текста и картинки. Так что результатом не удовлетворен. Придется перераспознать в FR8 и юзать DjVuOCR по старой схеме.

Офигеть. Уважаемые! Дорогие граждане! Выбросите этот рецепт в мусорное ведро. ФР11 уже́ давно сохраняет в DjVu формате. Просто выдираете OCR из  полученного с помощью ФР DjVu и экспортируете текст в свою DjVu книгу. И не будет никаких косяков с текстом.
А если мы уж про текст заговорили то ошибка, скорее всего, заключалась в неправильном разрешении и/или размере обоих документов.
Адъёс амиго!

melancholic

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
    • E-mail
Спасибо. Правда, насколько я понял из комментов на первой странице, FR11 косячит с OCR-слоем в DjVu (вставляет переносы и пробелы в местах переноса слов), а в PDF - нормально, поэтому и попробовал так. Сейчас попробую по короткому пути пойти.