Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 44953 раз)

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Я так понимаю, что утилита DjVu-OCR от Gencho уже не развивается. Последняя версия DjVu-OCR 2.4 beta 4 худо-бедно работает с проектами FR 9, а c FR10 - вообще никак. Я придумал способ (может и велосипед изобрел) как можно внедрять OCR сделанный FR10 в DjVu-файл.

Алгоритм следующий:

1. Открываем FR10 и импортируем DjVu-файл (благо начиная с 9-й версии FR можгут это делать)
2. Выбираем нужный язык и распознаем.
3. Сохраняем полученный результат в PDF. В опциях сохранения в PDF:
    -  указываем в поле Default paper size -> Keep original image size (нужно для того чтобы размер страниц в PDF и DjVu были одинаковыми)
    -  указываем в поле Safe -> Text under the page image (для получения PDF c текстовым слоем )
4. Далее используем утилиту PDF To Djvu DUI  v. 2.1 by TrustFm и перегоняем полученній PDF в DjVu (в опциях нужно указать разрешение исходного DjVu-файла).
    - У меня в консольном окне утилиты на каждую страницу писало "PDF error: Invalid Font Weight " - нужно игнорировать и терпеливо ждать окончания. Влияния на конечный результат этих ошибок я не заметил.

Далее следуют два варианта на выбор:

5. Можно пользоваться готовым DjVu с OCR
6. Если вам не нравится полученный DjVu по каким-либо причинам (например, размером, качеством), то можно воспользоваться утилитой DjVu-OCR, извлеч OCR слой из полученного DjVu и внедрить в исходный DjVu.

Слегка изменено название темы - добавлена цифра "11" в связи с выходом FineReader 11 (monday2000).
« Последнее редактирование: 31 °ТУгбв 2011, 17:15:34 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Ещё я бы добавил, что нужно более активно нажимать на ABBYY (через их форум), чтобы они сделали сохранение в DjVu. Чем больше людей на форуме ABBYY попросят об этом, и чем аргументированнее попросят - тем скорее эта фича будет внедрена.

Я давно уже и просил их, и объяснял подробно, как это сделать (в разных вариантах), и даже по мылу общался с одним абишником. Но пока они медлят что-то.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
<...>
4. Далее используем утилиту PDF To Djvu DUI  v. 2.1 by TrustFm и перегоняем полученній PDF в DjVu (в опциях нужно указать разрешение исходного DjVu-файла).
    - У меня в консольном окне утилиты на каждую страницу писало "PDF error: Invalid Font Weight " - нужно игнорировать и терпеливо ждать окончания. Влияния на конечный результат этих ошибок я не заметил.
<...>

Этой штукенцией я тоже пользуюсь. Только надо перед конвертацией на диске Цэ создать папочку mydocs и грузить туда PDF-ку. Там-же будет и DjVu-ха после конвертации. Именно на диск С:\ и именно в папку mydocs.
Да и ещё, наименование PDF-ки должно быть не в кириллице а латиница или цифры например.
Или это только у меня такие "бока"? ::)

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
<...>
4. Далее используем утилиту PDF To Djvu DUI  v. 2.1 by TrustFm и перегоняем полученній PDF в DjVu (в опциях нужно указать разрешение исходного DjVu-файла).
    - У меня в консольном окне утилиты на каждую страницу писало "PDF error: Invalid Font Weight " - нужно игнорировать и терпеливо ждать окончания. Влияния на конечный результат этих ошибок я не заметил.
<...>

Этой штукенцией я тоже пользуюсь. Только надо перед конвертацией на диске Цэ создать папочку mydocs и грузить туда PDF-ку. Там-же будет и DjVu-ха после конвертации. Именно на диск С:\ и именно в папку mydocs.
Да и ещё, наименование PDF-ки должно быть не в кириллице а латиница или цифры например.
Или это только у меня такие "бока"? ::)

Ограничений на название диска и папку я у себя не заметил, преобразование происходит везьде. А вот то что понимает только латинсике названия файлов - это да.

Важно здесь то, что наконец-то я могу пользоваться FR10 для распознавания, правда процесс конвертирования pdf->djvu долгий.
...нужно более активно нажимать на ABBYY (через их форум), чтобы они сделали сохранение в DjVu.
Да ждать можно еще долго... Мне вот интересно, можно ли еще как-то выдернуть текстовый слой из Pdf и внедрить в DjVu?
« Последнее редактирование: 31 јРЩ 2011, 20:11:40 от sergiokapone »

golem

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
... Но пока они медлят что-то.
Они просто ждали на 11 версию.
Djvu мягко говоря не ахти но главное то OCR!

Может кто-то написать пример bat-файла для djvused чтоб DjVu Encoded + Djvu_FR11_OCR = DjVu_Encoded_OCR. Заранее спасибо.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
golem
Цитировать
Они просто ждали на 11 версию.
Djvu мягко говоря не ахти но главное то OCR!
Спасибо за информацию! Я как-то не сразу понял вообще о чём речь :) А дело в том, что:

Вышел ABBYY FineReader 11. У него появилась функция СОХРАНЕНИЯ в DjVu! :o ::) Впервые в истории FineReader'а! Наконец-то свершилось! Вот официальное заявление:

http://www.abbyy.ru/finereader/professional/whats-new/
Цитировать
Поддержка новых форматов сохранения документов, включая DjVu и OpenOffice.org Writer

ABBYY FineReader 11 распознает и преобразует изображения документов и PDF-файлов непосредственно в формат Open Office.org Writer (ODT), точно сохраняя первоначальное  форматирование. Также в продукте появилась возможность сохранять результаты распознавания в формате DjVu, который особенно популярен у пользователей, распознающих книги и научные труды.

Теперь будем тестить новую версию. Интересно - есть ли в ней возможность отдельного сохранения DjVu-OCR-слоя? Я практически уверен, что нет. :)

Вот так - жизнь показала, что если долго капать на мозг ABBYY, то рано или поздно они идут на реализацию просимого. :) Правда, конечно, не в полном объёме. :(

Ну вот - теперь разговоры о том, что "формат DjVu умирает" немного поутихнут, надеюсь. Ведь реализация сохранения в DjVu в столь популярной программе, как FineReader, фактически означает значительный шаг в общественном признании и популяризации формата DjVu.
« Последнее редактирование: 31 °ТУгбв 2011, 17:21:11 от monday2000 »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Уря-я-я!! Будем тестить ;)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Обзор FineReader 11:

Что нового в ABBYY FineReader 11?
http://habrahabr.ru/company/abbyy/blog/126850/

На пути к совершенству. Обзор новшеств ABBYY FineReader 11
http://www.3dnews.ru/software/616042/

FineReader 11!
http://lib.rus.ec/node/333984


yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Спасибо за ссылки. Весьма содержательная информация.

Да, что-то я не понял. Вот грузим в ФР 11-й DjVu и распознаём. Потом сохраняем в таком-же формате. ФР OCR слой в первоначальный документ пишет или создаёт свой?
К сожалению выбор настроек для DjVu — небогатый :(

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Вот пример распознанного DjVu, созданного при помощи ABBYY FineReader 11:

http://www.djvu-soft.narod.ru/scan/fr11_sample.rar  (100 КБ)

Попробовал я посоздавать распознанный DjVu в этом Файнридере. Результаты меня не обрадовали. :(

По сравнению с DjVu Small, размеры полученных DjVu были больше у FineReader 11:

1. Для чёрно-белых файлов - больше на 67%.

2. Для цветных файлов - больше на 405%.

И это при примерно одинаковом визуальном качестве.

Вот такая статистика. :(

Другие проблемы:

1. В настройках сохранения FineReader 11 для формата DjVu есть опция "Многослойность" - "Отключить". Это приводит к тому, что серые сканы кодируются целиком в слой заднего фона в DjVu. Дикость абсурдная, что и говорить. Теперь пойдут, видимо, такие DjVu-книги - которые можно будет смело выбрасывать на помойку. >:(

2. И, самое главное - разумеется, ABBYY не предусмотрело отдельное сохранение OCR-DjVu слоя. :'( А ведь я лично просил по эл. почте разработчиков сделать такую возможность. Ну конечно - кто же тогда будет покупать ABBYY SDK Engine - так, видимо, рассудили в ABBYY. А то, что такое "сохранение в DjVu" никому и даром не нужно - и даже, я бы сказал, вредно - об этом ABBYY не задумалось. Чёрт, да даже minidjvu и то лучше жмёт чёрно-белые DjVu - чем FineReader 11. :D

3. Само собой, что метод разделённых сканов остался нереализованным в FineReader 11.

4. Вот что пишет GMAP с форума ABBYY http://finereader.abbyy.ru/forum/actualthread.aspx?tid=1201 :
Цитировать
Начнем с самого нового бага, поскольку появился экспорт в djvu, за что честь вам и хвала, но надо подрихтовать:
1. Распознайте документ и сохраните его в djvu с текстом под изображением. Скопируйте невидимый текст и вставьте его в любой текстовый редактор. Увидите массу "?" и переносы с "?", вот такие:
дале¬?ко. При таком же режиме сохранения в pdf все нормально.
Кстати, эта проблема прекрасно видна в выложенном примере fr11_sample.rar.

При сохранении в многостраничный DjVu словарь разделённых символов создаётся. И даже автоматическая сегментация (для серых сканов) тоже делается. В составе дистрибутива я обнаружил библиотеку DjvuLib.dll - на 1,73 МБ. Видимо, она и отвечает за всю работу с DjVu в программе. Скорее всего, ABBYY купили всё-таки лицензию у Caminova на коммерческое применение DjVu (в FineReader 11).

Выводы:

Поэтому придётся создавать DjVu традиционными способами - а потом делать распознанный дубликат-DjVu в FineReader 11, и переносить из него OCR-слой в нормальный DjVu.
« Последнее редактирование: 05 БХЭвпСам 2011, 11:17:32 от monday2000 »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Было-бы не кисло если-б кто-то взялся за "исправление" этой dll'ки ::) DjvuLib, то бишь.
...
А за сравнение — спасибо.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
yuree
Вообще я бы предложил внести в FineReader 11 три изменения - в части сохранения в DjVu:

1. Добавить профили DjVu-кодирования - аналогично продуктам LizardTech / Caminova.

2. Убрать опцию "Многослойность". Чтобы исключить создание чисто задне-фоновых DjVu. Такие DjVu абсолютно бессмысленны. К тому же, если будут профили, то можно будет обеспечить правильность DjVu-сегментации подбором профиля - а не бороться с неправильной сегментацией загоном всего контента в фон DjVu.

3. Исправить глюк, указанный GMAP.

И ещё хорошо бы добавить такую опцию: открытие файла в формате DjVu, распознавание его, и внедрение в него результата OCR - но без переформирования исходного DjVu-файла.
« Последнее редактирование: 05 БХЭвпСам 2011, 15:22:14 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Цитата с http://finereader.abbyy.ru/forum/actualthread.aspx?bid=7&tid=1011&pg=-1#last :
Цитировать
При экспорте в DjVu координаты символов сохраняются с точностью до строки. Более детальное сохранение информации о координатах в текущей версии FineReader не поддерживается.
Как говорится, хоть стой, хоть падай. ;D

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Цитата с http://finereader.abbyy.ru/forum/actualthread.aspx?bid=7&tid=1011&pg=-1#last :
Цитировать
При экспорте в DjVu координаты символов сохраняются с точностью до строки. Более детальное сохранение информации о координатах в текущей версии FineReader не поддерживается.
Как говорится, хоть стой, хоть падай. ;D

Это, конечно, удручает! Можно сказать что из-за этого, затея с сохранением djvu в FR чуть больше чем полностью бессмысленна.
Мало того что сам djvu-файл коряый получается, так еще и с OCR-слоем косяки.
« Последнее редактирование: 08 БХЭвпСам 2011, 19:00:47 от sergiokapone »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Странно другое. Почему нельзя было выдрать OCR из PDF или PDF-A и вставить в DjVu? По примеру предложенному Мондэйем.
Ну-не полные же олигофрены в ABBYY работают!
Вот-я повторил этот финт на 11-й версии — получилось всё класно. Переносы без всяких вопросительных знаков, квадратиков и пр. ерунды, там где им надо быть, можно выделить каждое слово, союз, а не всю строку.
Зачем надо было химичить с DjVu — не понимаю ???
Или способ настолько уникален и умопомрачителен что до него в ABBYY никто так и не додумался? ;D