Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu (Прочитано 59137 раз)

sergiokapone · « : 30 јРЩ 2011, 11:19:19 »

Я так понимаю, что утилита DjVu-OCR от Gencho уже не развивается. Последняя версия DjVu-OCR 2.4 beta 4 худо-бедно работает с проектами FR 9, а c FR10 - вообще никак. Я придумал способ (может и велосипед изобрел) как можно внедрять OCR сделанный FR10 в DjVu-файл.

Алгоритм следующий:

1. Открываем FR10 и импортируем DjVu-файл (благо начиная с 9-й версии FR можгут это делать)
2. Выбираем нужный язык и распознаем.
3. Сохраняем полученный результат в PDF. В опциях сохранения в PDF:
- указываем в поле Default paper size -> Keep original image size (нужно для того чтобы размер страниц в PDF и DjVu были одинаковыми)
- указываем в поле Safe -> Text under the page image (для получения PDF c текстовым слоем )
4. Далее используем утилиту PDF To Djvu DUI v. 2.1 by TrustFm и перегоняем полученній PDF в DjVu (в опциях нужно указать разрешение исходного DjVu-файла).
- У меня в консольном окне утилиты на каждую страницу писало "PDF error: Invalid Font Weight " - нужно игнорировать и терпеливо ждать окончания. Влияния на конечный результат этих ошибок я не заметил.

Далее следуют два варианта на выбор:

5. Можно пользоваться готовым DjVu с OCR
6. Если вам не нравится полученный DjVu по каким-либо причинам (например, размером, качеством), то можно воспользоваться утилитой DjVu-OCR, извлеч OCR слой из полученного DjVu и внедрить в исходный DjVu.

Слегка изменено название темы - добавлена цифра "11" в связи с выходом FineReader 11 (monday2000).

monday2000 · « **Ответ #1 :** 31 јРЩ 2011, 09:16:52 »

Ещё я бы добавил, что нужно более активно нажимать на ABBYY (через их форум), чтобы они сделали сохранение в DjVu. Чем больше людей на форуме ABBYY попросят об этом, и чем аргументированнее попросят - тем скорее эта фича будет внедрена.

Я давно уже и просил их, и объяснял подробно, как это сделать (в разных вариантах), и даже по мылу общался с одним абишником. Но пока они медлят что-то.

yuree · « **Ответ #2 :** 31 јРЩ 2011, 19:04:33 »

Цитата: sergiokapone от 30 јРЩ 2011, 11:19:19

<...>
4. Далее используем утилиту PDF To Djvu DUI v. 2.1 by TrustFm и перегоняем полученній PDF в DjVu (в опциях нужно указать разрешение исходного DjVu-файла).
- У меня в консольном окне утилиты на каждую страницу писало "PDF error: Invalid Font Weight " - нужно игнорировать и терпеливо ждать окончания. Влияния на конечный результат этих ошибок я не заметил.
<...>

Этой штукенцией я тоже пользуюсь. Только надо перед конвертацией на диске Цэ создать папочку mydocs и грузить туда PDF-ку. Там-же будет и DjVu-ха после конвертации. Именно на диск С:\ и именно в папку mydocs.
Да и ещё, наименование PDF-ки должно быть не в кириллице а латиница или цифры например.
Или это только у меня такие "бока"?

sergiokapone · « **Ответ #3 :** 31 јРЩ 2011, 19:59:57 »

Цитата: yuree от 31 јРЩ 2011, 19:04:33

Цитата: sergiokapone от 30 јРЩ 2011, 11:19:19
<...>
4. Далее используем утилиту PDF To Djvu DUI v. 2.1 by TrustFm и перегоняем полученній PDF в DjVu (в опциях нужно указать разрешение исходного DjVu-файла).
- У меня в консольном окне утилиты на каждую страницу писало "PDF error: Invalid Font Weight " - нужно игнорировать и терпеливо ждать окончания. Влияния на конечный результат этих ошибок я не заметил.
<...>

Этой штукенцией я тоже пользуюсь. Только надо перед конвертацией на диске Цэ создать папочку mydocs и грузить туда PDF-ку. Там-же будет и DjVu-ха после конвертации. Именно на диск С:\ и именно в папку mydocs.
Да и ещё, наименование PDF-ки должно быть не в кириллице а латиница или цифры например.
Или это только у меня такие "бока"?

Ограничений на название диска и папку я у себя не заметил, преобразование происходит везьде. А вот то что понимает только латинсике названия файлов - это да.

Важно здесь то, что наконец-то я могу пользоваться FR10 для распознавания, правда процесс конвертирования pdf->djvu долгий.

Цитата: monday2000 от 31 јРЩ 2011, 09:16:52

...нужно более активно нажимать на ABBYY (через их форум), чтобы они сделали сохранение в DjVu.

Да ждать можно еще долго... Мне вот интересно, можно ли еще как-то выдернуть текстовый слой из Pdf и внедрить в DjVu?

golem · « **Ответ #4 :** 25 °ТУгбв 2011, 23:08:34 »

Цитата: monday2000 от 31 јРЩ 2011, 09:16:52

... Но пока они медлят что-то.

Они просто ждали на 11 версию.
Djvu мягко говоря не ахти но главное то OCR!

Может кто-то написать пример bat-файла для djvused чтоб DjVu Encoded + Djvu_FR11_OCR = DjVu_Encoded_OCR. Заранее спасибо.

monday2000 · « **Ответ #5 :** 31 °ТУгбв 2011, 17:13:38 »

golem

Цитировать

Они просто ждали на 11 версию.
Djvu мягко говоря не ахти но главное то OCR!

Спасибо за информацию! Я как-то не сразу понял вообще о чём речь

А дело в том, что:

Вышел ABBYY FineReader 11. У него появилась функция СОХРАНЕНИЯ в DjVu!

Впервые в истории FineReader'а! Наконец-то свершилось! Вот официальное заявление:

http://www.abbyy.ru/finereader/professional/whats-new/

Цитировать

Поддержка новых форматов сохранения документов, включая DjVu и OpenOffice.org Writer

ABBYY FineReader 11 распознает и преобразует изображения документов и PDF-файлов непосредственно в формат Open Office.org Writer (ODT), точно сохраняя первоначальное форматирование. Также в продукте появилась возможность сохранять результаты распознавания в формате DjVu, который особенно популярен у пользователей, распознающих книги и научные труды.

Теперь будем тестить новую версию. Интересно - есть ли в ней возможность отдельного сохранения DjVu-OCR-слоя? Я практически уверен, что нет.

Вот так - жизнь показала, что если долго капать на мозг ABBYY, то рано или поздно они идут на реализацию просимого.

Правда, конечно, не в полном объёме.

Ну вот - теперь разговоры о том, что "формат DjVu умирает" немного поутихнут, надеюсь. Ведь реализация сохранения в DjVu в столь популярной программе, как FineReader, фактически означает значительный шаг в общественном признании и популяризации формата DjVu.

yuree · « **Ответ #6 :** 31 °ТУгбв 2011, 19:36:55 »

Уря-я-я!! Будем тестить

monday2000

Обзор FineReader 11:

Что нового в ABBYY FineReader 11?
http://habrahabr.ru/company/abbyy/blog/126850/

На пути к совершенству. Обзор новшеств ABBYY FineReader 11
http://www.3dnews.ru/software/616042/

FineReader 11!
http://lib.rus.ec/node/333984

yuree

Спасибо за ссылки. Весьма содержательная информация.

Да, что-то я не понял. Вот грузим в ФР 11-й DjVu и распознаём. Потом сохраняем в таком-же формате. ФР OCR слой в первоначальный документ пишет или создаёт свой?
К сожалению выбор настроек для DjVu — небогатый

monday2000

Вот пример распознанного DjVu, созданного при помощи ABBYY FineReader 11:

http://www.djvu-soft.narod.ru/scan/fr11_sample.rar (100 КБ)

Попробовал я посоздавать распознанный DjVu в этом Файнридере. Результаты меня не обрадовали.

По сравнению с DjVu Small, размеры полученных DjVu были больше у FineReader 11:

1. Для чёрно-белых файлов - больше на 67%.

2. Для цветных файлов - больше на 405%.

И это при примерно одинаковом визуальном качестве.

Вот такая статистика.

Другие проблемы:

1. В настройках сохранения FineReader 11 для формата DjVu есть опция "Многослойность" - "Отключить". Это приводит к тому, что серые сканы кодируются целиком в слой заднего фона в DjVu. Дикость абсурдная, что и говорить. Теперь пойдут, видимо, такие DjVu-книги - которые можно будет смело выбрасывать на помойку.

2. И, самое главное - разумеется, ABBYY не предусмотрело отдельное сохранение OCR-DjVu слоя.

А ведь я лично просил по эл. почте разработчиков сделать такую возможность. Ну конечно - кто же тогда будет покупать ABBYY SDK Engine - так, видимо, рассудили в ABBYY. А то, что такое "сохранение в DjVu" никому и даром не нужно - и даже, я бы сказал, вредно - об этом ABBYY не задумалось. Чёрт, да даже minidjvu и то лучше жмёт чёрно-белые DjVu - чем FineReader 11.

3. Само собой, что метод разделённых сканов остался нереализованным в FineReader 11.

4. Вот что пишет GMAP с форума ABBYY http://finereader.abbyy.ru/forum/actualthread.aspx?tid=1201 :

Цитировать

Начнем с самого нового бага, поскольку появился экспорт в djvu, за что честь вам и хвала, но надо подрихтовать:
1. Распознайте документ и сохраните его в djvu с текстом под изображением. Скопируйте невидимый текст и вставьте его в любой текстовый редактор. Увидите массу "?" и переносы с "?", вот такие:
дале¬?ко. При таком же режиме сохранения в pdf все нормально.

Кстати, эта проблема прекрасно видна в выложенном примере fr11_sample.rar.

При сохранении в многостраничный DjVu словарь разделённых символов создаётся. И даже автоматическая сегментация (для серых сканов) тоже делается. В составе дистрибутива я обнаружил библиотеку DjvuLib.dll - на 1,73 МБ. Видимо, она и отвечает за всю работу с DjVu в программе. Скорее всего, ABBYY купили всё-таки лицензию у Caminova на коммерческое применение DjVu (в FineReader 11).

Выводы:

Поэтому придётся создавать DjVu традиционными способами - а потом делать распознанный дубликат-DjVu в FineReader 11, и переносить из него OCR-слой в нормальный DjVu.

yuree

Было-бы не кисло если-б кто-то взялся за "исправление" этой dll'ки

DjvuLib, то бишь.
...
А за сравнение — спасибо.

monday2000

yuree
Вообще я бы предложил внести в FineReader 11 три изменения - в части сохранения в DjVu:

1. Добавить профили DjVu-кодирования - аналогично продуктам LizardTech / Caminova.

2. Убрать опцию "Многослойность". Чтобы исключить создание чисто задне-фоновых DjVu. Такие DjVu абсолютно бессмысленны. К тому же, если будут профили, то можно будет обеспечить правильность DjVu-сегментации подбором профиля - а не бороться с неправильной сегментацией загоном всего контента в фон DjVu.

3. Исправить глюк, указанный GMAP.

И ещё хорошо бы добавить такую опцию: открытие файла в формате DjVu, распознавание его, и внедрение в него результата OCR - но без переформирования исходного DjVu-файла.

monday2000

Цитата с http://finereader.abbyy.ru/forum/actualthread.aspx?bid=7&tid=1011&pg=-1#last :

Цитировать

При экспорте в DjVu координаты символов сохраняются с точностью до строки. Более детальное сохранение информации о координатах в текущей версии FineReader не поддерживается.

Как говорится, хоть стой, хоть падай.

sergiokapone

Цитата: monday2000 от 08 БХЭвпСам 2011, 14:59:16

Цитата с http://finereader.abbyy.ru/forum/actualthread.aspx?bid=7&tid=1011&pg=-1#last :
Цитировать
При экспорте в DjVu координаты символов сохраняются с точностью до строки. Более детальное сохранение информации о координатах в текущей версии FineReader не поддерживается.
Как говорится, хоть стой, хоть падай.

Это, конечно, удручает! Можно сказать что из-за этого, затея с сохранением djvu в FR чуть больше чем полностью бессмысленна.
Мало того что сам djvu-файл коряый получается, так еще и с OCR-слоем косяки.

yuree

Странно другое. Почему нельзя было выдрать OCR из PDF или PDF-A и вставить в DjVu? По примеру предложенному Мондэйем.
Ну-не полные же олигофрены в ABBYY работают!
Вот-я повторил этот финт на 11-й версии — получилось всё класно. Переносы без всяких вопросительных знаков, квадратиков и пр. ерунды, там где им надо быть, можно выделить каждое слово, союз, а не всю строку.
Зачем надо было химичить с DjVu — не понимаю

Или способ настолько уникален и умопомрачителен что до него в ABBYY никто так и не додумался?

DjVu-Scan Forum

Новости:

Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu (Прочитано 59137 раз)

sergiokapone

Использование FineReader 10 и 11 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 для создания OCR слоя в DjVu

sergiokapone

Re: Использование FineReader 10 для создания OCR слоя в DjVu

golem

Re: Использование FineReader 10 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

sergiokapone

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu