Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu (Прочитано 59160 раз)

monday2000

Я думаю, что они (ABBYY) просто очень спешили. С чисто технической точки зрения явно нет никаких препятствий к тому, чтобы сделать традиционную побуквенную/пословную OCR-детализацию.

И ещё - заметьте такой положительный момент - чтобы у ABBYY не попросили - они обязательно это делают - рано или поздно. Если, конечно, это не противоречит их маркетинговым установкам (как в случае с просьбой о раздельном экспорте OCR-слоя или о консольной версии FR). Вообще-то ABBYY молодцы - вот ту же полноценную поддержку DjVu сделать не так уж просто им было - пришлось решиться на покупку DjVu-лицензии от Caminova, а ведь это коммерческий риск, да и сам формат DjVu имеет популярность только в Рунете, кроме того платёжеспособность создателей DjVu ИМХО под вопросом. Всё это риски для ABBYY. Наверняка поэтому другие коммерческие OCR-продукты не имеют генерации распознанного DjVu на выходе.

Но я думаю, что в ABBYY поступили совершенно правильно, реализовав сохранение в DjVu в FineReader 11. Пусть даже они от этого получат малую прямую коммерческую выгоду (скорее всего), зато это нововведение будет иметь, так сказать, синергетический эффект. То есть, это по-любому приведет к росту рынка около-OCR деятельности - на чём ABBYY и заработает.

Реализация сохранения в DjVu в FineReader 11 - это как маленький снежок, который вызовет лавину. Так что ABBYY не прогадало ни капли.

В общем, теперь осталось аккуратно время от времени просить ABBYY исправить косяки, связанные с DjVu. И чем больше народу попросит об этом на форуме ABBYY - тем лучше.

monday2000

ABBYY пообещали исправить глюк, обнаруженный GMAP:

http://finereader.abbyy.ru/forum/actualthread.aspx?bid=7&tid=1201&pg=-1#last

sergiokapone

ABBYY обещали сделать OCR в DJVU "с точностью до слова"

Цитировать

Добрый день!
Приносим свои извинения за задержку с ответом!
Вариант "с точность до строки" был выбран из-за опасений, что при экспорте сильно отредактированного пользователем документа результат будет казаться странным, т.к. те слова, которые были полностью внесены при редактировании, будет невозможно выделить.
Но по желаю наших пользователей в одном из ближайших перевыпусков мы сделаем «с точностью до слова».

Eugeen1948

По факту перевода уже сотен тысяч книг из PDF в DJVU PDF я впитал следующие убеждения (заблуждения?):
1. Djvu GUI v. 2.1 by TrustFm - абсолютно несерьезная програмулька, никак не может конкурировать со старой, проверенной pdf2djvugui;
2. Внедрение OCR лучше делать с помощью Editor 6. При сопоставимом качестве DJVU-файлов (а качество - это главный фактор точности распознавания) я не увидел разницы в точности между Editor 6 и FineReader 11, а скорость в первом случае выше. Кроме того я не храню DJVU-файлов с OCR. В случае надобности я читаю файл с пом. Editor 6 и попутно , если надо, распознаю нужную страницу (это несколько секунд).
3. Заметьте для себя, ведь мы распознаем даже совсем нечитабельный текст и нам это даже не очень трудно. А машине это пока не под силу. Вот когда распознание будет с интеллектом (а не посимвольное, как сейчас), будет распознаваться смысл фраз и предложений целиком (как это делает человек). вот тогда и закончатся наши мучения со сканами. Возможно, к тому времени и устаканится выбор форматов для хранения электронных книг.

yuree

Цитата: Eugeen1948 от 26 БХЭвпСам 2011, 23:15:54

<...>
2. Внедрение OCR лучше делать с помощью Editor 6. При сопоставимом качестве DJVU-файлов (а качество - это главный фактор точности распознавания) я не увидел разницы в точности между Editor 6 и FineReader 11, а скорость в первом случае выше. Кроме того я не храню DJVU-файлов с OCR. В случае надобности я читаю файл с пом. Editor 6 и попутно , если надо, распознаю нужную страницу (это несколько секунд).

Чёт-я не понял. Вы OCR'ете с помощью модуля Readiris

Могу представить себе качество "сотен тысяч книг"...

Eugeen1948 · « **Ответ #20 :** 01 ѕЪвпСам 2011, 13:48:56 »

Цитата: yuree от 27 БХЭвпСам 2011, 08:14:20

Чёт-я не понял. Вы OCR'ете с помощью модуля Readiris
Могу представить себе качество "сотен тысяч книг"...

Похоже, Вы ничего не поняли.

Еще раз внимательно вчитайтесь в то, что я написал: я вообще не храню DJVU-книг с OCR!
Качество имеющихся у меня книг позволяет "на лету" распознавать и "вытаскивать" только нужные в данный момент страницы . Для этого достаточно DEE 6. (Editor 6)

yuree · « **Ответ #21 :** 01 ѕЪвпСам 2011, 18:27:58 »

Цитата: Eugeen1948 от 01 ѕЪвпСам 2011, 13:48:56

Похоже, Вы ничего не поняли.
Еще раз внимательно вчитайтесь в то, что я написал: я вообще не храню DJVU-книг с OCR!
Качество имеющихся у меня книг позволяет "на лету" распознавать и "вытаскивать" только нужные в данный момент страницы . Для этого достаточно DEE 6. (Editor 6)

Похоже Вы тоже ничего не поняли

В Document Express Editor'е используется редирисовский модуль для OCR'а. Причём ещё старой версии, насколько я помню.
Клятвенно Вас заверяю, что распознание там русского текста — настоящее г@вно.
В автоматическом режиме, "только нужные в данный момент страницы" можно распознать CuneiDjVu, от monday2000. Во всяком случае CuneiDjVu ... адекватней понимает русский. Только в длинном тире ("—") грешит.

Eugeen1948 · « **Ответ #22 :** 04 ѕЪвпСам 2011, 16:09:44 »

Я не распознаю русский текст, т.к. достаточно хорошо понимаю по-русски и без OCR

OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.
DEE, при одинаковом качестве исходного файла, дает ошибок не намного больше ABBYY.
А вот математические выражения, формулы, которые действительно часто нужны в векторном формате, пока никакой OCRщик не тянет

S.R. · « **Ответ #23 :** 05 ѕЪвпСам 2011, 20:07:56 »

Цитата: Eugeen1948 от 04 ѕЪвпСам 2011, 16:09:44

Я не распознаю русский текст, т.к. достаточно хорошо понимаю по-русски и без OCR
OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.

Я в шоке.
Крайне удручает, что энтузиасты djvu так до конца и не разобрались, для чего же нужен этот формат, и текстовый слой в нем.
Может как раз в ЭТОМ все беды «непризнанности» djvu?

yuree · « **Ответ #24 :** 06 ѕЪвпСам 2011, 00:30:03 »

Цитата: S.R. от 05 ѕЪвпСам 2011, 20:07:56

Я в шоке.
Крайне удручает, что энтузиасты djvu так до конца и не разобрались, для чего же нужен этот формат, и текстовый слой в нем.
Может как раз в ЭТОМ все беды «непризнанности» djvu?

Меня такое положение дел тоже, удручает.
Как Вы верно заметили, есть люди которые толком и не знают зачем им этот самый DjVu надо. В итоге — разный размер страниц в книге, корявый OCR и ещё куча всяких попутных "боков". Таков итог таких вот, проффессоров

... а ещё и спорят, доказывают ещё.

monday2000 · « **Ответ #25 :** 06 ѕЪвпСам 2011, 10:11:50 »

Eugeen1948

Цитировать

OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.

Вроде бы WinDjView поддерживает перевод в ABBYY Lingvo. Кто-то говорил, что при выделении слова как-то можно сразу прямо в WinDjView получить перевод слова - если на компе стоит ABBYY Lingvo. Вот как-то так - сам я не пробовал, но точно помню, что где-то об этом говорилось.

sergiokapone · « **Ответ #26 :** 06 ѕЪвпСам 2011, 15:21:21 »

Цитата: monday2000 от 06 ѕЪвпСам 2011, 10:11:50

Вроде бы WinDjView поддерживает перевод в ABBYY Lingvo. Кто-то говорил, что при выделении слова как-то можно сразу прямо в WinDjView получить перевод слова - если на компе стоит ABBYY Lingvo. Вот как-то так - сам я не пробовал, но точно помню, что где-то об этом говорилось.

Да, все верно, работает, я этой фичей Lingvo часто пользуюсь.
Подробнее на рисунке.

Вывод: создание OCR в Djvu - это не просто правило приличного тона, а и практическая необходимость

Nitro · « **Ответ #27 :** 11 ґХЪРСам 2011, 16:48:19 »

Пользуюсь FR8 и djvuOCR с последующей подклейкой текстового слоя. Как по мне, тут все отлично работает, никаких проблем не вижу.

SorokaSV · « **Ответ #28 :** 12 ґХЪРСам 2011, 09:39:42 »

Цитата: Eugeen1948 от 04 ѕЪвпСам 2011, 16:09:44

Я не распознаю русский текст, т.к. достаточно хорошо понимаю по-русски и без OCR
OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.

Я читаю почти исключительно на PocketBook 902. OCR слой позволяет задействовать поиск, работу с установленными словарями (не только с двуязычными, но и толковыми, типа Ожегова и БСЭ). Не то что бы это надо было очень часто, но и не так уж редко. Зачем отказываться?
Правда, попытка сделать слой FR11 привела к тому, что PocketBook 902 его не нашёл (или не понял).

qx87 · « **Ответ #29 :** 21 ёоЭм 2012, 18:10:19 »

А какая в общем технология внедрения OCR-слоя?

Сохранял в FR11 в текстовом виде, но потом djvuOCR выдаёт ошибку:
Error burning DJVU file\nD:\__My\_temp\Djvu\файл.djvu\n\n Process terminated!

А если сохранять прямо в djvu, то потом, хотя текст и цифры хорошо распознаются, но DjVu Hyperlinks Editor проставляет ссылки в предметном указетеле примерно на 20% всех терминов.

Как быть?

DjVu-Scan Forum

Новости:

Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu (Прочитано 59160 раз)

monday2000

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

sergiokapone

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

Eugeen1948

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

Eugeen1948

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

Eugeen1948

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

S.R.

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

yuree

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

monday2000

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

sergiokapone

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

Nitro

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

SorokaSV

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu

qx87

Re: Использование FineReader 10 и 11 для создания OCR слоя в DjVu