Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 45432 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Я думаю, что они (ABBYY) просто очень спешили. С чисто технической точки зрения явно нет никаких препятствий к тому, чтобы сделать традиционную побуквенную/пословную OCR-детализацию.

И ещё - заметьте такой положительный момент - чтобы у ABBYY не попросили - они обязательно это делают - рано или поздно. Если, конечно, это не противоречит их маркетинговым установкам (как в случае с просьбой о раздельном экспорте OCR-слоя или о консольной версии FR). Вообще-то ABBYY молодцы - вот ту же полноценную поддержку DjVu сделать не так уж просто им было - пришлось решиться на покупку DjVu-лицензии от Caminova, а ведь это коммерческий риск, да и сам формат DjVu имеет популярность только в Рунете, кроме того платёжеспособность создателей DjVu ИМХО под вопросом. Всё это риски для ABBYY.  Наверняка поэтому другие коммерческие OCR-продукты не имеют генерации распознанного DjVu на выходе.

Но я думаю, что в ABBYY поступили совершенно правильно, реализовав сохранение в DjVu в FineReader 11. Пусть даже они от этого получат малую прямую коммерческую выгоду (скорее всего), зато это нововведение будет иметь, так сказать, синергетический эффект. То есть, это по-любому приведет к росту рынка около-OCR деятельности - на чём ABBYY и заработает.

Реализация сохранения в DjVu в FineReader 11 - это как маленький снежок, который вызовет лавину. Так что ABBYY не прогадало ни капли.

В общем, теперь осталось аккуратно время от времени просить ABBYY исправить косяки, связанные с DjVu. И чем больше народу попросит об этом на форуме ABBYY - тем лучше.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
ABBYY пообещали исправить глюк, обнаруженный GMAP:

http://finereader.abbyy.ru/forum/actualthread.aspx?bid=7&tid=1201&pg=-1#last

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
ABBYY обещали сделать OCR в DJVU "с точностью до слова"

Цитировать
Добрый день!
Приносим свои извинения за задержку с ответом!
Вариант "с точность до строки" был выбран из-за опасений, что при экспорте сильно отредактированного пользователем документа результат будет казаться странным, т.к. те слова, которые были полностью внесены при редактировании, будет невозможно выделить.
Но по желаю наших пользователей в одном из ближайших перевыпусков мы сделаем «с точностью до слова».

Eugeen1948

  • Пользователь
  • **
  • Сообщений: 59
    • Просмотр профиля
    • E-mail
По факту перевода уже сотен тысяч книг из PDF в DJVU PDF я впитал следующие убеждения (заблуждения?):
1. Djvu GUI  v. 2.1 by TrustFm - абсолютно несерьезная програмулька, никак не может конкурировать со старой, проверенной pdf2djvugui;
2. Внедрение OCR лучше делать с помощью Editor 6. При сопоставимом качестве DJVU-файлов (а качество - это главный фактор точности распознавания) я не увидел разницы в точности между Editor 6 и FineReader 11, а скорость в первом случае выше. Кроме того я не храню DJVU-файлов с OCR. В случае надобности я читаю файл с пом. Editor 6 и попутно , если надо, распознаю нужную страницу (это несколько секунд).
3. Заметьте для себя, ведь мы распознаем даже совсем нечитабельный текст и нам это даже не очень трудно. А машине это пока не под силу. Вот когда распознание будет с интеллектом (а не посимвольное, как сейчас), будет распознаваться смысл фраз и предложений целиком (как это делает человек). вот тогда и закончатся наши мучения со сканами. Возможно, к тому времени и устаканится выбор форматов для хранения электронных книг. 

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
<...>
2. Внедрение OCR лучше делать с помощью Editor 6. При сопоставимом качестве DJVU-файлов (а качество - это главный фактор точности распознавания) я не увидел разницы в точности между Editor 6 и FineReader 11, а скорость в первом случае выше. Кроме того я не храню DJVU-файлов с OCR. В случае надобности я читаю файл с пом. Editor 6 и попутно , если надо, распознаю нужную страницу (это несколько секунд).

Чёт-я не понял. Вы OCR'ете с помощью модуля Readiris :o :o
Могу представить себе качество "сотен тысяч книг"...

Eugeen1948

  • Пользователь
  • **
  • Сообщений: 59
    • Просмотр профиля
    • E-mail
Чёт-я не понял. Вы OCR'ете с помощью модуля Readiris :o :o
Могу представить себе качество "сотен тысяч книг"...
Похоже, Вы ничего не поняли. :'(
Еще раз внимательно вчитайтесь в то, что я написал: я вообще не храню DJVU-книг с OCR!
Качество имеющихся у меня книг позволяет "на лету" распознавать и "вытаскивать" только нужные в данный момент страницы . Для этого достаточно DEE 6. (Editor 6)

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Похоже, Вы ничего не поняли. :'(
Еще раз внимательно вчитайтесь в то, что я написал: я вообще не храню DJVU-книг с OCR!
Качество имеющихся у меня книг позволяет "на лету" распознавать и "вытаскивать" только нужные в данный момент страницы . Для этого достаточно DEE 6. (Editor 6)

Похоже Вы тоже ничего не поняли ;)
В Document Express Editor'е используется редирисовский модуль для OCR'а. Причём ещё старой версии, насколько я помню.
Клятвенно Вас заверяю, что распознание там русского текста — настоящее г@вно.
В автоматическом режиме, "только нужные в данный момент страницы" можно распознать CuneiDjVu, от monday2000. Во всяком случае CuneiDjVu ... адекватней понимает русский. Только в длинном тире ("—") грешит.

Eugeen1948

  • Пользователь
  • **
  • Сообщений: 59
    • Просмотр профиля
    • E-mail
Я не распознаю русский текст, т.к.  достаточно хорошо понимаю по-русски и без OCR ;D
OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.
DEE, при одинаковом качестве исходного файла, дает ошибок не намного больше ABBYY.
А вот математические выражения, формулы, которые действительно часто нужны в векторном формате, пока никакой OCRщик не тянет :'(

S.R.

  • Новичок
  • *
  • Сообщений: 2
    • Просмотр профиля
Я не распознаю русский текст, т.к.  достаточно хорошо понимаю по-русски и без OCR ;D
OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.
Я в шоке.
Крайне удручает, что энтузиасты djvu так до конца и не разобрались, для чего же нужен этот формат, и текстовый слой в нем.
Может как раз в ЭТОМ все беды «непризнанности» djvu?

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Я в шоке.
Крайне удручает, что энтузиасты djvu так до конца и не разобрались, для чего же нужен этот формат, и текстовый слой в нем.
Может как раз в ЭТОМ все беды «непризнанности» djvu?

Меня такое положение дел тоже, удручает.
Как Вы верно заметили, есть люди которые толком и не знают зачем им этот самый DjVu надо. В итоге — разный размер страниц в книге, корявый OCR и ещё куча всяких попутных "боков". Таков итог таких вот, проффессоров :(
... а ещё и спорят, доказывают ещё.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Eugeen1948
Цитировать
OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.
Вроде бы WinDjView поддерживает перевод в ABBYY Lingvo. Кто-то говорил, что при выделении слова как-то можно сразу прямо в WinDjView получить перевод слова - если на компе стоит ABBYY Lingvo. Вот как-то так - сам я не пробовал, но точно помню, что где-то об этом говорилось.

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Вроде бы WinDjView поддерживает перевод в ABBYY Lingvo. Кто-то говорил, что при выделении слова как-то можно сразу прямо в WinDjView получить перевод слова - если на компе стоит ABBYY Lingvo. Вот как-то так - сам я не пробовал, но точно помню, что где-то об этом говорилось.

Да, все верно, работает, я этой фичей Lingvo часто пользуюсь.
Подробнее на рисунке.

Вывод: создание OCR в Djvu - это не просто правило приличного тона, а и практическая необходимость

Nitro

  • Новичок
  • *
  • Сообщений: 3
    • Просмотр профиля
    • E-mail
Пользуюсь FR8 и djvuOCR с последующей подклейкой текстового слоя. Как по мне, тут все отлично работает, никаких проблем не вижу.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Я не распознаю русский текст, т.к.  достаточно хорошо понимаю по-русски и без OCR ;D
OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.
Я читаю почти исключительно на PocketBook 902. OCR слой позволяет задействовать поиск, работу с установленными словарями (не только с двуязычными, но и толковыми, типа Ожегова и БСЭ). Не то что бы это надо было очень часто, но и не так уж редко. Зачем отказываться?
Правда, попытка сделать слой FR11 привела к тому, что PocketBook 902 его не нашёл (или не понял).
« Последнее редактирование: 12 ґХЪРСам 2011, 09:41:51 от SorokaSV »

qx87

  • Новичок
  • *
  • Сообщений: 9
    • Просмотр профиля
    • E-mail
А какая в общем технология внедрения OCR-слоя?

Сохранял в FR11 в текстовом виде, но потом djvuOCR выдаёт ошибку:
Error burning DJVU file\nD:\__My\_temp\Djvu\файл.djvu\n\n Process terminated!

А если сохранять прямо в djvu, то потом, хотя текст и цифры хорошо распознаются, но DjVu Hyperlinks Editor проставляет ссылки в предметном указетеле примерно на 20% всех терминов.

Как быть?