Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 58894 раз)

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Да и не очень то умная - съедает тока один пробел. при следующем цикле извлечь-вставить теряется еще один пробел... (сделал после слова 8 пробелов извлек-вставил - осталось 7, извлек-вставил - 6 и т.д.) Может это сказка про десять негритят  :o
« Последнее редактирование: 14 ѕЪвпСам 2012, 18:26:26 от NBell »

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
NME
ОГРОМНОЕ СПАСИБО! сборка ABBY.Finereader_v9.0.724_vlk_coprorate_edition круто дружит с DjvuOCR2.4b4
теперь пытаюсь найти перепутанные страницы. где этот баг проявляется?
djvuocr хорошо склеивает слова... теперь бы для fr11 такое же сделать...

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
NBell
Цитировать
где этот баг проявляется?
что знал - уже сказал.. подробнее можно попытаться разузнать у StanFreeWare с руборда (здесь 57an)..

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Про FR9frfPatch лучше не упоминать пока. См. здесь.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Текстовый слой от FR11 создает сложности при выделении слов см видео (ссылка годна до 24/11/2012)

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Если все же хотите пользоваться FR11, то лучше способа чем FR11->PDF->djvu->OCR я не вижу. Тот Djvu от FR11, как говорится, фтопку.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
попробую. проблема - схраняю pdf fr11 и он в djvu не конвертится pdf2djvule0.1

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
не конвертится pdf2djvule0.1

А нужно этим конвертировать pdf2djvu

Кнопка в ТС
TOTALCMD#BAR#DATA
%BookShop%\PdfToDjvuGUI\pdf2djvu.exe
-o %P%O.djvu --anti-alias --dpi=600 --words --fg-colors=black --monochrome --loss-level=200 %P%N
%BookShop%\PdfToDjvuGUI\Pdf To Djvu GUI.exe
Консольный запуск pdf2djvu
%BookShop%\PdfToDjvuGUI\
0
-1


NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Работает. Только процесс усложняется. Стоит ли FR11 того? Ваш опыт?

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Работает. Только процесс усложняется. Стоит ли FR11 того? Ваш опыт?

FR11 пока игрушка, играться можно, не более. FR8 рабочий инструмент.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Единственное, что если в fr8  поправить текст и зоны, то djvuocr падает на извлечении. приходитс шаманить выясняя проблемную страницу. вот и как в том анекдоте - "так что там насчет мира во всем мире"?
методику поправлю. а интересно, почему pdf2djvugui le не может ничего извлечь? стабильно получаю чистые листы без текста.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
FR11 пока игрушка, играться можно, не более. FR8 рабочий инструмент.

ваша методика с pdf не дает склеивания мягких переносов. их надо вручную в фр11 удалять по моему методу, потом pdf - pdf2djvu - djvuocr-djvu и ....
вуаля - факир был пьян - все переносы вернулись на место в виде дефисов... за что боролись?
поиск важнее копирования текста - его можно выдрать как нибудь.
так что при всем уважении через pdf конвертация некошерная. текст классический, с page-line-word, но переносы очень осложнят поиск...
« Последнее редактирование: 24 ѕЪвпСам 2012, 20:16:46 от NBell »

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
ну, раз никто так и не взялся за написание утилитки, преодолев лень и потратив пол-дня сделал ее сам..
FR11 DjVu Text Layer Crutch на руборде..
версия пока сыровата в плане наличия фич, и всяких "защит от дурака", но при правильном использовании свою задачу выполняет - преобразовывает текстовый слой DjVu из-под 11го файнридера в формат а-ля DjvuOCR - нет блоков char, зато есть блоки line.. и слова с переносами объединяются для возможности полноценного поиска..
будет время и желание - добавлю еще кое-какие возможности.. но, это позже..

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Спасибо от лица всех DjVu-делателей за автоматизацию алгоритма, интересная прога, буду завтра на работе разбираться.
ПыСы. Вопрос. Насколько я понимаю пословное выделение в DjVu Вы не станете реализовать? Гемор ещё тот да и 12-я версия не за горами. Надеюсь они что-то в этом плане придумают.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
Цитировать
Насколько я понимаю пословное выделение в DjVu Вы не станете реализовать?
так оно есть, если версия фр не ниже .583..
если же имеется ввиду разбивка строк, сделанных более ранними версиями фр, то имхо это не имеет смысла, проще перераспознать в более новом билде..
в принципе, очень просто можно сделать разбивку, посчитав количество символов в строке и поделить ее на слова пропорционально кол-ву символов в слове.. но, координаты слов, определенные таким образом, могут оказаться далеко не точными.. так что, проще и качественней заново перераспознать книгу..