Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 59189 раз)

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
благодарю за потраченное время на высылку фр11 и обработку моего примера.
я все загрузил и посмотрел.

я имел в виду это - вы выделяете текст (ocr-text) в djvu и копируете его в буфер обмена. далее текст вставляете для дальнейшего пользования. в какую программу?
в ворде появляются два пробела везде, где был один в том случае, когда ocr-text выдран из djvu созданного fr11 и вставлен в более кошерный djvu, созданный djvusmall+djvuimager+djvuocr.

так вот, если вы говорите об отсутствии проблем при копировании текста из djvu кодированного fr11, то это факт, не требующий доказательств (см. папку fr11-produced и в ней fr11-clip.doc в моем архиве).

вашу сборку и проект посмотрел - то же что и у меня. только у меня не портейбл. результат тот же - юзаешь дежу от абббиии - все путем. картинки только некоторые корежены. если перекидываешь текстовый слой djvuocr (djvused - что одно и тоже - djvuocr его и использует для операций с текстом) - лезут два пробела при обычной вставке в ворд.  (см. папку djvuOCR-produced и вней djvuOCR-clip.doc в моем архиве).

поскольку вы помянули об отсутствии этой проблемы у вас, потому я и так заинтересовался. а оказывается вы не передираете текстовый слой в собственноручнокодированный дежавю. просто разговор оказывается о разных вещах идет. вы пользуете дежавю от абббиии, а речь идет о том. что оттуда выдранный текстовый слой содержит удвоенные пробелы.

п.с. - качество распознавания у ФР9 мне больше понравилось. только текст выдрать не могу djvuocr.

п.п.с. а вас не за@#$ет окошечко при перераспознавании страницы, которое надо ВРУЧНУЮ закрывать? вот это ПРОГРЕСС! потому мне кажется. что это бета. потому как после правки сотни страниц я готов целовать сапоги ФР8 - он милостив и не требует от меня "кликов почитания". как поклоны бью по кнопочке "Закрыть"... и опции нет убрать это @#$% окошко! просто за!!!@#$%ло!!! простите за выражение.

п.п.п.с. попробовал фр11 только потому, что djvuocr падает на fr8, который я целый день правил (только зоны подправил и все) - это тоже геморрой. если зоны оставить кривые как есть - не падает.
« Последнее редактирование: 06 ѕЪвпСам 2012, 23:04:43 от NBell »

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
@#$%!!!!
заменил в папке djvuocr djvused.exe на версию из последнего релиза djvulibre - и все поперло!
yuree - вы просто здорово помогли! я уже руки опустил, но написал для вас батник, который при помощи djvused меняет текстовый слой и узрел ИСТИНУ!
Просто ОГРОМНОЕ спасибо!!!

п.с. а с фр11 еще неприятность - при чтении дежавю он все серые страницы перевел в черно-белый... так что по-быстрому добавление текстового слоя в готовый дежавю не выходит.
« Последнее редактирование: 07 ѕЪвпСам 2012, 00:15:10 от NBell »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Пока набирал сообщение появился Ваш новый ответ :)
Итак, всё по порядку.

благодарю за потраченное время на высылку фр11 и обработку моего примера.
я все загрузил и посмотрел.

Пожалуйста.

Цитировать
поскольку вы помянули об отсутствии этой проблемы у вас, потому я и так заинтересовался. а оказывается вы не передираете текстовый слой в собственноручнокодированный дежавю. просто разговор оказывается о разных вещах идет. вы пользуете дежавю от абббиии, а речь идет о том. что оттуда выдранный текстовый слой содержит удвоенные пробелы.

Строго говоря Вы сами, несколькими сообщениями выше, дали исчерпывающий ответ и способ борьбы с этим глюком. И, я прекрасно понимаю что 11-я версия довольно сыра. Причешут её, дай Бог, только к следующему году. Во всяком случае мне видится такой финал, исходя из прошлых релизов данного продукта.

Цитировать
п.с. - качество распознавания у ФР9 мне больше понравилось. только текст выдрать не могу djvuocr.

Распознавания русского+английского или распознавание вообще?

Цитировать
п.п.с. а вас не за@#$ет окошечко при перераспознавании страницы, которое надо ВРУЧНУЮ закрывать?

А Вы что, в ручном режиме перераспознаёте каждую страницу Вашего документа? :o Всё 374 стр. или сколько там на горизонте. Тогда да, согласен. Неужели качество распознавания настолько хреновое
что требует ручной работы с более чем 50% книги? ... так качество книг разное бывает.
NBell, понимаете, перед тем как запихнуть книгу или журнал в ФР я смотрю на качество этого файла, на качество скана. Довольно часто, если сканировал не я, приходиться прибегать к помощи 2D редактора(-ов). Подозреваю что я не одинок в таком подходе.

Цитировать
п.п.п.с. попробовал фр11 только потому, что djvuocr падает на fr8, который я целый день правил (только зоны подправил и все) - это тоже геморрой. если зоны оставить кривые как есть - не падает.

Прошу Вас проследить за ходом моей мысли.
Только в 10-ой версии, если мне не изменяет память, внедрили DjVu формат. Его стало возможно открывать, как есть. При этом не используя никакие аддоны или патчи для открытия этого формата в более ранних версиях ФР(см. напр. http://rutracker.org/forum/viewtopic.php?t=546636). В 11-ой версии стало возможным сохранять в DjVu формате. Правда с минимальным набором настроек и как итог, корявым DjVu. В 12-ой версии, если следовать логике событий, ожидается совершенствование работы с DjVu форматом. Поэтому мне совершенно непонятна любовь к более старым версиям. Впрочем это может быть и ... неофобия :)

@#$%!!!!
заменил в папке djvuocr djvused.exe на версию из последнего релиза djvulibre - и все поперло!
yuree - вы просто здорово помогли! я уже руки опустил, но написал для вас батник, который при помощи djvused меняет текстовый слой и узрел ИСТИНУ!
Просто ОГРОМНОЕ спасибо!!!

Прошу Вас, всё по порядку. Я не совсем понял чем я Вам помог, нудаладно.
Поясните пожалуйста своё сообщение на примере. Что за версия djvused что за версия djvulibre, где можно их скачать чтобы не мучить Гугл. И, самое главное, что за батник Вы мне написали. В какую папку его лепить и откуда запускать.

Цитировать
п.с. а с фр11 еще неприятность - при чтении дежавю он все серые страницы перевел в черно-белый... так что по-быстрому добавление текстового слоя в готовый дежавю не выходит.

 :o
Серые в ч\б? Так может есть вариант поставит не ч\б настройку а цветную, по умолчанию.
« Последнее редактирование: 07 ѕЪвпСам 2012, 00:44:25 от yuree »

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля

п.с. - качество распознавания у ФР9 мне больше понравилось. только текст выдрать не могу djvuocr.

Распознавания русского+английского или распознавание вообще?

определение зон и отсутствие окошек "Закрыть", а русскоанглийский почти такой же везде

Цитировать
п.п.с. а вас не за@#$ет окошечко при перераспознавании страницы, которое надо ВРУЧНУЮ закрывать?

А Вы что, в ручном режиме перераспознаёте каждую страницу Вашего документа? :o Всё 374 стр. или сколько там на горизонте. Тогда да, согласен. Неужели качество распознавания настолько хреновое
что требует ручной работы с более чем 50% книги? ... так качество книг разное бывает.
NBell, понимаете, перед тем как запихнуть книгу или журнал в ФР я смотрю на качество этого файла, на качество скана. Довольно часто, если сканировал не я, приходиться прибегать к помощи 2D редактора(-ов). Подозреваю что я не одинок в таком подходе.

порядок зон определяет выделение текста в windjvu - книгу для себя делаю, потому хочу хотя бы выделялось что не криво. автоматом зоны были расставлены отвратно. таблицы - вообще через одну отстой.

Цитировать
п.п.п.с. попробовал фр11 только потому, что djvuocr падает на fr8, который я целый день правил (только зоны подправил и все) - это тоже геморрой. если зоны оставить кривые как есть - не падает.

Прошу Вас проследить за ходом моей мысли.
Только в 10-ой версии, если мне не изменяет память, внедрили DjVu формат. Его стало возможно открывать, как есть. При этом не используя никакие аддоны или патчи для открытия этого формата в более ранних версиях ФР(см. напр. http://rutracker.org/forum/viewtopic.php?t=546636). В 11-ой версии стало возможным сохранять в DjVu формате. Правда с минимальным набором настроек и как итог, корявым DjVu. В 12-ой версии, если следовать логике событий, ожидается совершенствование работы с DjVu форматом. Поэтому мне совершенно непонятна любовь к более старым версиям. Впрочем это может быть и ... неофобия :)

время -деньги.  потому нужна быстрая метода.
я импортировал готовый дежавю в фр11 - и он очернобелил все серые картинки!!!  :o
дежавю выдал не очень корявый, по размеру - сравним с оригиналом, только ЧЕРНО-БЕЛЫЙ!!!

@#$%!!!!
заменил в папке djvuocr djvused.exe на версию из последнего релиза djvulibre - и все поперло!
yuree - вы просто здорово помогли! я уже руки опустил, но написал для вас батник, который при помощи djvused меняет текстовый слой и узрел ИСТИНУ!
Просто ОГРОМНОЕ спасибо!!!

Прошу Вас, всё по порядку. Я не совсем понял чем я Вам помог, нудаладно.
Поясните пожалуйста своё сообщение на примере. Что за версия djvused что за версия djvulibre, где можно их скачать чтобы не мучить Гугл. И, самое главное, что за батник Вы мне написали. В какую папку его лепить и откуда запускать.

что то я с командами перемудрил - баг есть. djvuocr ни при чем. это djvused кривой...
так что надо через ворд прогонять
а батничек попробуйте. можно приенять для переноса текстового слоя, аннотаций... если поменять команды djvused
батник
руководство по djvused

Цитировать
п.с. а с фр11 еще неприятность - при чтении дежавю он все серые страницы перевел в черно-белый... так что по-быстрому добавление текстового слоя в готовый дежавю не выходит.

 :o
Серые в ч\б? Так может есть вариант поставит не ч\б настройку а цветную, по умолчанию.
Это как?

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Упрощенная методика извлечения текстового слоя из djvu от fr11

Распознаем книгу в фр11, сохраняем в djvu

после извлечения текстового слоя при помощи DjvuOCR 2.4 в txt-файл необходимо
открыть полученный txt-файл в текстовом редакторе, поддерживающим поиск-замену с подстановочными знаками
в MS Word Ctrl+H, включить подстановочные знаки
Найти: ( \(char)
Заменить на: #\1
Кнопкак "Заменить все"
Сохранить - Ctrl+S

Внедрить текстовый слой как обычно.
« Последнее редактирование: 07 ѕЪвпСам 2012, 02:39:44 от NBell »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Цитировать
Это как?

Я об этом говорил. Может у Вас стои́т ч/б, по умолчанию.


Упрощенная методика извлечения текстового слоя из djvu от fr11

Распознаем книгу в фр11, сохраняем в djvu

после извлечения текстового слоя при помощи DjvuOCR 2.4 в txt-файл необходимо
открыть полученный txt-файл в текстовом редакторе, поддерживающим поиск-замену с подстановочными знаками
в MS Word Ctrl+H, включить подстановочные знаки
Найти: ( \(char)
Заменить на: #\1
Кнопкак "Заменить все"
Сохранить - Ctrl+S

Внедрить текстовый слой как обычно.

Понятно. Эта методика относиться к Ворду или к вообще всему? После такого шаманства OCR в DjVu будет нормально себя чувствовать?
« Последнее редактирование: 07 ѕЪвпСам 2012, 03:23:31 от yuree »

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
методика замены - для Ворда
смысл - закомментить знаком #
строки, начинающиеся с <пробел>(ch

работает

поправьте в присланном примере батника файл 01.djvu.txt по методике и внедрите командой

@echo texting 01-retexted.djvu
djvused 01-retexted.djvu -f 01.djvu.txt -s
@echo finish texting 01-retexted.djvu
@pause

потом убедитесь, что 01-retexted.djvu содержит текст без пробелов.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
насчет fr11 - правильно заметили. стояло ч-б!

Упрощенная методика извлечения текстового слоя из djvu от fr11 v2.1 (c) nbell

Распознаем книгу в фр11, сохраняем в djvu

после извлечения текстового слоя при помощи DjvuOCR 2.4 в txt-файл необходимо:
открыть полученный txt-файл в текстовом редакторе, поддерживающим UTF-8 и поиск-замену
Найти: <пробел>(ch
Заменить на: # (ch
Нажать "Заменить все"
Сохранить

Внедрить текстовый слой как обычно.
Открыть полученный djvu и насладиться текстом без двойных пробелов.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Упрощенная методика извлечения текстового слоя из djvu от fr11 v2.1 (c) nbell

Распознаем книгу в фр11, сохраняем в djvu

после извлечения текстового слоя при помощи DjvuOCR 2.4 в txt-файл необходимо:
открыть полученный txt-файл в текстовом редакторе, поддерживающим UTF-8 и поиск-замену
Найти: <пробел>(ch
Заменить на: # (ch
Нажать "Заменить все"
Сохранить

Внедрить текстовый слой как обычно.
Открыть полученный djvu и насладиться текстом без двойных пробелов.

Спасибо!
Возьмём на заметку ;)

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Yuree - всегда пожалуйста.
Добавлена  8) методика использования finereader 11 для создания текстовго слоя в djvu  8)
так что можно поставить на полку  ;)

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля

после извлечения текстового слоя при помощи DjvuOCR 2.4 в txt-файл необходимо:
открыть полученный txt-файл в текстовом редакторе, поддерживающим UTF-8 и поиск-замену
Найти: <пробел>(ch
Заменить на: # (ch
Нажать "Заменить все"
Сохранить

Внедрить текстовый слой как обычно.
Открыть полученный djvu и насладиться текстом без двойных пробелов.

Вообще-то кто знает, почему эти из ABBYY опять сделали все через жопу не по людски, неуж-то нельзя было сделать без этих пробелов?... (вопрос риторический, наверное)

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
У меня есть комбайн на основе FR8, который распознает Djvu-файл, как и Сuneidjvu, т. е. выбираем djvu-файл (в Total Commander), нажимаем на кнопку, ждем некотрое время, и рядом с исходным djvu появляется Djvu  с внедренным OCR. Идея принадлежит Melirius'у, описание здесь Комбайн запускается из коммандной строки, либо кнопкой из Total commander'а, будет ли у кого желание написать для этого дела GUI? Тогда будет что-то типа FinereaderDjvu, и тогда не нужно никаких танцев с бубном вокруг FR11.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля

Вообще-то кто знает, почему эти из ABBYY опять сделали все через жопу не по людски, неуж-то нельзя было сделать без этих пробелов?... (вопрос риторический, наверное)


там не пробел, а что то еще, возможно. леон боту не стал отвечать, что именно за символ djvused переделывает в пробел. из fr11-djvu вставляется все отлично (сам файл от fr11, имхо, не соответствует спецификации djvu3 - разделяемая аннотация одна должна быть..., однако работает...)

У меня есть комбайн на основе FR8, который распознает Djvu-файл, как и Сuneidjvu, т. е. выбираем djvu-файл (в Total Commander), нажимаем на кнопку, ждем некотрое время, и рядом с исходным djvu появляется Djvu  с внедренным OCR. Идея принадлежит Melirius'у, описание здесь Комбайн запускается из коммандной строки, либо кнопкой из Total commander'а, будет ли у кого желание написать для этого дела GUI? Тогда будет что-то типа FinereaderDjvu, и тогда не нужно никаких танцев с бубном вокруг FR11.
спасибо за ссылку. только если в fr8 поправить зоны, текст, то djvuocr с его frfgrab падают... а в fr11 можно сделать все что надо и получить готовый текстовый слой.
может кто поправит djvuocr и он будет иметь опцию correct fr11-text?

Вопрос - а у Вас pdf с картинкой и текстом под ней производства FR11 нормально дают текст скопировать? у меня подозрение на недовзлом (помните как дважды надо было крякать fr8)
« Последнее редактирование: 10 ѕЪвпСам 2012, 15:38:19 от NBell »

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
У меня есть комбайн на основе FR8, который распознает Djvu-файл, как и Сuneidjvu, т. е. выбираем djvu-файл (в Total Commander), нажимаем на кнопку, ждем некотрое время, и рядом с исходным djvu появляется Djvu  с внедренным OCR. Идея принадлежит Melirius'у, описание здесь Комбайн запускается из коммандной строки, либо кнопкой из Total commander'а, будет ли у кого желание написать для этого дела GUI? Тогда будет что-то типа FinereaderDjvu, и тогда не нужно никаких танцев с бубном вокруг FR11.

Видеоролик-демонстрация вышеописанного
« Последнее редактирование: 10 ѕЪвпСам 2012, 15:45:11 от sergiokapone »

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
спасибо за ссылку. только если в fr8 поправить зоны, текст, то djvuocr с его frfgrab падают... а в fr11 можно сделать все что надо и получить готовый текстовый слой.
может кто поправит djvuocr и он будет иметь опцию correct fr11-text?

Поправить djvuocr может только gencho, но он,аверное, уже забросил проект.

Вопрос - а у Вас pdf с картинкой и текстом под ней производства FR11 нормально дают текст скопировать? у меня подозрение на недовзлом (помните как дважды надо было крякать fr8)
Я не помню, давно ничего не равпознавал FR11, я пересел на FR8 и доволен.