Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - VMax

Страницы: [1]
1
Цитировать
если OCR настолько плох не проще ли заново распознать? и в FR поправить? там очень удобно.
В том-то и дело, что не настолько плох, чтобы нужно было заново распознавать. Достаточно исправить единичные ошибки. И еще не факт, что FineReader, исправив их, не добавит свои.
Редактировать распознанное в FineReader'e, конечно, удобно. Но при сохранении из исходного документа улетучивается bookmark и ссылки между страницами. Но это было бы еще полбеды. Проблема в том, что качество кодирования графики в FR, мягко говоря, оставляет желать лучшего. Причем это сказано очень и очень мягко.
Я до сих пор не могу вкурить, почему при работе с djvu FR не может внедрить распознанный текст в "родной" djvu документ, НЕ ТРОГАЯ в нем графические страницы и не связанные с OCR метаданные (как это делает DocExpress Pro или DjVu Solo). Зачем ABBYY'шникам обязательно потребовалось при сохраннии заново перепаковывать графику по своему собственному разумению и алгоритму. И выполненный "рестайлинг" получается намного хуже оригинала. Впрочем, на эту тему уже исписано полфорума...
Так что FineReader все равно не спасет от выдирания им же самим созданного OCR-cлоя и вставки его в исходный djvu. Я спросил про XML, так как сам с ним работаю и считаю, что пользоваться XML-редактором проще и нагляднее, чем править текст из djvused в текстовом редакторе общего назначения. Если пользователь не сисадмин и не веб-программист и не работает с XML по-серьезному, то XML редактор может быть простейшим (вполне пойдет мелкомягкий XML Notepad).
Для работы с XML в DjVu я применяю djvutoxml (экспорт) и djvuparsexml (импорт) из Document Express Enterprise Edition (DEEE) 5.1. Каких- либо глюков с ними мною замечено не было. По-моему единственный способ заставить их работать некорректно - это подсунуть им или "кривой" djvu-шник или накосячить в самом XML-документе (например, несбалансированными тегами), причем даже в этом случае парсер от Lizard Tech укажет порядковый номер ошибочной строки. С DjVu XML посредством DjvuLibre дела не имел. Вот поэтому и спрашиваю.

2
А через XML никто не пробовал править OCR-слой (с использованием djvutoxml / djvuparsexml из DEEE 5.1 либо djvutoxml / djvuxmlparser из DjVuLibre)?

3
Здравствуйте!
Имеется djvu-файл с OCR-слоем (кириллица).
Как извлечь этот слой, его отредактировать на предмет изменения текста и координат привязки символов или слов, а затем внедрить обратно?

Страницы: [1]