Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 59544 раз)

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
Цитировать
там не пробел, а что то еще, возможно.
там пробелы и табы - это видно в фр при распознании..
Цитировать
сам файл от fr11, имхо, не соответствует спецификации djvu3 - разделяемая аннотация одна должна быть..., однако работает...
не совсем понял..
Цитировать
только если в fr8 поправить зоны, текст, то djvuocr с его frfgrab падают...
если сделать танцы с бубном, то не падает)) там вся проблема в проверке страницы - нужно чтоб на ней не было статуса "проверено" (или что-то типа этого).. у меня лично все получалось..
Цитировать
а в fr11 можно сделать все что надо и получить готовый текстовый слой.
что-то попробовал я подкорректировать текст в fr11, так в итоговом djvu-файле при копировании данного текста пропал знак конца строки и скорректированное слово слилось со словом на следующей строке.. не помню, было ли в 8ке такое.. как по мне - при необходимости я лучше потом в djvu текст изменю..

а вообще, кроме пробелов и табуляции, которые легко удалить, в тексте из fr11 наблюдаются и другие недочеты - отсутствие такого типа зоны, как "Line" (возможно, из-за этого выделить текст на нескольких подряд страницах проблематично), а также переносы (невозможность корректного поиска в словах с переносом) - Генчо в djvuocr данную проблему решил..

подытожу (имхо) - в принципе fr11 можно использовать для внедрения текста в djvu, но нужен костыль.. он будет несложным в написании для человека, имеющего хотя бы небольшой опыт программирования.. я, конечно, мог бы его сделать, но 1) сейчас ниахота 2) утилита будет фрэймворкозависимая - лучше попросить сделать ее кого-то, пишущего на с++ во избежание недовольных возгласов ярых противников фрэймворка.. например, хозяина сайта;)

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
<...> а также переносы (невозможность корректного поиска в словах с переносом)

У Вас видимо старый билд 11-ой версии. В 11.0.102.583 переносы сделаны нормально, а не просто чёрточкой, как раньше.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
Цитировать
переносы сделаны нормально, а не просто чёрточкой, как раньше.
а разве это как-то влияет на возможность поиска в тексте слова, разорванного таким переносом?

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Цитировать
переносы сделаны нормально, а не просто чёрточкой, как раньше.
а разве это как-то влияет на возможность поиска в тексте слова, разорванного таким переносом?

Конечно. Слово "перенос" Вы можете найти или задав его целиком (второй случай) или по кусочкам(первый).
Т. е., одно дело если OCR вида
мягкий пере-
нос.
а совсем другое
мягкий пере¬
нос.

Хотя, используя регулярные выражения (а именно -\n заменить на "нажмите кнопку Delete", т.е. на ничего) можно побороть сей недуг :) так что если текста много и он не с мягким переносом то ничего страшного, можно легко исправить.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
там пробелы и табы - это видно в фр при распознании..
пробелы и табы djvused понимает. однако fr11.djvu->djvused-output-txt->new.djvu дает неидентичный текст. см. мой пример постами ранее - то что в ворд вставляется показано наглядно. так что djvused некоторые символы, похоже, преобразует в пробел.

Цитировать
сам файл от fr11, имхо, не соответствует спецификации djvu3 - разделяемая аннотация одна должна быть..., однако работает...
не совсем понял..
кто то поминал, что fr11 создает многостраничный файл без словаря фигур (djbz)
однако файл содержит iff - по спецификации это контейнер с разжделяемой информацией - djbz. весь софт создает djvu с djbz, а fr11 - с iff.
Цитировать
только если в fr8 поправить зоны, текст, то djvuocr с его frfgrab падают...
если сделать танцы с бубном, то не падает)) там вся проблема в проверке страницы - нужно чтоб на ней не было статуса "проверено" (или что-то типа этого).. у меня лично все получалось..
поясните как это сделать.
Цитировать
подытожу (имхо) - в принципе fr11 можно использовать для внедрения текста в djvu, но нужен костыль.. он будет несложным в написании для человека, имеющего хотя бы небольшой опыт программирования.. я, конечно, мог бы его сделать, но 1) сейчас ниахота 2) утилита будет фрэймворкозависимая - лучше попросить сделать ее кого-то, пишущего на с++ во избежание недовольных возгласов ярых противников фрэймворка.. например, хозяина сайта;)
дык fr11 под linux пашет? а фреймворк под виндовс - каждая вторая игра его требует. в чем с ним проблема?
т вместо костыля нужно всего лишь надстройку к djvused, которая извлекает, чистит и внедряет куда скажешь. тогда djvuocr неактуален станет.
а текст действительно странно выделяться стал... нужен ворох экспериментов для квалифицированного заключения о пригодности фр11.

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
а фреймворк под виндовс - каждая вторая игра его требует. в чем с ним проблема?

Проблема в портабельности, если вдруг вам вздумается поработать на чужом компе, где нету фреймворка, то все. Но, конечно, это не такая большая проблема, как глобальное потепление или озоновые дыры.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
yuree
Цитировать
Конечно. Слово "перенос" Вы можете найти или задав его целиком
в каком просмотрщике файлов формата djvu я могу найти слово с мягким переносом, задав его целиком? отвечу сам - ни в каком.. нужно приводить слово к формату раннего djvuocr
мягкий пере-
перенос.
либо позднего
мягкий
перенос.
Цитировать
используя регулярные выражения (а именно -\n
мы же djvu рассматриваем, здесь это не канает..
мягкий перенос - всего лишь метка, которую можно и нужно использовать при создании костыля..

NBell
Цитировать
fr11.djvu->djvused-output-txt->new.djvu дает неидентичный текст. см. мой пример постами ранее
ну, можно чанк распаковать и посмотреть, какой реально символ там сидит.. позже посмотрю..
Цитировать
fr11 создает многостраничный файл без словаря фигур (djbz)
тож посмотрим..
Цитировать
поясните как это сделать.
подробности надо вспоминать и на практике проверять.. м.б. на выходных сделаю..
Цитировать
вместо костыля нужно всего лишь надстройку к djvused, которая извлекает, чистит и внедряет куда скажешь.
так это и есть костыль))) просто сейчас нет охоты этим заниматься..

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
yuree
Цитировать
Конечно. Слово "перенос" Вы можете найти или задав его целиком
в каком просмотрщике файлов формата djvu я могу найти слово с мягким переносом, задав его целиком? отвечу сам - ни в каком.. нужно приводить слово к формату раннего djvuocr

Послушайте, я хочу сказать лишь только то что если DjVu файл с OCR слоем смастерили более ранним билдом чем .583 то слово "перенос" в WinDjView (на этот момент пожалуй один из самых востребованных вьюверов для DjVu-книг) выглядит как "пере- нос" а в .583 как "перенос". Вот что я хотел указать в своем последнем сообщении к Вам.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
yuree
ваша портабл сборка ведет себя странно...
иногда область текста не распознается полностью.
меняешь область, задаешь дополнительную область и она не распознается.

n.m.e.
вместо костыля нужен djvuocr-fr11-edition вместо костыля любой utf8 текстовый редактор годится.

djvuocr склеивает слова с мягким переносом (надо чтобы опция "нормальный перенос" была выключена) - так что проблема с переносами более менее решаема.
риторический вопрос - с какой точно версией fr9 контачит DjvuOCR2.4betaR4?
« Последнее редактирование: 12 ѕЪвпСам 2012, 17:53:31 от NBell »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
yuree
ваша портабл сборка ведет себя странно...
иногда область текста не распознается полностью.
меняешь область, задаешь дополнительную область и она не распознается.

Нувопревых, сборка не моя. Не моё это детище.
Во-вторых, скиньте пожалуйста эббивский архив с документом, где есть сей глюк. Если Вам конечно удобно это сделать.

Цитировать
риторический вопрос - с какой точно версией fr9 контачит DjvuOCR2.4betaR4?

Присоединяюсь. Хороший и важный вопрос.
Сколько разных вариаций девятки не ставил (порядка пяти), всё мимо! Так и не смог генчевскую программу с девяткой подружить.

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Кстати, заметил что FR11 поддерживает опции в командной строке, если в консоли написать Finereader.exe book.djvu, то открывается GUI файнрилера и начинается распознавание указанного файла. Правда я не нашел, пока, как в командной строке заставить его сохранить распознаное куда-нибудь, хоть в тот же djvu. Поскольку нового frfgrab-а ждать придется ждать чуть больше, чем бесконечно долго, то мне думается, что можно как-то найти недокументированную возможность FR11 сохранять лишь текстовий djvu-слой, без кодирования djvu-файла. Наверняка, должна быть такая возможность, ребята из ABBYY всегда придумывают скрытые фичи лишь для себя любимых.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
yuree
Цитировать
Послушайте, я хочу сказать лишь...
а, тогда понятно.. билд у мя новый, с мягкими переносами..

NBell
Цитировать
вместо костыля нужен djvuocr-fr11-edition вместо костыля любой utf8 текстовый редактор годится.
нифига себе)) т.е. вместо простенькой программы, которая с помощью djvused извлечет текст в файл, пропарсит его, сделает несложные манипуляции по удалению ненужных символов, склейке слов с переносами и определению границ  зоны "Line" и запихнет это обратно необходимо зафигачить монстра, выдирающего текст с координатами из проекта ФР? абсолютно не равнозначные решения.. я как-то пытался проект от восьмерки поковырять - сложно, но можно.. с десяткой там еще хуже было.. а сейчас это вообще не имеет смысла..

Цитировать
риторический вопрос
Цитировать
риторический вопрос — это вопрос, ответ на который не требуется или не ожидается в силу его крайней очевидности.
:)
все же отвечу - с 724 точно дружит.. но, при использовании 9ки на многоядерном процессоре можно напороться на баг - некоторые страницы могут быть перепутаны.. в свое время StanFreeWare патч делал, чтоб убрать этот косяк..

кстати, нашел свое старое сообщение на ру-борде по поводу ошибок djvuocr при внедрении проекта 8ки с распознанными и проверенными страницами
Цитировать
после распознания в фр запускал проверку орфографии?
 если да, то нужно на этих страницах например немного изменить границы какой-либо области или другим способом добиться того, чтобы на превьюшке не было зеленой галки, обозначающей, что страница проверена.. попробуй на нескольких страницах, если ошибка исчезнет - меняй остальные..

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
yuree
Эффект воспроизвести не удалось. Но качество полученного текста (как он выделяется в WinDjView - невозможно выделить более 1-1,5 страниц) не устраивает полностью. Ну его, ФР11. Подождем 12-й версии. А пока что родной ФР8...
А какие сборки пробовали? Англоязычные пробовали?
Наверно Генчо что то из раннего пробовал. Потому как описывает тормоза при распознавании - у меня сей эффект не воспроизводится.

nme
и кто же это все потянет? парсер...

в фр8 ничего не проверял - распознал и удалил некоторые лишние зоны.
djvuocr упала по неясным причинам на одной странице (сначала ругалась на две другие - удалил там все зоны). вычислил эту страницу, перераспознал и все поперло... так что старичок фр8 еще рано списывать.

а с фр 9 - у меня 1019 билд - очень понравился. только текст не выдрать. поищу более ранние

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
yuree
изв., невнимательно прочитал сообщение
Цитировать
если DjVu файл с OCR слоем смастерили более ранним билдом чем .583 то слово "перенос" в WinDjView (на этот момент пожалуй один из самых востребованных вьюверов для DjVu-книг) выглядит как "пере- нос" а в .583 как "перенос".
можно пример файла, ибо у меня (после .583) это выглядит как "пере¬ нос" и, естественно, недоступно для поиска (по слову целиком).. если WinDjView таки текст сливает - это здорово, но что-то у меня большие сомнения по этому поводу..

upd
NBell
Цитировать
и кто же это все потянет? парсер...
честно сказать - вопроса не понял, но, возможно, ответ "программер" будет правильным..
« Последнее редактирование: 12 ѕЪвпСам 2012, 21:23:57 от N.M.E. »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
А какие сборки пробовали? Англоязычные пробовали?

Нет, только "родные", или с лекарствами или ломаные, одним экзешником без всяких прибамбасов. Было пару портативок. А вообще это "дела давно минувших дней".
А Вы ставили какие-то зарубежные релизы?

Цитировать
если DjVu файл с OCR слоем смастерили более ранним билдом чем .583 то слово "перенос" в WinDjView (на этот момент пожалуй один из самых востребованных вьюверов для DjVu-книг) выглядит как "пере- нос" а в .583 как "перенос".
можно пример файла, ибо у меня (после .583) это выглядит как "пере¬ нос" и, естественно, недоступно для поиска (по слову целиком).. если WinDjView таки текст сливает - это здорово, но что-то у меня большие сомнения по этому поводу..

Точно. Ваши сомнения Вас не подвели. Это я неверно сказал, перепутал.
Приходилось пару текстов из DjVu в fb2 переводить. Там ФР нормально с текстом работает, а вот DjVu, как всегда :(