Автор Тема: Использование FineReader 10 и 11 для создания OCR слоя в DjVu  (Прочитано 58943 раз)

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Спасибо. Правда, насколько я понял из комментов на первой странице, FR11 косячит с OCR-слоем в DjVu (вставляет переносы и пробелы в местах переноса слов), а в PDF - нормально, поэтому и попробовал так. Сейчас попробую по короткому пути пойти.

Тут как Бог на душу положит. У кого косячит, у кого и нет. Впрочем я в нескольких работах такое наблюдал, подобный закидон. Промежуток между несколькими словами составлял не одну а две единицы, т. е. стало два пробела. Так-как я книги, в подавляющем большинстве своих раздач, вычитываю, то и правлю эти безобразия там-же, в ФР. Насколько я понимаю ФР старается подогнать шрифт и его размер к шрифту-картинке, отсюда и лишние пропуски. Наверно ::)

melancholic

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
    • E-mail
К сожалению, опять ничего не получилось. Припоминаю, что при загрузке изображений в FR он сообщил, что исправит неправильное разрешение. Теперь как ни сохраняю DjVu из FR, с каким профилем ни кодирую в DjVuSmall, текст и растр не соответствуют друг другу. В DjVu от FR все нормально, но он получается вдвое большего размера - не гут. Придется-таки перераспознавать.

Benoni

  • Новичок
  • *
  • Сообщений: 2
    • Просмотр профиля
Распознаю в ФР11 DjVu-документ с картинками. Хотя выставил в настройках ФР Точная копия, но некоторые картинки при распознавании он разорвал на две части, две страницы. И таких жертв было несколько. Документ увеличился на несколько страниц. Почему-не знаю. Может кто-то может посоветовать: какие изменения надо внести в настройки?

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Распознаю в ФР11 DjVu-документ с картинками. Хотя выставил в настройках ФР Точная копия, но некоторые картинки при распознавании он разорвал на две части, две страницы. И таких жертв было несколько. Документ увеличился на несколько страниц. Почему-не знаю. Может кто-то может посоветовать: какие изменения надо внести в настройки?

Снести ФР → почистить комп от мусора → удалить левые файлы с корзины → почистить реестр → установить заново ФР

Benoni

  • Новичок
  • *
  • Сообщений: 2
    • Просмотр профиля
Цитировать
Снести ФР → почистить комп от мусора → удалить левые файлы с корзины → почистить реестр → установить заново ФР

Очень наивно.
Снял галочки с
Определять ориентацию страницы, Выполнять предобработку изображений, Делить разворот книги
и все получилось.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Цитировать
Снести ФР → почистить комп от мусора → удалить левые файлы с корзины → почистить реестр → установить заново ФР

Очень наивно.
Снял галочки с
Определять ориентацию страницы, Выполнять предобработку изображений, Делить разворот книги
и все получилось.

Вообще-то это само-собой должно быть.
Так Вы так и говорите что ФР пользоваться не умеете. А то морочите людям голову.

tigr0541

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
Возьму уроки по ФР. yuree свои услуги не предлагать из-за низкого уровня сообщений.

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
для начала можно почитать мануал и погуглить

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Возьму уроки по ФР.


А что, уже́ уроки по ФШ есть?
Ссылой не поделитесь?



NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
FR 11.0.102.583 похоже какие-то управляющие символы вставляет
см. архив (Файлы будут храниться до 10 октября 2012 года) - тестировал на djvused последней сборки и на djvuocr 2.4 b4
результат идентичен - print-pure-txt дает нормальный текст. а для вставки - добавлены пробелы - строки вида (char xxx xxx xxx xxx " ") - типа копирайта - мой дежавю гуд, ocr-слой не замай!!!

yuree, monday2000:
1. что скажете?
2. похоже поиск-замена в Ворде светит...
3. или fr11 идет лесом... или версия fr11 какая то не такая?
4. yuree - может образчик вашего текстового слоя скинете? и укажите версию вашего fr11. лицензия или еще как?
« Последнее редактирование: 05 ѕЪвпСам 2012, 23:25:42 от NBell »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
FR 11.0.102.583 похоже какие-то управляющие символы вставляет
см. архив (Файлы будут храниться до 10 октября 2012 года) - тестировал на djvused последней сборки и на djvuocr 2.4 b4
результат идентичен - print-pure-txt дает нормальный текст. а для вставки - добавлены пробелы - строки вида (char xxx xxx xxx xxx " ") - типа копирайта - мой дежавю гуд, ocr-слой не замай!!!

yuree, monday2000:
1. что скажете?
2. похоже поиск-замена в Ворде светит...
3. или fr11 идет лесом... или версия fr11 какая то не такая?
4. yuree - может образчик вашего текстового слоя скинете? и укажите версию вашего fr11. лицензия или еще как?

NBell. К большому сожалению я не смогу дать Вам квалифицированного ответа касательно файнридеровских "мозгов". Мои познания в программировании крайне скудны и не могут тягаться с Вашими. Я простой юзер. Всё что я могу Вам предложить так это переход на другую сборку того же ФР.
Не так давно я использовал один из коцнутых вариантов, (это там где надо оригинал патчить или файлы перекидывать). Всё бы хорошо но эта версия сильно глюкала и в конце выводила сообщение о невозможности найти какой-то файл. Так я мучился примерно полтора месяца, потом бросил, удалил и покопавшись в просторах тырнета скачал себе РЕ, портативную версию. Признаться я не любитель всяких кастрированных программ но в этом случае все языки и словари были сохранены. Установка удобная, компактная, нечего патчить не надо.
Скачал Ваш пакет, распознал с помощью "своей" версии ФР → http://narod.ru/disk/62092997001.9b6671f80fa73b8d63b2d9a0f5ac7da7/ABBYY_FineReader_11.0.102.583.rar.html
Вот мой вариант Вашего документа: http://narod.ru/disk/62091893001.0494c3faf0151e15825a8ab5d8080c00/All.rar.html
Если моё сообщение Вам можно назвать ответом, тогда, рад был помочь.
Сообщите о результатах.

До встречи.

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Yuree - я просто юзер (как ПростоМария  :) )
с копированным текстом все так же -  дрянь. Два пробела. При вставке в ВОРД! Если в Эксель или Нотепад - один пробел.
Выход - при вставке в Ворд выбирать правка-специальная вставка-неформатированный текст. неудобно.

Вам вопрос - вы в какую программу текст вставляли? Я обычно пишу в Ворде - потому эти два пробела - геморрой.

никак не могу поймать - что за символ вставляется в Ворд как пробел...

и многостраничный djvu от fr11 странный - djbz нет, зато есть iff - shared anno - подозрительно напоминающие djbz. как так можно кодировать djvu?

Топикстартеру - пробовал pdf получить в FR11 - так странный он какой-то - текст фиг скопируешь (в ворд) - в эксель копируется без проблем... преобразование в djvu pdftodjvule01 - вообще белые листы... обработка pdf optimizer (удаление максимум тегов и прочего мусора) acrobat pro 9.5.2 - дает результат... все копируется даже в ворд

короче - fr11.0.102.583 - то ли бета какая то, то ли взламывать еще надо - ранее была шутка от абббиии - не копировалось  и не сохранялось (fr8). теперь вот такие шутки с текстовым слоем.

так что геморрой... fr8+djvuocr2.4 - рулез... вот такой прогресс.
« Последнее редактирование: 06 ѕЪвпСам 2012, 20:50:25 от NBell »

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
а решение есть
после извлечения текстового слоя при помощи DjvuOCR 2.4 в txt-файл необходимо
открыть файл в текстовом редакторе, поддерживающим поиск-замену с подстановочными знаками
в MS Word Ctrl+H, включить подстановочные знаки
Найти: \(ch*"\)
Заменить на: ничего
Заменить все
отключить подстановочные знаки
Найти: ^p ^p
Заменить на: ^p
Сохранить - Ctrl+S

Внедрить текстовый слой как обычно.

Разобрался - djvuocr выдирает текст без пробелов а fr11 честно пишет все пробелы. хорошо хоть символом char, а то удалять их сложно...

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Но почему из djvu fr11 текст копируется без проблем? похоже djvused какой-то непечатаемый символ преобразует в пробел. это проблема djvused?

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Вам вопрос - вы в какую программу текст вставляли? Я обычно пишу в Ворде - потому эти два пробела - геморрой.

В подавляющем большинстве я работаю с форматом DjVu. Если книга мне интересна то вычитываю и правлю текст на месте, не гоняя его по разным программам.

Цитировать
так что геморрой... fr8+djvuocr2.4 - рулез... вот такой прогресс.

Осталось ещё привести убедительные доказательства геморойности 9-ой и 10-ой версий ФайнРида ::)
Нет, я не спорю, кому-то в кайф и на "запорожце" ездить. До сего дня.
Но "чьёрт побъери", зачем убеждать в этом всех и вся?! Говорю это только потому что Вы не единственный кто с упорством самурая убеждает меня в кайфовости 8-ой версии.

P.S. Кстати Вы скачали мой архив с Вашим примером? Что скажете на счёт полученного файла в DjVu, средствами "моего" Портейбла?