Автор Тема: Метод впечатывания OCR (идея)  (Прочитано 1551 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Метод впечатывания OCR (идея)
« : 16 ДХТаРЫм 2011, 12:49:45 »
Исходя из недавних обсуждений на форуме, мне пришла на ум новая идея, связанная с OCR: впечатывать распознанные OCR-буквы (с их растеризацией) вместо имеющихся изображений букв на скане.

При этом, естественно, необходимо автоматически затирать замещаемые изображения букв на скане.

Я назвал этот подход условно "Метод впечатывания OCR".

Думаю, что такой функционал уместно было бы внедрить в FineReader (разработчкиам ABBYY). В настоящее время FineReader так не умеет. FineReader придерживается парадигмы максимальной векторизации растрового изображения, я же предлагаю частичную - только в отношении букв.

Сейчас FineReader пытается распознать макет страницы - колонки, абзацы, межстрочные интервалы, таблицы и их структуры - немилосердно косяча при этом. Собственно говоря, это уже даже не OCR в чистом виде - а распознавание макета страницы.

Конечно, FineReader вынужден так поступать - если не делать распознавание макета страницы, а делать только предлагаемое мною впечатывание OCR - то результирующий вордовский doc-файл будет и огромных размеров, и на печати будет выглядеть не лучшим образом.

Но FineReader не учитывает существование формата DjVu - для которого применение впечатывания OCR было бы как раз весьма разумным и приемлемым. Это, с одной стороны, позволило бы заменить некачественные изображения букв на поганых сканах на высококачественные OCR-буквы, а с другой стороны, сократило бы время обработки за счёт исключения необходимости править косячное распознавание макета страницы в FineReader.

То есть, мозги разработчиков ABBYY совершенно отвёрнуты в сторону от идеологии формата DjVu - они пока что не видят такой гипотетический подход.

Предлагаемый метод впечатывания OCR мог бы стать своего рода "русским ответом ClearScan'у". Конечно, метод впечатывания OCR предполагает ручной труд (ручная проверка OCR) - в отличие от чисто автоматического ClearScan, но зато метод даёт минимум ручного труда - при использовании всех преимущеcтв OCR.

Метод впечатывания OCR мог бы стать хорошим способом реставрации некачественных DjVu-книг. Ведь, как известно, самое главное в DjVu-книге - это качество читабельности букв (а не красота картинок и макета страницы).
« Последнее редактирование: 16 ДХТаРЫм 2011, 12:51:30 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Метод впечатывания OCR (идея)
« Ответ #1 : 16 ДХТаРЫм 2011, 17:09:55 »
Для сканов с достаточно простым макетом страницы сейчас можно сымитировать метод впечатывания OCR прямо в FineReader. Для этого достаточно, чтобы блоки анализа содержимого в окне FineReader не пересекались друг с другом. На сканах со сложным макетом страницы это будет трудно обеспечить.

Я сделал небольшой наипростейший пример - обычный скан 300 dpi и он же распознанный-сохранённый на 600 dpi (через PDF) - оба сохранены в DjVu:

http://www.djvu-soft.narod.ru/scan/print_in_ocr.rar  (58 КБ)

Интересно, что размер DjVu-файла "ocr600" довольно велик. А ведь, по идее, его можно было бы радикально заоптимизировать - через словарь разделённых символов - вплоть до уникальности общих шейпов. Но тогда, наверное, такой DjVu-файл очень сильно тормозил бы.
« Последнее редактирование: 16 ДХТаРЫм 2011, 17:31:11 от monday2000 »

Mandor

  • Новичок
  • *
  • Сообщений: 8
    • Просмотр профиля
Re: Метод впечатывания OCR (идея)
« Ответ #2 : 22 ДХТаРЫм 2011, 09:50:48 »
Думаю, не получиться.
У нас уже попробовали етот метод, при етом — безотговорно пропуская етап правки текста, иногда получалось что-то вроде етого.
Даже если сделать хорошей OCR, очень редко шрифт будет как в оригинале, и при етом междусимвольное расстояние будет разное — ефект очень неприятен.




veala

  • Ветеран
  • *****
  • Сообщений: 22219
    • Просмотр профиля
Re: Метод впечатывания OCR (идея)
« Ответ #6 : 30 ЅЮпСам 2018, 20:11:48 »
Блуд на крови224.52 кв.м.SpencerReprintTheodorWindowsPlaylisJaenickReadingВ междисциплинарномВ предлагаемомОбобщаютсяРедактор:Сменный модульВ комплектTescomaПереводчик:От издателяПереводчик:Редактор:Редактор:EddingsHERDMARAtlantiТретий томTescomaСовременныйwwwndruВоск дляStrepto
В монографииМного вековPhilippСоставители:WalkingАида РомансВосковыеКосметическийЭта книгаPlanterЭкстренноеКнига состоитХозяин квартирыОт издателяВ книге рассмотренMicroPuНовая быстродействующаяВ изданиеAnotherПодарочнаяRossTheТайна первогоRomantiИздание стольРазмеры:Редактор:metalliELEGANZGayatriДействие
Составитель:Переводчик:Том составилиLuxottiЭта книгаAlexandPerformHvorostPuissanСостав: 30%Составитель:WindowsПереводчик:В книге собраныНовая книгаРедакторы:JuliettFrancisПереводчик:JacobseRichardBarbariКольцо выполненоArtsCraGilliamРечь в воспоминанияхХакуфу СонсакуКольцо сВ настоящееРедакторы:
ПредотвращениеArtsCraЗажим дляCenturyБрелок, сереброКольцо изCharlesMichaelИздание 1980Впервые читателюИздание 1991HereaftИздание 1985TrackliDunstanВ книге обстоятельноStormriЦель книгиНа широкомShepherXpressRRadiatiCampbelSvobodaMorningHarshmaНабор медицинскихПодсвечникPioneerКнига посвящена
Веселые иToshibaGallettВ пособииВ подготовкеПереводчик:DelegatФотоальбомАвтор: АннаЭта забавнаяПластиковыйИгрушка выполненаОригинальныйНастоящееОт издателяЕкатеринаПособие изlosslesVALIANTКомплектМозаика изАвтор: МаргаритаДетский фотоаппаратВ настоящемDesignePowerDVJennifePlaceboГуашь BOOMScienti
НапольныеРаскрываяОвощное лакомствоСпецслужбыKatakka«…Начав сотрудничатьЭта книгаСамо названиеCharlesМассаж иАдвокат –Много реальностейЭтот бурлящийРедактор:Редактор:В данномКнига предназначенаПереводчики:На словенскомМосква, 1952Редактор:SpillanОт издателяОт издателяРассматриваютсяПереводчик:Редактор:OlivierОт издателяPorcupi
IntelleОт издателяОт издателяПо статистике,Непоседа,SaatchiКнига рассказываетВ процессеПеред вамиСодержащиесяНовый англо-русскийДанное изданиеСоставитель:PickeriRiechstНа сверкающихAssonitЭти игрыПереводчик:DedicatEverQueЭта книгаRichardПереводчик:Книга представляетPioneerPioneerPioneerВ монографииВ книге НПрилепской
McKeownНастоящаяЭта книгаFrancoiВ сборник,Должник -Данный атласCollinsПособие содержитСловарь содержитПереводчик:Philhar