Автор Тема: Метод впечатывания OCR (идея)  (Прочитано 1534 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Метод впечатывания OCR (идея)
« : 16 ДХТаРЫм 2011, 12:49:45 »
Исходя из недавних обсуждений на форуме, мне пришла на ум новая идея, связанная с OCR: впечатывать распознанные OCR-буквы (с их растеризацией) вместо имеющихся изображений букв на скане.

При этом, естественно, необходимо автоматически затирать замещаемые изображения букв на скане.

Я назвал этот подход условно "Метод впечатывания OCR".

Думаю, что такой функционал уместно было бы внедрить в FineReader (разработчкиам ABBYY). В настоящее время FineReader так не умеет. FineReader придерживается парадигмы максимальной векторизации растрового изображения, я же предлагаю частичную - только в отношении букв.

Сейчас FineReader пытается распознать макет страницы - колонки, абзацы, межстрочные интервалы, таблицы и их структуры - немилосердно косяча при этом. Собственно говоря, это уже даже не OCR в чистом виде - а распознавание макета страницы.

Конечно, FineReader вынужден так поступать - если не делать распознавание макета страницы, а делать только предлагаемое мною впечатывание OCR - то результирующий вордовский doc-файл будет и огромных размеров, и на печати будет выглядеть не лучшим образом.

Но FineReader не учитывает существование формата DjVu - для которого применение впечатывания OCR было бы как раз весьма разумным и приемлемым. Это, с одной стороны, позволило бы заменить некачественные изображения букв на поганых сканах на высококачественные OCR-буквы, а с другой стороны, сократило бы время обработки за счёт исключения необходимости править косячное распознавание макета страницы в FineReader.

То есть, мозги разработчиков ABBYY совершенно отвёрнуты в сторону от идеологии формата DjVu - они пока что не видят такой гипотетический подход.

Предлагаемый метод впечатывания OCR мог бы стать своего рода "русским ответом ClearScan'у". Конечно, метод впечатывания OCR предполагает ручной труд (ручная проверка OCR) - в отличие от чисто автоматического ClearScan, но зато метод даёт минимум ручного труда - при использовании всех преимущеcтв OCR.

Метод впечатывания OCR мог бы стать хорошим способом реставрации некачественных DjVu-книг. Ведь, как известно, самое главное в DjVu-книге - это качество читабельности букв (а не красота картинок и макета страницы).
« Последнее редактирование: 16 ДХТаРЫм 2011, 12:51:30 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Метод впечатывания OCR (идея)
« Ответ #1 : 16 ДХТаРЫм 2011, 17:09:55 »
Для сканов с достаточно простым макетом страницы сейчас можно сымитировать метод впечатывания OCR прямо в FineReader. Для этого достаточно, чтобы блоки анализа содержимого в окне FineReader не пересекались друг с другом. На сканах со сложным макетом страницы это будет трудно обеспечить.

Я сделал небольшой наипростейший пример - обычный скан 300 dpi и он же распознанный-сохранённый на 600 dpi (через PDF) - оба сохранены в DjVu:

http://www.djvu-soft.narod.ru/scan/print_in_ocr.rar  (58 КБ)

Интересно, что размер DjVu-файла "ocr600" довольно велик. А ведь, по идее, его можно было бы радикально заоптимизировать - через словарь разделённых символов - вплоть до уникальности общих шейпов. Но тогда, наверное, такой DjVu-файл очень сильно тормозил бы.
« Последнее редактирование: 16 ДХТаРЫм 2011, 17:31:11 от monday2000 »

Mandor

  • Новичок
  • *
  • Сообщений: 8
    • Просмотр профиля
Re: Метод впечатывания OCR (идея)
« Ответ #2 : 22 ДХТаРЫм 2011, 09:50:48 »
Думаю, не получиться.
У нас уже попробовали етот метод, при етом — безотговорно пропуская етап правки текста, иногда получалось что-то вроде етого.
Даже если сделать хорошей OCR, очень редко шрифт будет как в оригинале, и при етом междусимвольное расстояние будет разное — ефект очень неприятен.