Исходя из недавних обсуждений на форуме, мне пришла на ум новая идея, связанная с OCR: впечатывать распознанные OCR-буквы (с их растеризацией) вместо имеющихся изображений букв на скане.
При этом, естественно, необходимо автоматически затирать замещаемые изображения букв на скане.
Я назвал этот подход условно "Метод впечатывания OCR".
Думаю, что такой функционал уместно было бы внедрить в FineReader (разработчкиам ABBYY). В настоящее время FineReader так не умеет. FineReader придерживается парадигмы максимальной векторизации растрового изображения, я же предлагаю частичную - только в отношении букв.
Сейчас FineReader пытается распознать макет страницы - колонки, абзацы, межстрочные интервалы, таблицы и их структуры - немилосердно косяча при этом. Собственно говоря, это уже даже не OCR в чистом виде - а распознавание макета страницы.
Конечно, FineReader вынужден так поступать - если не делать распознавание макета страницы, а делать только предлагаемое мною впечатывание OCR - то результирующий вордовский doc-файл будет и огромных размеров, и на печати будет выглядеть не лучшим образом.
Но FineReader не учитывает существование формата DjVu - для которого применение впечатывания OCR было бы как раз весьма разумным и приемлемым. Это, с одной стороны, позволило бы заменить некачественные изображения букв на поганых сканах на высококачественные OCR-буквы, а с другой стороны, сократило бы время обработки за счёт исключения необходимости править косячное распознавание макета страницы в FineReader.
То есть, мозги разработчиков ABBYY совершенно отвёрнуты в сторону от идеологии формата DjVu - они пока что не видят такой гипотетический подход.
Предлагаемый метод впечатывания OCR мог бы стать своего рода "русским ответом ClearScan'у". Конечно, метод впечатывания OCR предполагает ручной труд (ручная проверка OCR) - в отличие от чисто автоматического ClearScan, но зато метод даёт минимум ручного труда - при использовании всех преимущеcтв OCR.
Метод впечатывания OCR мог бы стать хорошим способом реставрации некачественных DjVu-книг. Ведь, как известно, самое главное в DjVu-книге - это качество читабельности букв (а не красота картинок и макета страницы).