Дополнительно > Флейм
Метод впечатывания OCR (идея)
monday2000:
Исходя из недавних обсуждений на форуме, мне пришла на ум новая идея, связанная с OCR: впечатывать распознанные OCR-буквы (с их растеризацией) вместо имеющихся изображений букв на скане.
При этом, естественно, необходимо автоматически затирать замещаемые изображения букв на скане.
Я назвал этот подход условно "Метод впечатывания OCR".
Думаю, что такой функционал уместно было бы внедрить в FineReader (разработчкиам ABBYY). В настоящее время FineReader так не умеет. FineReader придерживается парадигмы максимальной векторизации растрового изображения, я же предлагаю частичную - только в отношении букв.
Сейчас FineReader пытается распознать макет страницы - колонки, абзацы, межстрочные интервалы, таблицы и их структуры - немилосердно косяча при этом. Собственно говоря, это уже даже не OCR в чистом виде - а распознавание макета страницы.
Конечно, FineReader вынужден так поступать - если не делать распознавание макета страницы, а делать только предлагаемое мною впечатывание OCR - то результирующий вордовский doc-файл будет и огромных размеров, и на печати будет выглядеть не лучшим образом.
Но FineReader не учитывает существование формата DjVu - для которого применение впечатывания OCR было бы как раз весьма разумным и приемлемым. Это, с одной стороны, позволило бы заменить некачественные изображения букв на поганых сканах на высококачественные OCR-буквы, а с другой стороны, сократило бы время обработки за счёт исключения необходимости править косячное распознавание макета страницы в FineReader.
То есть, мозги разработчиков ABBYY совершенно отвёрнуты в сторону от идеологии формата DjVu - они пока что не видят такой гипотетический подход.
Предлагаемый метод впечатывания OCR мог бы стать своего рода "русским ответом ClearScan'у". Конечно, метод впечатывания OCR предполагает ручной труд (ручная проверка OCR) - в отличие от чисто автоматического ClearScan, но зато метод даёт минимум ручного труда - при использовании всех преимущеcтв OCR.
Метод впечатывания OCR мог бы стать хорошим способом реставрации некачественных DjVu-книг. Ведь, как известно, самое главное в DjVu-книге - это качество читабельности букв (а не красота картинок и макета страницы).
monday2000:
Для сканов с достаточно простым макетом страницы сейчас можно сымитировать метод впечатывания OCR прямо в FineReader. Для этого достаточно, чтобы блоки анализа содержимого в окне FineReader не пересекались друг с другом. На сканах со сложным макетом страницы это будет трудно обеспечить.
Я сделал небольшой наипростейший пример - обычный скан 300 dpi и он же распознанный-сохранённый на 600 dpi (через PDF) - оба сохранены в DjVu:
http://www.djvu-soft.narod.ru/scan/print_in_ocr.rar (58 КБ)
Интересно, что размер DjVu-файла "ocr600" довольно велик. А ведь, по идее, его можно было бы радикально заоптимизировать - через словарь разделённых символов - вплоть до уникальности общих шейпов. Но тогда, наверное, такой DjVu-файл очень сильно тормозил бы.
Mandor:
Думаю, не получиться.
У нас уже попробовали етот метод, при етом — безотговорно пропуская етап правки текста, иногда получалось что-то вроде етого.
Даже если сделать хорошей OCR, очень редко шрифт будет как в оригинале, и при етом междусимвольное расстояние будет разное — ефект очень неприятен.
veala:
Jo29CHBAGeJeGlJaSaXIAgDoFiMeXVTeMPCrMaRoXXAnThFlTeClEcReJuTh
WeShKuWhAdZZBoAgAlGuWeJoDiXIFaErRiAnXIHeAnPaAmStDaIMSoSeMa
DeCDNiRAFECiCiLaEaLaArOrJoMaBHEkBoPaDoRuWiPaMiHoFuZeZeHiZe
ZeZeSoMaSwClCaHoRoFPGeXILaInXVHoOZShCDReSMRoXXLiMaSiXIHaSt
XXXXSoKrSNBeSaSeMaRaASSoFiblRRFBXVVWMyARXXNeHaNeEdmomIJaHe
WiDVReBoXXSiChCoqMIIBeWiINDoSuIIPlWiTeXIEKXIXVXVwampXVDVLe
PaXVViLeVaWiSPChLaNiLFDaLeNiIIJuGeCrEvSkLiXVSkHaJeAlRoAmEr
mpSMdsSoHoHaAsAsWiFoNoLoWoGrReCDDVCD
veala:
XI36caNoBeCDXXEJDoIIRaSiFiBiXXBrRALaXVLoXXGGFrAsVSStTeClYeGa
mpLuKlAnAnThCiKoNaGaOrHoNiErSuPrElWhIIMiFuNiBrGeFrStAmLaHe
XVToNiRAPSJTMaEsCDAdArInmpAuPiJuUmStAmReJeBCXVSwCPskZeWoZe
AgspKOStCPVIXVHWWiDSRaXVGeDiCDVIPeStToMaKnFrAmCDLPLuDRXVVI
XXXXKOXINoBeStDaMiOlArKOPoBAWoZoXICEKefrXXXXJaTeHaXVThWiLa
wwmawwBoCDMoMoDiWhUARowwXXKeAgCWPLFrSeNoDaKaHaXVThCoXXsoLe
CDMeDaThInXIDVBiDVwwBaCDEnAdSNIIBlDeDiWiMoXVABWIJaXXWeChPl
XXUnSMKOSaCDAsBaFrThFoXIDiMiXVStFaAl
Навигация
Перейти к полной версии