Автор Тема: PDF-технология ClearScan (Прочитано 40498 раз)

monday2000 · « **Ответ #15 :** 12 ПЭТРам 2011, 12:32:58 »

Вот сделанный мною пример работы ClearScan (скан взят самый препоганейший):

До ClearScan:

После ClearScan:

На этом примере хорошо виден принцип действия ClearScan: это - векторизатор растрового изображения. PDF после ClearScan становится векторным (из растрового) - потому что при увеличении (отклиарсканенного скана) угловатость (ступенчатость контура) букв не увеличивается (а это признак векторного объекта).

Хотя полученные векторные объекты - это не буквы! В смысле, это не буквы из некоего обычного векторного шрифта (типа Times New Roman и т.п.). Видимо, в этом и причина того, что ClearScan не делает ошибок в буквах - он просто подменяет зубчатый растровый контур буквы (или небуквенного объекта) аппроксимирующей его кривой векторной линией. Векторной - потому что она описывается неким математическим уравнением (типа сплайна что-то).

Хотя не сказать, что ClearScan действует только на контур букв. Он воздействует (сглаживающим образом) и на тело буквы - убирая светлые крапинки с чёрного фона буквы, к примеру. На картинках это хорошо видно.

Вот ещё пример работы ClearScan:

На этом примере видно, что ClearScan векторизирует и межбуквенное пространство - между буквами "п" и "р" (и "р" и "е") видна бледно-серая градиентная тень.

Конечно, было бы очень заманчиво сделать самодельный алгоритм, аналогичный ClearScan - но для DjVu, а не для PDF. В принципе, нечто аналогичное, наверное, можно сделать. Причём этот аналог может быть гораздо проще алгоритмически - ClearScan же создаёт по-настоящему векторный объект (что для DjVu абсолютно излишне) - для DjVu достаточно будет лишь суметь сгладить контур - точнее, максимально точно аппроксимировать растровый контур букв векторными кривыми.

Теперь понятно, почему ClearScan не делает "ошибок распознавания", как обычный OCR. ClearScan - это вообще не OCR ни разу. ClearScan не распознаёт буквы, он просто максимально точно аппроксимирует растровый контур (буквы или любой закорючки) векторной кривой (сочленённым набором отрезков разнообразных векторных кривых), и всё. У OCR ошибки распознавания возникают оттого, что там надо сопоставить растровому образу логическую букву - это гораздо более высокий уровень абстракции, нежели чем у ClearScan (потому и чреватый ошибками (распознавания).

Из всего этого вытекает важнейший вывод: результат работы ClearScan можно не проверять на правильность преобразования!

- в отличие от обычного OCR, где могут возникать ошибки распознавания. У ClearScan нет и не может быть в принципе "ошибок распознавания". Конечно, при условии достаточного качества встроенных алгоритмов векторной аппроксимации - но я думаю, что это условие, несомненно, соблюдается в ClearScan (потому что его реально выразить чисто математически). Другими словами, очевидно, что ClearScan практически не может совершить ошибки векторной аппроксимации - это очевидно из простых математических соображений.

Единственная проблема ClearScan - это "пропадание слов" (и даже целых абзацев):

http://ug.bu.edu/blog/lingtech/2009/02/23/acrobat-9s-clearscan-is-great-but-er-selective/

Возможно, в последних версиях Adobe эта проблема уже устранена - я не знаю. Эта проблема - чисто программный глюк (обычный баг), допущенный по недосмотру программистов Adobe, сам по себе математический алгоритм ClearScan явно не может порождать такой нелепый глюк.

И теперь ещё остаётся такой вопрос - всегда ли следует делать ClearScan над любыми сканами или нет? Действительно ли ClearScan всегда улучшает внешний вид текста, или в некоторых случаях это не так?

По крайней мере, ClearScan точно уменьшает размер DjVu - в этом может легко убедиться каждый.

Ещё у меня мелькнула такая мысль насчёт ClearScan: сейчас мы сканируем на 300 dpi, затем интерполируем до 600 dpi - ради более сглаженного текста. Но это увеличивает размер DjVu в 2 раза (это очень много). Что если сканировать на 300 dpi, затем делать ClearScan - и сразу после этого дежавючить? Может, качество текста будет не хуже? (по сравнению с ресемплированием до 600 dpi) C другой стороны, ClearScan лучше делать как минимум на 600 dpi - для лучшего качества. Может, после ClearScan делать снижение разрешение с 600 dpi до 300 dpi (маленькими шагами - для меньшей деградации качества). Тут надо подумать - возможно, придумается какое-то оптимальное решение. Всё же очень жаль сейчас терять в 2 раза в размере DjVu только лишь ради сглаживания букв.

Ещё одно достоинство ClearScan - это полностью автоматическая работа.

В общем, краткий ответ на вопрос "Что такое ClearScan" звучит так: "Это векторное сглаживание контура букв" (сканированного текста).

Кстати, официальные объяснения на тему "Что такое ClearScan" вроде этого http://blogs.adobe.com/acrolaw/2009/05/better_pdf_ocr_clearscan_is_smal/ , оказывается, неверны, и поэтому вносят только путаницу в понимание сути работы ClearScan. ClearScan - это не OCR, и ClearScan не генерирует новый векторный шрифт! Большей чуши трудно было бы даже и придумать. Как, спрашивается, он мог бы генерировать новый векторный шрифт (сходный по начертанию со сканированным) - такая задача была бы гораздо сложнее даже чем просто обычный OCR!

Вот что там написано:

Цитировать

Each character on the page is compared and all matching characters are replaced with a an outline character:

Чушь это полнейшая, ничего подобного ClearScan не делает. ClearScan просто обходит в цикле периметр контура буквы и для каждого очередного участка контура подбирает кусочек аппроксимирующей векторной линии, наиболее близкой к оригиналу. Это обычная задача из области анализа экспериментальных данных и мат. статистики.

Цитировать

Rather,a custom font it is created to match the visual appearance of the pixels.

Ну тоже - бред полный и чушь. Никакой специальный новый фонт не создаётся - потому что понятие "фонт" - это именно набор БУКВ, а не набор логически-бессмысленных векторных объектов (который ClearScan и вправду создаёт фактически).

Цитировать

ClearScan OCR is not the default in Acrobat 9, so you’ll need to change a setting to use it.

Сам термин "ClearScan OCR" является полной бессмыслицей - как "горячий лёд" или "сухая вода". ClearScan не имеет ничего общего с OCR - ClearScan на порядок "тупее", нежели чем OCR.

Другое дело, что, по-видимому, в Акробате OCR делается автоматически сразу же после ClearScan - и результат распознавания тут же внедряется в PDF. Так что более правильным было бы назвать эту процедуру (которую и выполняет фактически Adobe Acrobat) "ClearScan + OCR", а не "ClearScan OCR".

P.S. Я думаю, что нам нужно поставить (перед нами самими) такую долгосрочную задачу, как создание самодельного аналога алгоритма ClearScan с открытыми исходниками. Пусть он будет хотя бы вполовину хуже - всё равно это ИМХО будет иметь смысл.

Программы-векторизаторы с открытыми исходниками в принципе существуют - например, AutoTrace http://opennet.ru/prog/info/976.shtml :

Цитировать

AutoTrace - converts bitmap to vector graphics
Автоматически преобразует растровые изображения BMP, TGA, PNM, PPM, PGM, PBM в векторные форматы Postscript, svg, xfig, swf, pstoedit, emf and sk. Качество преобразования значительно лучше, чем у коммерческих аналогов CorelTrace и Adobe Streamline.

http://autotrace.sourceforge.net/ http://sourceforge.net/projects/autotrace/

Этот или аналогичный проект, возможно, мог бы стать отправной точкой в поисках пути создания самодельного ClearScan.

Eugeen1948 · « **Ответ #16 :** 13 ПЭТРам 2011, 09:17:07 »

Я бы не стал так однозначно хвалить ClearScan. По своему большому опыту работы с ClearScan могу утверждать, что реально приемлемые результаты достигаются в ограниченном числе случаев.
Например, большие шрифты на обложках или заглавия книг не обрабатываются, если есть текст на цветовом фоне - тоже мимо, либо полная каша.
Еще неприятное явление - ClearScan текстов с плохим разрешением. Если в растре еще можно читать, то после ClearScan - китайская грамота. Если много артефактов в растре - тоже реальное ухудшение. Смесь всех предыдущих случаев делает совсем мероприятие совсем безнадежным.
Я борюсь до последнего, пытаюсь за несколько проходов "вычищать" книгу, особенно помогает ретуширование, но проблемные места всё же остаются.
Конечно, если сканы готовить самому, то таких проблем можно избежать., но что делать с уже готовым материалом?
Конечно заманчиво сделать ClearScan для DjVu. Особенно после применения djvu_layers_remove для удаления паразитного фона должно быть довольно неплохо!

monday2000 · « **Ответ #17 :** 13 ПЭТРам 2011, 11:21:31 »

Eugeen1948

Цитировать

Я бы не стал так однозначно хвалить ClearScan.

Да, конечно, я тоже не стал бы рассматривать его как панацею.

Цитировать

Например, большие шрифты на обложках или заглавия книг не обрабатываются, если есть текст на цветовом фоне - тоже мимо, либо полная каша.

Если будет возможность, подкиньте образец - любопытно будет взглянуть.

Цитировать

Еще неприятное явление - ClearScan текстов с плохим разрешением. Если в растре еще можно читать, то после ClearScan - китайская грамота.

Да, я тоже как-то усомнился в полезности ClearScan именно глядя на пример скана с отвратительным текстом.

Цитировать

но что делать с уже готовым материалом?

Я-то думал применить ClearScan в основном именно для исправления некачественно сделанных DjVu-книг - но не уверен, подходит ли он для этой цели. Скорее обычный OCR подойдёт уж точно. Тут нужны практические эксперименты - чтобы понять сильные и слабые места применения ClearScan.

ClearScan - это векторное сглаживание, но ведь может же быть ещё и растровое сглаживание - об этом тоже хорошо бы задуматься.

don555 · « **Ответ #18 :** 13 ПЭТРам 2011, 15:19:52 »

Цитата: monday2000 от 02 ЅЮпСам 2010, 18:03:18

Цитировать
После обработки SK или ST создать pdf файл, а затем при помощи ClearScan в djvu?
Да. Только не совсем так: После обработки SK или ST создать pdf файл (растровый), затем подвергнуть его обработке через ClearScan, потом декодировать в TIF'ы - и их уже закодировать в DjVu.

Попробовал. Взял страниц 10, которые обрабатывал при помощи SТ. Взял их из папки “out”. Открыл опцию ClearScan в AcrobatPro9.3.4ER. на выходе пробовал 2 варианта.
1. вариант. Сохранить в tiff. Результат плохой. Почти такие же буквы, как и раньше.
2. Вариант. На выходе поставил pdf. Результат отличный. Буквочки чёткие. Размер маленький. OCR. Но мне же нужен djvu. Этой же прогой, взял готовый pdf файл и экспортировал обратно в tiff для дальнейшей обработки в djvu. Результат плохой. Почему-то опять видна корявость у букв. Не пойму почему. Я ведь брал уже выглаженный pdf файл. Что делать? Хочу djvu.

Eugeen1948 · « **Ответ #19 :** 13 ПЭТРам 2011, 21:44:21 »

Цитата: don555 от 13 ПЭТРам 2011, 15:19:52

Попробовал. Взял страниц 10, которые обрабатывал при помощи SТ. Взял их из папки “out”. Открыл опцию ClearScan в AcrobatPro9.3.4ER. на выходе пробовал 2 варианта.
1. вариант. Сохранить в tiff. Результат плохой. Почти такие же буквы, как и раньше.
2. Вариант. На выходе поставил pdf. Результат отличный. Буквочки чёткие. Размер маленький. OCR. Но мне же нужен djvu. Этой же прогой, взял готовый pdf файл и экспортировал обратно в tiff для дальнейшей обработки в djvu. Результат плохой. Почему-то опять видна корявость у букв. Не пойму почему. Я ведь брал уже выглаженный pdf файл. Что делать? Хочу djvu.

При переводе обратно в tiff OCR слой (это скрытый текст в PDF) теряется, отсюда такой результат.
Примените такой метод: прямо печатайте распознанный файл с помощью виртуального DJVU-принтера. В принтере от Caminova есть много полезных настроек для регулирования отношения "размер файла DJVU - качество DJVU ".
Там опция Preview дает возможность посмотреть, каков будет результат печати.

don555 · « **Ответ #20 :** 14 ПЭТРам 2011, 00:58:56 »

Как называется прога с виртуальным принтером. Можно ссылку на неё? Естественно не платную. Смотрел здесь.
http://www.djvu-soft.narod.ru/soft/
Думал, что эта прога подойдёт,
Document Express Enterprise with DjVu v5.1 build 946 (with Asian OCR)
но не даёт скачать.
У меня странички с картинками.

Eugeen1948 · « **Ответ #21 :** 14 ПЭТРам 2011, 07:38:31 »

Цитата: don555 от 14 ПЭТРам 2011, 00:58:56

Как называется прога с виртуальным принтером. Можно ссылку на неё? Естественно не платную. Смотрел здесь.
http://www.djvu-soft.narod.ru/soft/
Думал, что эта прога подойдёт,
Document Express Enterprise with DjVu v5.1 build 946 (with Asian OCR)
но не даёт скачать.
У меня странички с картинками.

На этой же странице, где Вы смотрели ниже ссылка для скачивания:
Caminova Virtual Printer v7.1.21816.0
Если у Вас Windows XP x32, попробуйте также принтер LizardTech Virtual Printer Pro v4.1.5 build 973 (там же).

monday2000 · « **Ответ #22 :** 14 ПЭТРам 2011, 09:52:46 »

don555

Цитировать

На выходе поставил pdf. Результат отличный. Буквочки чёткие.

Цитировать

Что делать? Хочу djvu.

Давайте образец тифов, из которых был сделан PDF (через файлообменник). Выберите какой-нибудь один самый характерный TIF-файл и давайте его, глянем на него все вместе.

У меня нет готовых рецептов в отношении ClearScan, я сам только исследую эту новую возможность (т.е. ClearScan).

don555 · « **Ответ #23 :** 14 ПЭТРам 2011, 10:27:07 »

Попробовал два этих виртуальных принтера. Второй чуть лучше, но плохо. OCR вообще нет. Как ты точно делаешь, какие настройки нужны, чтоб получить, так как в pdf с OCR?

don555 · « **Ответ #24 :** 14 ПЭТРам 2011, 10:42:55 »

Вот линк на файлообменник
http://www.sendspace.com/file/ieapom

monday2000 · « **Ответ #25 :** 14 ПЭТРам 2011, 11:59:03 »

don555
Вот что у меня получилось - 2 DjVu-файла - до и после ClearScan (из Вашего образца):

http://www.onlinedisk.ru/file/589839/ (140 КБ)

По-моему, вполне нормально после ClearScan.

don555 · « **Ответ #26 :** 14 ПЭТРам 2011, 12:35:33 »

Спасибо за разбор полётов. Но я не увидел большой разницы. Примерно одинаково. Ну, может чуть лучше “после”. А как со слоем OCR? Пока овчинка не стоит выделки. Вот переделка в pdf - это да, вещь стоящая, правда, не для меня. Мне Djvu подавай.

monday2000 · « **Ответ #27 :** 14 ПЭТРам 2011, 16:08:15 »

don555

Цитировать

Но я не увидел большой разницы. Примерно одинаково.

Да, я тоже не увидел - почти то же самое (до и после). Разве что размер стал меньше - на данном примере на 7%. Но у Вас тут и исходный скан высокого качества - так что поэтому падение размера малО.

Цитировать

А как со слоем OCR?

Да распознайте финальный DjVu да и всё (обычным образом). Так будет проще всего. Перенести OCR из PDF в DjVu можно, но геморно. Я знаю только pdf2djvu годится для этого, но он же делает свой DjVu из PDF - вместо того, чтобы просто вытащить OCR из PDF и сохранить в djvused-формате.

Цитировать

Пока овчинка не стоит выделки.

Да уж, как ни странно, пока соглашусь с этим утверждением. Возможно, существует некая ниша, где ClearScan будет оправдан. Допустим, какая-нибудь особая категория сканов. Пока что для высококачественных сканов (как в данном примере) ClearScan не оправдывает себя (судя по Вашему примеру), для низкокачественных - тоже (не оправдывает себя) - судя по словам Eugeen1948.

Просто я восхитился чисто красотой инженерного решения, которое представляет из себя ClearScan. Но имеет ли ClearScan чисто практический смысл - пока вопрос.

Единственный пока обнаруженный мною практический смысл в ClearScan - это то, что отклиарсканеные поганые сканы лучше распознаются Файнридером, нежели чем исходные. Это снижает затраты усилий по ручной правке OCR-результата.

Я ещё хочу проверить такую версию: взять сырые сканы на 300 dpi, покромсать, прогнать через ClearScan, и задежавючить (всё это на 300 dpi). Потом те же самые сканы ресемплировать до 600 dpi и задежавючить. И сравнить оба варианта.

Мне интересен вопрос: способен ли ClearScan заменить апсемплинг? Т.е. насколько схема "300 dpi + ClearScan" хуже схемы "300 dpi -> 600 dpi" (ставшей уже традиционной)?

Eugeen1948 · « **Ответ #28 :** 14 ПЭТРам 2011, 16:24:19 »

ClearScan вообще-то - штучка для PDF, поэтому большего и ждать не стоит. Однако польза в нем есть - выравнивание страниц и даже распознание (при качественном скане очень даже неплохое), уменьшение размера файла 9довольно существенное, после чего DJVU уже не кажется таким мощным ужимателем. ClearScan как и простой PDF OCR внедряет свой скрытый слой в PDF-файл.
Надо попробовать "побаловаться" с Preflight-ом для обработки этого скрытого слоя, возможно есть механизм фиксации его для дальнейшего использования в конверсии.

don555 · « **Ответ #29 :** 14 ПЭТРам 2011, 16:25:24 »

То есть при обработке отсканированных страниц в 300dpi, в SТ, скажем, выставляем на выходе 300dpi вместо 600? А затем пропустить через ClearScan не 600dpi, а 300dpi на выходе? Завтра сделаю. Странички две для пробы. Просто у меня не очень вышло с виртуальными принтерами. Могу я маленький pdf прислать вам для этого?

DjVu-Scan Forum

Новости:

Автор Тема: PDF-технология ClearScan (Прочитано 40498 раз)

monday2000

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

don555

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan

don555

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

don555

Re: PDF-технология ClearScan

don555

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

don555

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan

don555

Re: PDF-технология ClearScan