Что-то тема опять затихла...
Для 300 dpi СlearScan, действительно, не имеет смысла использовать. Как и вообще делать 300 dpi bw сканы. 300 дпи - слишком грубо и для просмотра и для печати.
А вот для 600 дпи - ClearScan делать можно. Словарь шэйпов заметно уменьшается и размер файла можно уменьшить на 20-30 и более %. Читабельность и печатаемость, опять же улучшаются. Правда, меня несколько раздражают небольшие изменения положения символов. Неужели это так трудно программистам - поточнее определять координаты?
По моему опыту, а я обработал не одну тысячу файлов, СlearScan для 300 dpi вполне приемлем. Гораздо большее влияние на качество оказывает наличие фона, ореола, артефактов в сканах. Поэтому предобработка сканов (возможно неоднократная) сможет значительно улучшить ситуацию.
Да, действительно, я тоже заметил, особенно на результат распознавания влияет наличие растра, если растр сперва удалить descreen'ом или накрайняк blur'ом, качество векторизации повышается, забора на буквах становится меньше.
Еще по поводу качества - как обмануть ClearScan и скормить ему сканы с разрешением 1200 dpi:
http://yadi.sk/d/5cRPyTJmLGzFmКстати, насчет редактирования созданных ClearScan'ом шрифтов (отсутствующих в системе) очень помогает программа Infix PDF Editor. Правда, язык шрифта надо подбирать самому.
Меня еще интересует, а следует ли делать в случае с ClearScan такую предобработку сканов, как наклон и обрезку, а также auto levels/auto color - ведь ClearScan использует свой собственный алгоритм поворота изображения (Deskew), в результате по краям страницы становятся заметны белые скошенные углы. Т.е. насколько мы знаем, повторное вращение ухудшает качество изображения, особенно, если его разрешение 300, а не 600 dpi. Таким образом, clearScan сам за нас поворачивает. Далее, обрезку нужно будет делать в любом случае, чтобы удалить такие артефакты сканов, как неровности обрыва корешка, белые углы перекоса и другие неровности, но не лучше ли делать сразу обрезку краев pdf страницы - области CropBox? Ведь даже если мы обрежем скан заранее в PShop, все равно ClearScan сместит углы перекоса за выравнивания, и обрезку белых углов придется выполнять повторно уже для pdf страницы. Но с другой стороны, если кроппинг делать после ClearScan, даже если артефакты скроются за края CropBox'а, они все же будут занимать какое-то место в итоговом PDF файле, т.е. увеличат размер выходного PDF-файла. Тут еще есть один нюанс, касаемый выбор инструмента для обрезки PDF страниц - стандартный Acrobat'овский инструмент обрезки Pages > Crop не обладает такими возможностями, как скажем PhotoShop Rectangular Marquee Tool, т.к. позволяет тянуть выделение только за опорные точки в углах выделения, а не за бока, как в RMT. Даже сторонний специализированный софт, например, такой как VeryPDF PDFCrop, A-PDF page Crop не дотягивает до RMT, а лишь добавляет еще 4 опорные точки на середине ребер для изменения выделения. так что приготовьтесь к тому, что если вы хотите точно обрезать pdf страницу, придется либо ковыряться с линейками, либо иметь 2 4K монитора
Далее, даже если мы обрежем "отклиэрсканенные" страницы PDF за один прием (без участия Photoshop), артефакты останутся вне зоны видимости, но они увеличать вес выходного файла. Говорят, что эти артефакты можно полностью удалить из файла (очистить), сохранив PDF как PS и прогнав его через Distiller, но че-то у меня пока не получается, - во-первых, текст, хоть и остается выглядеть на странице нормальным, в боковой панели content превращается в иероглифы, несмотря на то, что в Acrobat Preferences для Convert from PDF указана General -> Font Inclusion: Embedded Fonts, и, следовательно, он (текст) становится непригодным для редактирования в Infix PDF Editor. А во-вторых, возникает проблема, связанная с повторным пересжатием JPEG/проблема выбора размера файла, - даже если создать новый профиль *.joboptions в Distiller с параметрами JPEG2000 lossless:
http://yadi.sk/d/8T_qiVNULH6pKто при обрезке страниц это приведет к неприемлемому увеличению размера файла на выходе distiller - и весь эффект от дистилляции насмарку... Поэтому приходится для приведения размера к размеру, полученному после процедуры распознавания ClearScan устанавливать средние настройки:
http://yadi.sk/d/4oFIejnSLH7pkно это не имеет смысла, т.к. на выходе ClearScan мы уже имеем JPEG (таков алгоритм его работы, черт его побери из TIF он делает и , окромя dpi, он нас не спрашивает, какое качество), и фактически происходит повторное сжатие JPEG в JPEG2000 с потерями, а оно нам нафиг не надо. Ни о каком алгоритме
JPEGtrain (обрезка JPEG без потерь) при дистилляции и даже речи не идет, я так и не понял его сути, почему Adobe его не внедрила в Distilller?
Короче, эффекта от дистилляции ноль (как с точки зрения размера, так и и качества), и значит, ее делать не надо. Значит, обрезку сканов необходимо выполнять еще на этапе обработки растра, т.е. в PShop или ином редакторе, а раз так, то в растровом редакторе придется делать и поворот изображения, т.к. известно, что в прямоугольное окно влезает больше информации у повернутого скана. Следовательно, нам придется терпеть повторное вращение скана ClearScan'ом и связанное с этим ухудшение качетва изображения (как в случае с Jpeg'тым Jpeg).
Третье, что мне хотелось бы выяснить, стоит ли заранее делать автокоррекцию уровней/цвета, т.к. ClearScan похоже это делает тоже, по крайней мере, я заметил изменение цвета фона оригинала (TIF) на "откиэрсканенной" странице. Походу не надо, только в случае, если необхдоимо самому подкорректировать верхную границу уровней, чтобы программно устранить просвет скана... тогда да, нужно, но не авто. Хотя коррекцию цвета хочентся иногда самому сделать...
Итак, каков итоговый алгоритм обработки скана для подготовки к ClearScan без намеренного ухудшения качества со стороны пользователя:
Простой способ
1. PShop: Descreen (600 dpi)/Blur 0,8 (300 dpi), + коррекция верхней границы уровней + удаление крупных дефектов вручную (Clone Stamp Tool).
-. Поворот и обрезка на этапе растрирования не выполняются
3. Конвертация в TIF lzw (если еще не было выполнено)
4. ClearScan (он выполняет автоповорот, автоуровни, распознавание)
5. Обрезка pdf страниц от артефактов с помощью VeryPDF PDFCrop или иной софтины (расскажите, какая лучше, я пока не нашел)
Посложнее:
1. Автоповорот в одной из сторонних программ (в PShop можно только в ручную при помощи инструмента Ruler Tool) - FineReader, Book Restorer, Scan Tailor.
2. PShop: Descreen (600 dpi)/Blur 0,8 (300 dpi), + коррекция верхней границы уровней + автокоррекция цвета/уровней.
3. Выделение окна RMTool, transform Selection, подгон краев выделения вручную. П.п. 2-3 обязательно записать в Action для упрощения повторных действий.
4. Обрезка + удаление крупных дефектов вручную (Clone Stamp Tool)
5. Конвертация в TIF lzw (если еще не было выполнено)
6. ClearScan (повторный автоповорот, автоуровни, распознавание)
7. Обрезка pdf страниц от артефактов с помощью VeryPDF PDFCrop или другого софта.
8. Distiller с профилем JPEG2000 medium (удаление скрытых артефактов).
Первый вариант проще, без потерь, но размер на выходе больше из-за скрытых артефактов в pdf.
Второй вариант сложнее, больше потерь из-за повторных преобразований (поворот, пересжатие), но размер на выходе меньше.
Дополнения приветствуются
. У кого какие соображения насчет очистки pdf с помощью distiller? Как избежать выполнения повторных операций и все улучшить размер файла? Вроде как-то через pitstop еще прогнать можно, чтобы отсечь артефакты, но я пока еще новичек в этом вопросе.