Автор Тема: PDF-технология ClearScan (Прочитано 41480 раз)

don555 · « **Ответ #30 :** 14 ПЭТРам 2011, 16:28:51 »

Цитата: Eugeen1948 от 14 ПЭТРам 2011, 16:24:19

ClearScan вообще-то - штучка для PDF, поэтому большего и ждать не стоит. Однако польза в нем есть - выравнивание страниц и даже распознание (при качественном скане очень даже неплохое), уменьшение размера файла 9довольно существенное, после чего DJVU уже не кажется таким мощным ужимателем.

Я сегодня немного игрался с pdf файлами. Так вот, не могу утверждать, что после обработки ClearScan размер файла уменьшается. Несколько проверок дали обратный результат. Размер увеличивался. Кое-где на много.

Eugeen1948 · « **Ответ #31 :** 14 ПЭТРам 2011, 22:35:46 »

Цитата: don555 от 14 ПЭТРам 2011, 16:28:51

Я сегодня немного игрался с pdf файлами. Так вот, не могу утверждать, что после обработки ClearScan размер файла уменьшается. Несколько проверок дали обратный результат. Размер увеличивался. Кое-где на много.

Эффективность игрищ с ClearScan определяется довольно просто. В Акробате Вы делаете "Проверка Документа" после ClearScan. В результатах проверки смотрите пункт "Скрытый текст" листая страницы документа. Если Вы видите поле, хорошо заполненное осмысленным текстом, значит ClearScan хорошо поработал и однозначно файл укорачивается пропорционально "хорошести". Если поле скрытого текста покрыто белибердой, иероглифами и другой "китайской грамотой" - ClearScan не справился с работой и только добавил баласта в файл, что и приводит к увеличению его размера. И у меня есть примеры того и другого случая. Другой вопрос: как заставить ClearScan работать? Ответ прост до безобразия и, в то же время, неприятен - надо усиленно работать над сканами, вычищать, ретушировать, удалячть краевые тени, ореол букв и т.д. и т.п.
Но после этой работы можно насладиться результатом ClearScan

monday2000 · « **Ответ #32 :** 15 ПЭТРам 2011, 16:46:13 »

don555

Цитировать

То есть при обработке отсканированных страниц в 300dpi, в SТ, скажем, выставляем на выходе 300dpi вместо 600? А затем пропустить через ClearScan не 600dpi, а 300dpi на выходе? Завтра сделаю.

Да. Что-то в этом роде. Хотя тут тоже есть загвоздка - ClearScan, по-видимому, лучше работает на 600 dpi, а не на 300. Надо искать варианты. Суть замысла в том, что хорошо бы отказаться когда-нибудь от ресемплирования 300 dpi greyscale -> 600 dpi greyscale, которое мы сейчас по-умолчанию имеем в СТ, чем-то заменив это ресемплирование (возможно, ClearScan'ом - если качество будет не хуже). Ведь ресемплирование в 2 раза увеличивает размер итогового DjVu-файла.

Цитировать

Могу я маленький pdf прислать вам для этого?

Да, давайте, если хотите.

Eugeen1948

Цитировать

ClearScan как и простой PDF OCR внедряет свой скрытый слой в PDF-файл.

Я тоже это заметил. Думаю, что OCR делается в фоновом режиме сразу после прорабатывания ClearScan.

Цитировать

ClearScan вообще-то - штучка для PDF, поэтому большего и ждать не стоит.

Я по результатам своих опытов полностью согласен с этой мыслью. ClearScan преобразует растровые сканированные буквы в векторные объекты (но не буквы из шрифта - это был бы уже OCR) максимально схожего внешнего вида. Для DjVu это не имело бы смысла - поскольку в DjVu нельзя хранить векторные объекты (не считая аннотаций

).

Сглаживание контура букв выступает тут как положительный побочный эффект. А нам от ClearScan нужно как раз только лишь это. В любом случае, сама идея (алгоритм) ClearScan довольно любопытна, ClearScan невольно подводит к мысли о поисках (создании) некоего алгоритма сглаживания контура букв в открытых исходниках. Может, и не векторного сглаживания (как ClearScan), а растрового.

don555 · « **Ответ #33 :** 15 ПЭТРам 2011, 22:44:27 »

Выкладываю папку, в которой находится двойная страничка, отсканированная в двух разрешениях 300 dpi и 600 dpi. Для каждой есть своя подпапка с разными процессами обработки 300 dpi и 600 dpi. такими как ClearScan 300 dpi и 600 dpi. Также под рукой оказалась программка Pdf To Djvu GUI, при помощи которой я переводил в djvu из pdf. Для сравнения djvu, выходные 2 файла tiff, после ST, я сразу пропустил через DjVu Small. Вообщем я красиво распределил там и должно быть понятно. Вес архива 22 мб.
http://www.sendspace.com/file/qoll2i

monday2000 · « **Ответ #34 :** 17 ПЭТРам 2011, 10:28:07 »

don555

Цитировать

Вообщем я красиво распределил там и должно быть понятно.

Ого, да Вы там потрудились на славу.

Я перезалил Ваш пример сюда (а то на sendspace быстро умирает залитое):

http://ifolder.ru/21372766 (21 МБ)

Пока не смотрел его подробно, но до завтра уж точно рассмотрю его в деталях.

monday2000 · « **Ответ #35 :** 20 ПЭТРам 2011, 15:22:51 »

don555

Цитировать

Вообщем я красиво распределил там и должно быть понятно.

Извиняюсь за задержку с просмотром Вашего примера. Посмотрел я его внимательно. Не совсем я там всё понял, так что на базе Вашего образца я сделал свой образец:

http://ifolder.ru/21440823 (93 КБ)

Там внутри 3 DjVu-файла (все были сделаны в DjVu Small).

1. Просто DjVu, сделанный из 300 dpi-скана.

2. DjVu, сделанный из 300 dpi-скана, прошедшего через ClearScan.

3. DjVu, сделанный из 600 dpi-скана, созданного из 300 dpi-скана путём ресемплинга (без ClearScan).

Из анализа всех этих 3 файлов я бы сделал такие выводы:

Пока что ClearScan не оправдывает себя.

Файл №3 гораздо лучше, чем файл №2. Действительно, ClearScan хорош только для PDF - для DjVu он не имеет значения - потому что векторный ClearScan-объект растеризуется на пути в DjVu - и от этого весь смысл векторного сглаживания теряется, при растеризации опять возникают "ступеньки" в контуре букв (от которых мы избавляемся при клиарсканении). $:-\$

В общем, эффект от ClearScan не идёт ни в какое сравнение с эффектом от апсемплинга с 300 до 600 dpi (последний гораздо лучше).

Видимо, для DjVu нужно искать некое растровое сглаживание - а не векторное.

T-ya · « **Ответ #36 :** 21 ПЭТРам 2011, 08:42:32 »

Для 300 dpi СlearScan, действительно, не имеет смысла использовать. Как и вообще делать 300 dpi bw сканы. 300 дпи - слишком грубо и для просмотра и для печати.
А вот для 600 дпи - ClearScan делать можно. Словарь шэйпов заметно уменьшается и размер файла можно уменьшить на 20-30 и более %. Читабельность и печатаемость, опять же улучшаются. Правда, меня несколько раздражают небольшие изменения положения символов. Неужели это так трудно программистам - поточнее определять координаты?

monday2000 · « **Ответ #37 :** 01 ДХТаРЫм 2011, 11:37:57 »

T-ya

Цитировать

300 дпи - слишком грубо и для просмотра и для печати.

Раз уж 300 dpi слишком грубо по-любому, то всё же хотелось бы искать пути снижения размера 600 dpi - скана. По-видимому, основное направление снижения размера - это замена схожих символов на один. То есть, научиться бы заменять схожие символы на один - в ещё большей мере, чем сейчас - но без ручной сверки-вычитки (на схожесть символов). Или же с минимумом такой сверки.

Вот ещё у меня такая идея возникла:

Предположим, что со временем мы научимся разделять в отдельные слои текст от сложного фона. Причём настолько эффективно, что ни один пиксель фона не будет попадать в маску. Затем можно будет продумать новые алгоритмы поиска и объединения схожих символов (выделенных в отдельный слой). Есть, к примеру, проект gamera.sf.net - который занимается этими вопросами (Jakub Wilk даже сделал программу - didjvu на gamera - но это под Линукс). http://jwilk.net/software/didjvu

Я так думаю, что допустимо, если самодельные алгоритмы будут медленнее коммерческих аналогов. Зато за счёт падения скорости работы можно будет наращивать их качество.

Eugeen1948 · « **Ответ #38 :** 03 ДХТаРЫм 2011, 13:25:44 »

Цитата: T-ya от 21 ПЭТРам 2011, 08:42:32

Для 300 dpi СlearScan, действительно, не имеет смысла использовать. Как и вообще делать 300 dpi bw сканы. 300 дпи - слишком грубо и для просмотра и для печати.
А вот для 600 дпи - ClearScan делать можно. Словарь шэйпов заметно уменьшается и размер файла можно уменьшить на 20-30 и более %. Читабельность и печатаемость, опять же улучшаются. Правда, меня несколько раздражают небольшие изменения положения символов. Неужели это так трудно программистам - поточнее определять координаты?

По моему опыту, а я обработал не одну тысячу файлов, СlearScan для 300 dpi вполне приемлем. Гораздо большее влияние на качество оказывает наличие фона, ореола, артефактов в сканах. Поэтому предобработка сканов (возможно неоднократная) сможет значительно улучшить ситуацию.

Eugeen1948 · « **Ответ #39 :** 03 ДХТаРЫм 2011, 13:32:51 »

Цитата: monday2000 от 01 ДХТаРЫм 2011, 11:37:57

Вот ещё у меня такая идея возникла:

Предположим, что со временем мы научимся разделять в отдельные слои текст от сложного фона. Причём настолько эффективно, что ни один пиксель фона не будет попадать в маску. Затем можно будет продумать новые алгоритмы поиска и объединения схожих символов (выделенных в отдельный слой). Есть, к примеру, проект gamera.sf.net - который занимается этими вопросами (Jakub Wilk даже сделал программу - didjvu на gamera - но это под Линукс). http://jwilk.net/software/didjvu

Я так думаю, что допустимо, если самодельные алгоритмы будут медленнее коммерческих аналогов. Зато за счёт падения скорости работы можно будет наращивать их качество.

Это произведет просто переворот в отношении к формату DJVU!
У меня есть программа нейросетевого распознавания, которую надо обучать на подходящем множестве, а Ваша идея при реализации сразу даст возможность получать это множество.
Далее уже просто будет получать необходимые атрибуты книг, искать смысловые дубли в библиотеках и т.п.

melancholic · « **Ответ #40 :** 20 јРЩ 2013, 11:21:39 »

Что-то давно не обсуждалось - уже все ссылки на примеры документов померли. Нашел в сети пару образцов, посмотрел внимательно и увидел, что многие одинаковые буквы на странице представляются одинаковыми картинками, как в DjVu, только векторными. Каждому такому символу, естественно, присваивается некий внутренний код. А что это, как не специальный шрифт, применяемый на некотором множестве строк/абзацев/страниц? Так что описание от Adobe на поверку оказывается правильным. Просто не нужно путать этот спец. шрифт с привычными шрифтами с использованием стандартных кодировок. Кстати, даже в DjVu тогда можно говорить об аналогичном спец. шрифте, только растровом.

Цитата: monday2000 от 01 ДХТаРЫм 2011, 11:37:57

Вот ещё у меня такая идея возникла:

Предположим, что со временем мы научимся разделять в отдельные слои текст от сложного фона.

Я так понимаю, эта идея раньше возникла у создателей DjVu.

yuree · « **Ответ #41 :** 23 ёоЭм 2013, 22:37:00 »

Цитата: monday2000 от 12 ПЭТРам 2011, 12:32:58

Вот сделанный мною пример работы ClearScan (скан взят самый препоганейший):

До ClearScan:

После ClearScan:

На этом примере хорошо виден принцип действия ClearScan: это - векторизатор растрового изображения. PDF после ClearScan становится векторным (из растрового) - потому что при увеличении (отклиарсканенного скана) угловатость (ступенчатость контура) букв не увеличивается (а это признак векторного объекта).
<...>

"Технология ClearScan довольно интересна, в том плане что-о, нажал кнопку — получил результат на месте, нет "расчёски", ну-или почти нет. Векторизация вещь хорошая но можно получить примерно тот же эффект что и ClearScan, без его привлечения. Достаточно применить Блюр → Шарпинг → Уровни (опционально). Я это всё проделал в ФШ, взял для примера одну страницу из книги. Вот что получилось:

Обратите внимание на слово "Обращение" (прошу прощение за тавтологию), на линии, на букву "б" в слове "события". Вообщем на весь недоClearScan'енный рисунок в книге. Результат во всяком случае не хуже, я полагаю."

Прошу прощение за столь большой пример. Просто цитата из одного письма.

xseed · « **Ответ #42 :** 27 јРав 2014, 01:43:21 »

Что-то тема опять затихла...

Цитата: Eugeen1948 от 03 ДХТаРЫм 2011, 13:25:44

Цитата: T-ya от 21 ПЭТРам 2011, 08:42:32
Для 300 dpi СlearScan, действительно, не имеет смысла использовать. Как и вообще делать 300 dpi bw сканы. 300 дпи - слишком грубо и для просмотра и для печати.
А вот для 600 дпи - ClearScan делать можно. Словарь шэйпов заметно уменьшается и размер файла можно уменьшить на 20-30 и более %. Читабельность и печатаемость, опять же улучшаются. Правда, меня несколько раздражают небольшие изменения положения символов. Неужели это так трудно программистам - поточнее определять координаты?
По моему опыту, а я обработал не одну тысячу файлов, СlearScan для 300 dpi вполне приемлем. Гораздо большее влияние на качество оказывает наличие фона, ореола, артефактов в сканах. Поэтому предобработка сканов (возможно неоднократная) сможет значительно улучшить ситуацию.

Да, действительно, я тоже заметил, особенно на результат распознавания влияет наличие растра, если растр сперва удалить descreen'ом или накрайняк blur'ом, качество векторизации повышается, забора на буквах становится меньше.
Еще по поводу качества - как обмануть ClearScan и скормить ему сканы с разрешением 1200 dpi:
http://yadi.sk/d/5cRPyTJmLGzFm
Кстати, насчет редактирования созданных ClearScan'ом шрифтов (отсутствующих в системе) очень помогает программа Infix PDF Editor. Правда, язык шрифта надо подбирать самому.

Меня еще интересует, а следует ли делать в случае с ClearScan такую предобработку сканов, как наклон и обрезку, а также auto levels/auto color - ведь ClearScan использует свой собственный алгоритм поворота изображения (Deskew), в результате по краям страницы становятся заметны белые скошенные углы. Т.е. насколько мы знаем, повторное вращение ухудшает качество изображения, особенно, если его разрешение 300, а не 600 dpi. Таким образом, clearScan сам за нас поворачивает. Далее, обрезку нужно будет делать в любом случае, чтобы удалить такие артефакты сканов, как неровности обрыва корешка, белые углы перекоса и другие неровности, но не лучше ли делать сразу обрезку краев pdf страницы - области CropBox? Ведь даже если мы обрежем скан заранее в PShop, все равно ClearScan сместит углы перекоса за выравнивания, и обрезку белых углов придется выполнять повторно уже для pdf страницы. Но с другой стороны, если кроппинг делать после ClearScan, даже если артефакты скроются за края CropBox'а, они все же будут занимать какое-то место в итоговом PDF файле, т.е. увеличат размер выходного PDF-файла. Тут еще есть один нюанс, касаемый выбор инструмента для обрезки PDF страниц - стандартный Acrobat'овский инструмент обрезки Pages > Crop не обладает такими возможностями, как скажем PhotoShop Rectangular Marquee Tool, т.к. позволяет тянуть выделение только за опорные точки в углах выделения, а не за бока, как в RMT. Даже сторонний специализированный софт, например, такой как VeryPDF PDFCrop, A-PDF page Crop не дотягивает до RMT, а лишь добавляет еще 4 опорные точки на середине ребер для изменения выделения. так что приготовьтесь к тому, что если вы хотите точно обрезать pdf страницу, придется либо ковыряться с линейками, либо иметь 2 4K монитора

Далее, даже если мы обрежем "отклиэрсканенные" страницы PDF за один прием (без участия Photoshop), артефакты останутся вне зоны видимости, но они увеличать вес выходного файла. Говорят, что эти артефакты можно полностью удалить из файла (очистить), сохранив PDF как PS и прогнав его через Distiller, но че-то у меня пока не получается, - во-первых, текст, хоть и остается выглядеть на странице нормальным, в боковой панели content превращается в иероглифы, несмотря на то, что в Acrobat Preferences для Convert from PDF указана General -> Font Inclusion: Embedded Fonts, и, следовательно, он (текст) становится непригодным для редактирования в Infix PDF Editor. А во-вторых, возникает проблема, связанная с повторным пересжатием JPEG/проблема выбора размера файла, - даже если создать новый профиль *.joboptions в Distiller с параметрами JPEG2000 lossless:
http://yadi.sk/d/8T_qiVNULH6pK
то при обрезке страниц это приведет к неприемлемому увеличению размера файла на выходе distiller - и весь эффект от дистилляции насмарку... Поэтому приходится для приведения размера к размеру, полученному после процедуры распознавания ClearScan устанавливать средние настройки:
http://yadi.sk/d/4oFIejnSLH7pk
но это не имеет смысла, т.к. на выходе ClearScan мы уже имеем JPEG (таков алгоритм его работы, черт его побери из TIF он делает и , окромя dpi, он нас не спрашивает, какое качество), и фактически происходит повторное сжатие JPEG в JPEG2000 с потерями, а оно нам нафиг не надо. Ни о каком алгоритме JPEGtrain (обрезка JPEG без потерь) при дистилляции и даже речи не идет, я так и не понял его сути, почему Adobe его не внедрила в Distilller?
Короче, эффекта от дистилляции ноль (как с точки зрения размера, так и и качества), и значит, ее делать не надо. Значит, обрезку сканов необходимо выполнять еще на этапе обработки растра, т.е. в PShop или ином редакторе, а раз так, то в растровом редакторе придется делать и поворот изображения, т.к. известно, что в прямоугольное окно влезает больше информации у повернутого скана. Следовательно, нам придется терпеть повторное вращение скана ClearScan'ом и связанное с этим ухудшение качетва изображения (как в случае с Jpeg'тым Jpeg).

Третье, что мне хотелось бы выяснить, стоит ли заранее делать автокоррекцию уровней/цвета, т.к. ClearScan похоже это делает тоже, по крайней мере, я заметил изменение цвета фона оригинала (TIF) на "откиэрсканенной" странице. Походу не надо, только в случае, если необхдоимо самому подкорректировать верхную границу уровней, чтобы программно устранить просвет скана... тогда да, нужно, но не авто. Хотя коррекцию цвета хочентся иногда самому сделать...

Итак, каков итоговый алгоритм обработки скана для подготовки к ClearScan без намеренного ухудшения качества со стороны пользователя:
Простой способ
1. PShop: Descreen (600 dpi)/Blur 0,8 (300 dpi), + коррекция верхней границы уровней + удаление крупных дефектов вручную (Clone Stamp Tool).
-. Поворот и обрезка на этапе растрирования не выполняются
3. Конвертация в TIF lzw (если еще не было выполнено)
4. ClearScan (он выполняет автоповорот, автоуровни, распознавание)
5. Обрезка pdf страниц от артефактов с помощью VeryPDF PDFCrop или иной софтины (расскажите, какая лучше, я пока не нашел)

Посложнее:
1. Автоповорот в одной из сторонних программ (в PShop можно только в ручную при помощи инструмента Ruler Tool) - FineReader, Book Restorer, Scan Tailor.
2. PShop: Descreen (600 dpi)/Blur 0,8 (300 dpi), + коррекция верхней границы уровней + автокоррекция цвета/уровней.
3. Выделение окна RMTool, transform Selection, подгон краев выделения вручную. П.п. 2-3 обязательно записать в Action для упрощения повторных действий.
4. Обрезка + удаление крупных дефектов вручную (Clone Stamp Tool)
5. Конвертация в TIF lzw (если еще не было выполнено)
6. ClearScan (повторный автоповорот, автоуровни, распознавание)
7. Обрезка pdf страниц от артефактов с помощью VeryPDF PDFCrop или другого софта.
8. Distiller с профилем JPEG2000 medium (удаление скрытых артефактов).

Первый вариант проще, без потерь, но размер на выходе больше из-за скрытых артефактов в pdf.
Второй вариант сложнее, больше потерь из-за повторных преобразований (поворот, пересжатие), но размер на выходе меньше.

Дополнения приветствуются

. У кого какие соображения насчет очистки pdf с помощью distiller? Как избежать выполнения повторных операций и все улучшить размер файла? Вроде как-то через pitstop еще прогнать можно, чтобы отсечь артефакты, но я пока еще новичек в этом вопросе.

xseed · « **Ответ #43 :** 06 °ЯаХЫм 2014, 19:18:44 »

PS: Обрезку (точнее, не обрезку, а установку поля CropBox) PDF страниц сканов удобно делать инструментом Page Crop, если знать, как им пользоваться. Я сделал так. Есть такая волшебная клавиша CTRL-SHIFT-T. Она открывает окно инструмента Crop с заранее подготовленной рамкой по размеру страницы (области CropBox, в отличие от TrimBox, ArtBox).
но сначала надо растянуть окно Acrobat на 2 монитора по вертикали (я использую для этого Actual Multiple Monitors), чтобы более менее было видно белые скосы распознанного скана, и сделать View - Page Display - Single Page View. Конечно, 4K не скоро по разумной цене появятся, но хотя бы так. А далее все просто, переходим хоткеем, например ALT-R, в правое поле Right окна Set Page Boxes и стрелками Up-Down делаем приращение на выбранную ед. измерения. По умолчанию стоят дюймы и приращение с шагом в 0.125 in может оказаться слишком большим. Чтобы установить другую ед. измерения по умолчанию для окна Set Page Boxes инструмента Crop, зайдите в Edit - Preferences - General - Units & Guides. Если вы выберите здесь Page & Ruler Units: Points, вы сделаете меньший шаг в Set Page Boxes, но придется терпеть Points. Выбор других параметров в этом окне не влияет на уменьшение шага приращения обрезки. Если это необходимо, задавайте шаг вручную. Если кто знает, как делать приращение по 0,25 мм, напишите, плиз.

PS: У кого нет двух мониторов, Adobe как бы намекает, мол не обессудьте и работайте с меньшим масштабом. А знаете почему? Потому что если вызвать окно Set Page Boxes, страница не прокручивается!

Eugeen1948 · « **Ответ #44 :** 05 ѕЪвпСам 2014, 15:20:12 »

Заметил и активно пользуюсь одним приемом с ClearScan. Обрабатываю PDF - файл ClearScan-ом и затем конвертирую его в PostScript - файл (*.PS). Затем конвертирую PostScript - файл в DJVU. Размер и качество результирующего DJVU всегда бывает меньше и лучше, чем при конвертации исходного PDF в DJVU! Почему так происходит, объяснить не могу, но это факт.

DjVu-Scan Forum

Новости:

Автор Тема: PDF-технология ClearScan (Прочитано 41480 раз)

don555

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

don555

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

T-ya

Re: PDF-технология ClearScan

monday2000

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan

melancholic

Re: PDF-технология ClearScan

yuree

Re: PDF-технология ClearScan

xseed

Re: PDF-технология ClearScan

xseed

Re: PDF-технология ClearScan

Eugeen1948

Re: PDF-технология ClearScan