Ко мне обратились по электронной почте с просьбой помочь задежавючить сканы детской книги.
Прислали образцы сканов - вот они (в JPG, чтобы снизить размер):
Всего 3 скана, все вместе тут:
http://ifolder.ru/17301841 (4,14 МБ)
Полновесная версия сканов тут:
http://ifolder.ru/17286002 (65,3 МБ - 3 скана)
Задача ставится так:
Как относительно малоквалифицированному пользователю наиболее просто сделать DjVu-книгу из таких сканов?Как видно, сканы - цветные. Обработка цветных сканов в общем случае более сложна, чем чёрно-белых или серых.
Однако, данный случай, как видно, вполне укладывается в
метод разделённых сканов http://www.djvu-soft.narod.ru/scan/low_color_djvu.htm (потому что, в основном, чёткопрофильные объекты (текст, линии, рамки) не находятся на фоне мягкопрофильных объектов (иллюстраций, цветного фона) - а отделены от них промежутками белого пространства. Единственное исключение - чёрный текст на жёлтых полукругах, но такие объекты можно отправить целиком в фон будущего DjVu, т.к. там текст достаточно крупный, чёткий (не слишком размажется в фоне), и не несущий большой смысловой нагрузки).
Таким образом, сканобработка и дежавючение данных сканов не представляет особых трудностей.
Я на пробу обработал и задежавючил эти образцы. Вот что получилось:
http://ifolder.ru/17303433 (80 КБ)
Теперь о том, как я это сделал.
Использовались следующие программы:1. ScanTailor-anagnost96 (STA)
http://djvu-soft0001.nxt.ru/scantailor_0_9_7_1_anagnost96.rar (6,3 МБ)
2. ScanKromsator v5.92 Full
http://www.djvu-soft.narod.ru/soft/basic.htm3. DjVu Small v0.4.2
http://www.djvu-soft.narod.ru/soft/basic.htm4. DjVu Imager v2.5
http://www.djvu-soft.narod.ru/soft/basic.htm5. WinDjView v1.0 noyb
http://www.djvu-soft.narod.ru/soft/basic.htm6. DjVu Pal v1.1
http://www.djvu-soft.narod.ru/soft/djvu_pal_v1_1.rar (472 КБ)
Порядок обработки1. Обрабатываем сканы при помощи ScanTailor-anagnost96 (STA), используя руководство
http://www.djvu-soft.narod.ru/st_index.htm .
На стадии "Вывод" выделяем вручную те зоны картинок, которые не смогли правильно авто-определиться
http://www.djvu-soft.narod.ru/st_zones.htm .
На стадии "Вывод" ставим
Режим - Смешанный - Только текст (в выпадающих списках) и запускаем обработку (выбираем режим
Применить к ... - Ко всем страницам и жмём кнопку стадии "Вывод"
).
Должно получиться примерно так:
ВАЖНО: после завершения вывода копируем полученную папку out с обработанными сканами куда-нибудь в другое место на диске и переименовываем её (чисто для удобства), скажем, в "out1".
Теперь На стадии "Вывод" ставим
Режим - Смешанный - Только изображения (в выпадающих списках) и запускаем обработку. Должно получиться примерно так:
ВАЖНО: после завершения вывода копируем полученную папку out с обработанными сканами куда-нибудь в другое место на диске и переименовываем её (чисто для удобства), скажем, в "out2".
Закрываем СТА - больше он нам не потребуется.
Вывод: мы получили т.н. субсканы переднего плана (текст) - в папке out1 и субсканы заднего фона (иллюстрации) - в папке out2 - для нижеследующего метода разделённых сканов.
2. Используем ScanKromsator v5.92 (СК) для размытия растра иллюстраций.
Запускаем СК. Загружаем иллюстрации из папки out2. Жмём кнопку "Сбросить все опции и отмаркировать все файлы"
Выбираем вкладку Quality. Нажимаем на клавиатуре Ctrl и, не отпуская его, ставим галку "Enhance image". На вопрос "Apply option to marked files?" нажимаем "Да". Нажимаем на кнопку "Gray enhance" (на вкладке Quality). Выбираем вкладку "Blur". Ставим Gauss blur = 7 (для таких грубых иллюстраций пойдёт). Удерживая Ctrl, выбираем там же флажок "Enable". Жмём кнопку Process! и ждём, пока все сканы не обработаются. Закрываем программу. Результат будет в подпапке out папки out2.
Папку out2 можно убрать (в архив или удалить) - а папку out из СК сделать вместо неё папкой out2.
Вывод: размытие растра применяется исключительно ради снижения размера будущего DjVu-файла. В принципе, его можно и не делать вообще - либо делать в какой-либо иной, более вменяемой программе, нежели чем ScanKromsator. (Подойдёт любая такая, где есть пакетное размытие типа гауссового Gauss Blur).
3. Используем DjVu Small v0.4.2 для создания т.н. DjVu-заготовки - т.е. дежавючим сканы из папки out1 - с профилем User B/W (600 dpi). Тут всё просто.
Вывод: Мы должны получить DjVu-книгу, содержащую только чёрно-белый текст, и "пропуски" (белые бельма) на месте иллюстраций.
4. Используем DjVu Imager v2.5 для вставки иллюстраций из папки out2 в DjVu-заготовку, полученную в предыдущем пункте. Как пользоваться DjVu Imager - см. тут
http://www.djvu-soft.narod.ru/scan/djvu_imager.htm и, если что непонятно, спрашивайте тут:
http://www.djvu-scan.ru/forum/index.php?topic=14.0 . Это тоже не особо сложно.
Кстати, при кодировании иллюстраций в DjVu Imager v2.5 я задал опции ДЗФ=5 и Качество задн. фона = 25. Это важно - без этого размер получаемой DjVu-книги будет неоправданно завышен.
Вывод: DjVu-книга готова в общих чертах. Остались некоторые детали.
5. Используем WinDjView v1.0 noyb и DjVu Pal v1.1 для раскраски цветного текста, который встретился на сканах. На 2-м скане был заголовок малинового цвета "Карусельки". В нашей DjVu-книге эта надпись получилась чёрно-белой - так что теперь её надо раскрасить в малиновый цвет - прямо в DjVu-книге. Это можно сделать при помощи связки WinDjView v1.0 и выше и DjVu Pal v1.1.
Программа DjVu Pal v1.1 имеет встроенную помощь, где достаточно подробно расписано, как ею пользоваться. Пользоваться ею исключительно просто. Правда, есть один сложный момент - выбор цвета текста, которым закрашивать текст. Пока что это нужно делать вручную, "на глазок". Вот скриншоты, показывающие, как я выбирал цвет закрашивания текста в WinDjView v1.0:
Вывод: Этот этап (раскрашивание цветного текста) можно не делать в крайнем случае. Однако, я не вижу существенных причин - почему бы его не делать. Ведь он исключительно простой.
6. Теперь, если будет желание, можно вставить в готовую DjVu-книгу OCR-слой (
http://www.djvu-soft.narod.ru/scan/scan_and_share_1_07.htm пункт 5) , гиперссылочное оглавление (DjVu Hyperlinks Editor v0.781
http://www.djvu-soft.narod.ru/soft/basic.htm ), и дерево-оглавление (
http://www.djvu-scan.ru/forum/index.php?topic=18.0 ).
Однако, это легко сможет сделать кто-нибудь другой - скачав Вашу DjVu-книгу из Интернета - когда Вы её туда выложите.
Кстати -
не забудьте выложить полностью готовую книгу в Интернет. Удобнее всего закачать её на файлообменник ifolder.ru (там файлы хранятся вечно - даже если их никто не скачивает - только на том файлообменнике, кажется, требуется регистрация для закачки туда файлов), а полученную ссылку выложить куда-нибудь на тематический Интернет-форум.
Надо делиться друг с другом полученной продукцией - тем более, что при закачке исходящий ADSL-трафик не тарифицируется и не оплачивается абонентом.
Мелкие советы:- При сканировании хорошенько прижимайте книгу к стеклу сканера - но не раздавите стекло.
- Отсканировав всю книгу - проверьте комплектность полученных сканов. Многие этого не делают - и получаются в итоге DjVu-книги с пропущенными страницами (исходной бумажной книги).
- В данном описании наиболее сложными являются пункты 1 и 2 - использование СТА и СК. Как уже говорилось, вместо СК можно использовать многие другие программы - PhotoShop, Corel PHOTO-PAINT, WiseBook 2, G'MIC, даже Irfan View можно попробовать.
Или же (для размытия растра иллюстраций) можно применить коммерческие шумодавы - вместо СК (вообще будет отлично):
1. Imagenomic.Noiseware.Professional
2. Neat Image
3. PictureCode Noise Ninja
Подробнее см.
http://natahaus.info/forums/showthread.php?t=6055 .
Вместо СТА можно применить СК - но это хуже, т.к. в СК нет авто-распознавания зон
http://www.djvu-soft.narod.ru/st_zones.htm .
Можно упростить работу с СТА (чтобы не нужно было делать папки out1 и out2) - если воспользоваться программой Separator
http://tinyurl.com/ycvm85z от
57an - но
57an не сделал к ней инструкции, да ещё там требуется пакет .NET для работы - так что я не могу такой вариант советовать.
P.S. Может, кто из участников форума что-нибудь ещё посоветует - по поводу обработки таких сканов.
Я надеюсь, что в будущем вся эта технология (которую я тут обрисовал) будет упрощаться - по мере развития DjVu-книгосканировочных программ.