Автор Тема: Сканирование книг: общие вопросы  (Прочитано 22242 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Сканирование книг: общие вопросы
« : 06 ПЭТРам 2010, 23:12:40 »
Данный топик создан для обсуждения любых общих вопросов касательно сканирования книг.

Не всегда можно определиться, к какой именно теме относится тот или иной вопрос по сканированию книг - вот как раз для таких общих моментов и задуман данный топик.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #1 : 06 ПЭТРам 2010, 23:43:44 »
По поводу инструкции http://www.djvu-soft.narod.ru/scan/scan_and_share_1_07.htm :

Как известно, там предписано использовать формат TIF как основной рабочий формат для книгосканирования.

А я подумал: а почему не BMP? Чем так уж плох BMP для этой роли?

Обычно считается, что TIF предпочтительнее, чем BMP (для целей книгосканирования), т.к. у формата TIF есть беспотерьное сжатие LZW (для серого и цветного) и CCIT Fax G4 (для чёрно-белого).

Но так уж ли действительно необходимы эти виды сжатия (именно для целей книгосканирования)? Рассмотрим подробнее:

1. LZW. Казалось бы, имеет смысл, если мы собираемся на всякий случай сохранить сырые сканы на DVD-болванку. Но, так ли уж часто мы это делаем? И каков выигрыш в размере при LZW-сжатии?

Я могу сказать: иногда LZW не даёт вообще никакого выигрыша в размере. Пример: цветные сканы журнала "Техника-молодёжи". Ну сжал я эти сканы в LZW - чтобы записать на DVD-болванку - ну и что? Размер не уменьшился ни насколько.

2. CCIT Fax G4. Смысл этого сжатия вообще непонятен (для наших целей): разве кто-нибудь сохраняет готовые обработанные чёрно-белые сканы на DVD-болванку? По-видимому, это не имеет никакого смысла: сохранять на DVD-болванку (на всякий случай) имеет смысл только исходные необработанные серые (цветные) сканы. CCIT Fax G4 имеет смысл разве что для уменьшения потребления дискового пространства в процессе сканобработки.

А теперь о недостатках TIF по сравнению с BMP:

1. BMP никогда не имеет глюков с неподдерживаемыми тегами, как TIF. Все мы знаем, что нередко TIF, полученный от одной программы, не хочет воспринимать другая программа - и приходится "прогонять" эти TIF'ы пакетно через Irfan View, чтобы решить проблему (а в самых тяжёлых случаях, кстати, приходится перегонять TIF -> BMP!).

2. C BMP проще работать программно (винда его вообще напрямую поддерживает - даже Windows 98, а для поддержки TIF уже нужны доп. условия).

3. Интересно, LZW ведь требует некое время для кодировки/раскодировки в/из него? Это же должно давать некое замедление сканобработки (?).

4. И любому "чайнику" ИМХО проще иметь дело именно с BMP, нежели чем с TIF - т.к. BMP прост и понятен, как пареная репа, и всегда беспроблемно везде поддерживается (в Windows).

Отсюда вырисовывается общий вывод:

Я думаю, что можно в ScanAndShare спокойно рекомендовать сканировать не в TIF, а в BMP (или по выбору: в TIF или в BMP, а не только в TIF, как сейчас). А уже потом пусть сканобрабатывающие программы (ScanKromsator или Scan Tailor) "на лету" преобразовывают (в процессе сканобработки) насканенные BMP'шки в TIF'ы (ради экономии места за счёт CCIT Fax G4) - и то, если в этом действительно будет смысл.

T-ya

  • Новичок
  • *
  • Сообщений: 19
    • Просмотр профиля
Re: Сканирование книг: общие вопросы
« Ответ #2 : 07 ПЭТРам 2010, 08:18:27 »
А можно выложить страничку-пример, для которой LZW не дает уменьшения размера по сравнению с BMP? Для меня это удивительно.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #3 : 07 ПЭТРам 2010, 12:10:21 »
T-ya
Да, действительно не смог я найти такой пример сейчас. :-[ Попробовал несколько разных сканов - везде LZW уменьшает размер.

Но я точно помню, что был у меня такой случай, когда LZW не уменьшал. Наверное, это просто был глюк той программы, которая сжимала в LZW.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #4 : 11 ПЭТРам 2010, 11:08:23 »
gscan2pdf - какая-то программа под Linux для сканирования в Pdf/DjVu.

http://yandex.ru/yandsearch?text=gscan2pdf
« Последнее редактирование: 12 ПЭТРам 2010, 00:24:14 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #5 : 11 ПЭТРам 2010, 22:11:41 »
Цитировать
Интересно, LZW ведь требует некое время для кодировки/раскодировки в/из него? Это же должно давать некое замедление сканобработки
Опция LZW выставляется до начала сканирования (Irfan View) и применяется ко всем сканам при последующем сканировании. По идее, это должно увеличивать общее время отсканирования - что есть плохо.

Кроме того, при сканировании в TIF, мало того, что могут создаваться специфические TIF-теги в сканах, так TIF может ещё быть и многостраничным (и содержать внутри всё насканированное)! А это всё означает лишние "непонятки" для "чайников".

Исходя из всего вышесказанного по этому вопросу, я бы сделал такой вывод, что самое лучшее и правильное - рекомендовать (в пособиях и т.д.) сканировать не в TIF (как то рекомендует ScanAndShare), а в BMP. Всё-таки это даст ещё одну степень "унификации" сырых сканов. (Это относится только к Windows, в Linux, видимо, потребуется использовать взамен PBM/PPM/PGM - точно не знаю).

А уже на этапе сканобработки (в СК или СТ) по необходимости конвертировать эти насканенные BMP'шки в TIF (LZW и CCIT Fax G4, где это нужно).

Хотя я бы не использовал LZW в процессе сканобработки (ради скорости) - а только для архивного хранения серых и цветных сканов ("сырых" и не только).
« Последнее редактирование: 12 ПЭТРам 2010, 00:26:06 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #6 : 10 ДХТаРЫм 2010, 10:43:43 »
Ссылки на статьи по dewarping на русском языке:

http://www.graphicon.ru/2008/proceedings/Russian/SR4/Paper_4.pdf

http://www.graphicon.ru/2007/proceedings/Papers/Paper_37.pdf

http://www.graphicon.ru/proceedings/2009/conference/se9/121/121_Paper.pdf

Очень интересно, советую прочитать всем желающим.

Источник: http://forum.ru-board.com/topic.cgi?forum=5&topic=27424&start=1940#20 .

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #7 : 26 јРав 2010, 16:08:09 »
« Последнее редактирование: 26 јРав 2010, 17:12:15 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #8 : 13 °ЯаХЫм 2010, 14:42:22 »
По поводу шумоподавления:

Наиболее интересны алгоритмы шумоподавления с открытым исходным кодом. Мне известны такие:

Фильтр Гаусса http://www.djvu-soft.narod.ru/bookscanlib/013.htm
Выборочное гауссово размывание http://www.djvu-soft.narod.ru/bookscanlib/014.htm
G'MIC http://gmic.sourceforge.net/
Описание:
http://jcornuz.wordpress.com/2009/02/07/gmic-next-gen-greycstoration/
Ранее эта программа называлась GREYstoration:
http://jcornuz.wordpress.com/2008/01/04/denoising-with-greycstoration/
Wavelet denoise - плагин для GIMP.
http://registry.gimp.org/node/4235

Smart Smoother High Quality
http://neuron2.net/hiq/smoothhiq.html
Vegas filters
http://www.mikecrash.com/index.php?name=Content&pa=showpage&pid=6
SUSAN Low Level Image Processing
http://users.fmrib.ox.ac.uk/~steve/susan/
AMAZING EFFECTS!!! (GraphicalDLL) more than 60 photoshop-like effects
http://www.planetsourcecode.com/vb/scripts/ShowCode.asp?txtCodeId=55328&lngWId=-10
VirtualDub filters
http://www.thedeemon.com/VirtualDubFilters/detailed.html
О фильтрах, которые нам нужны [3] - Конференция iXBT_com
http://forum.ixbt.com/topic.cgi?id=59:27-3
IPOL Algorithm Non-local Means Denoising
http://www.ipol.im/pub/algo/bcm_non_local_means_denoising/

А вот интересная страница с примерами denoise от GREYCstoration http://cimg.sourceforge.net/greycstoration/demonstration.shtml

Наиболее интересные примеры оттуда ИМХО - это сканы:
http://cimg.sourceforge.net/greycstoration/img/res_maison.html
http://cimg.sourceforge.net/greycstoration/img/res_moule.html
(при наведении мышью на окно показывает очищенную версию).

Шумоподавление наиболее интересно для обработки полутоновых иллюстраций. Возможно, его удастся применить и для обработки обложек DjVu-книг.
« Последнее редактирование: 13 °ЯаХЫм 2010, 15:18:43 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #9 : 28 ёоЭм 2010, 09:14:47 »
Любопытная программа:

GIMPshop

http://www.gimpshop.com/

Это клон GIMP, у которого интерфейс сделан максимально похожим на Adobe PhotoShop. Программа свободно-бесплатна, имеет открытые исходники.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #10 : 15 ёоЫм 2010, 11:07:07 »
Видеоурок об использовании Scan Tailor от автора программы (на русском языке):

http://ifolder.ru/18543646  (42, 69 МБ) Формат - mp4

Выкачано с http://vimeo.com/12527484 .

Тот же ролик, но на английском языке:

Источник: http://vimeo.com/12524529

http://ifolder.ru/18543768  (44.98 Мб)  Формат - mp4

Ещё один ролик

Progress update on dewarping functionality
Цитировать
Описание: Progress update on dewarping functionality by Joseph Artsimovich from http://vimeo.com/13246060 A status update for Scan Tailor users on the stuff currently in development.

http://ifolder.ru/18543778  (5,15 МБ)  Формат - mp4
« Последнее редактирование: 15 ёоЫм 2010, 11:27:23 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #11 : 09 °ТУгбв 2010, 12:31:10 »
Любопытный набор консольных PDF-утилит под Windows (на базе библиотеки XPDF):

ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip

Содержит такие утилиты, как: pdftops, pdftotext, pdfimages, pdfinfo, pdffonts.

Самой интересной мне показалась утилита pdftoppm. Она декодирует PDF-файл в соответствующий PPM-файл (один или несколько - в зависимости от количества страниц PDF).

Причём это декодирование за счёт рендеринга PDF-страниц - т.е. утилита может работать и с чисто векторными PDF - создавая из них PPM-картинки.

Правда, из недостатков следует отметить не самое лучшее качество работы. К примеру, фонты заменяются взамен отсутствующих не слишком близко. На пробу программа PDF X-Change Viewer создала более близкую на вид к оригиналу декодированную картинку PDF-страницы.

Из достоинств pdftoppm следует отметить достаточно малый размер (1,15 МБ), независимость от всякой левой предустановленной дряни (типа Java, GhostScript, .NET, и т.п.) и умение работать с многостраничными PDF.

В принципе, такую утилиту можно было бы в крайнем случае использовать в своих самодельных программах - но только для некоего "чернового" декодирования "PDF-картинка". Высокого качества декодирования от неё не получишь. :(
« Последнее редактирование: 09 °ТУгбв 2010, 12:35:25 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #12 : 09 °ТУгбв 2010, 15:40:14 »
Как создать электронную книгу. Руслан Тертышный

http://www.bestfree.ru/article/soft/ebooks.php

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #13 : 07 БХЭвпСам 2010, 16:38:41 »
Пользователь Igem с форума rutracker.org прислал мне учебник по Book Restorer 4.0:

http://www.djvu-soft.narod.ru/scan/book_restorer_4_manual.rar  (1,67 МБ)

don555

  • Пользователь
  • **
  • Сообщений: 71
    • Просмотр профиля
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #14 : 23 БХЭвпСам 2010, 19:37:54 »
С удовольствием скачал - бы этот учебник, но не качается.

Пробовал сканировать в 600dpi. Получается на выходном файле после BR на много лучше, чем в 300dpi. Очень долго сканировать.
У меня Optibook 3600.
В 300dpi в сером -7 сек
600dpi-25 сек.