Автор Тема: Если есть JPEG-скан, но нет самой книги - есть ли шансы?  (Прочитано 15106 раз)

Shift

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Очень хочу сделать DJVU-книгу (знаю, многим пригодится!) из ок. 250 имеющихся в наличии JPEG-файлов с разрешением 1600х1200 (самой книги у меня, к сожалению, нет). Каких только вариантов настроек ScanKromsator'а не перепробовал! В принципе, что-то хоть отдалённо похожее получалось, но всё равно, не то.
Пока не прочитал здесь на форуме, что:
А, ну тогда уже нельзя сделать ничего. :( Все советы хороши только, если Вы сами делаете книгу (а значит, имеете сырые сканы).
Тогда мои руки совсем опустились :'(. Действительно ли всё так плохо? Я выложил три примера страничек. Скажите, пожалуйста, опытные юзеры, есть ли, в принципе, шансы получить что-то приличное из этого? Просто у вас уже есть некоторый опыт в том, получится ли что-то достойное и материала (как у опытного тренера, который только посмотрит на юношу и сразу видит, какие у него шансы стать чемпионом  ;))
http://photoload.ru/data/8d/95/bb/8d95bb25c0116d6cc71c97a80125dda3.jpg
http://photoload.ru/data/b6/dc/f3/b6dcf3ffa5a6710e36bc107d3457e791.jpg
http://photoload.ru/data/e6/7e/4e/e67e4ee2784fecb296aa60fd67fb79d8.jpg
И если всё-таки да, то какие могут быть "секретики"?
Заранее благодарен!

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Shift
Цитировать
Действительно ли всё так плохо?
Если DjVu-книга относительно неплохого качества - то её ещё можно исправить.
Цитировать
есть ли, в принципе, шансы получить что-то приличное из этого?
Смотрел Ваши образцы. Никаких шансов. :( У Вас просто крайне некачественные фотоснимки книги. Вот что у меня получилось:

http://www.onlinedisk.ru/file/469039/  (196 КБ)

Разумеется, это абсолютно неприемлемое качество.

Ваш единственный шанс - распознавание в ABBYY FineReader (с последующей ручной правкой).

Книгу нужно не фотографировать, а сканировать. Точнее, можно и фотографировать - но не в "полевых условиях" - а на специальном станке для фотографирования книг.

Вам проще будет раздобыть книгу и пересканировать.
« Последнее редактирование: 02 ёоЫм 2010, 15:26:13 от monday2000 »

Shift

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Спасибо большое!
Честно говоря, у меня тоже было такое чувство, что ничего уже не поделаешь. Но думал: а вдруг дело во мне и случится чудо... :)
Ну да, я понимаю, что нужно сканить книги, а не фоткать. Но выбора не было в данном случае - каким-то образом попали JPEGшки, хорошо хоть они есть...
Ладно, будем саму книгу искать. Ещё раз большое спасибо!

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Shift
Цитировать
и случится чудо...
Возможно, и такие сканы можно восстановить. Почитайте, к примеру, о том, как восстанавливали снимки Венеры: http://mentallandscape.com/V_DigitalImages.htm . Просто у DjVu-книгосканировщиков пока нет таких супертехнологий. ;)
Цитировать
Ладно, будем саму книгу искать
Это не так уж нереально. Во-первых, можно попросить на разных тематических форумах "Отсканируйте такую-то книгу", во-вторых, если Вы живёте в большом российском городе, то там можно записаться в городскую библиотеку, и взять нужную книгу на дом на 1-2 суток под залог денег и паспорта.
В третьих, если я не ошибаюсь, существует и такая экзотическая услуга, как "межбиблиотечный абонемент". Это когда Вы идёте в местную библиотеку, и там нужная книга доставляется почтой из другой библиотеки, где такая книга есть. (!)

Смотрите в Яндексе запрос "межбиблиотечный абонемент".
« Последнее редактирование: 02 ёоЫм 2010, 18:30:07 от monday2000 »

Shift

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Низкий поклон.
Действительно, надо попробовать в библиотеку наведаться, а то всё интернет, да интернет... Тем более, благо, в Питере живу.

m7876

  • Новичок
  • *
  • Сообщений: 38
    • Просмотр профиля
Вот что у меня получилось: http://rghost.ru/2046774
Как видите, кое-какие шансы есть.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
m7876
Цитировать
Как видите, кое-какие шансы есть.
Расскажите, как делали. Я пробовал в Scan Tailor и в Book Restorer.
« Последнее редактирование: 05 ёоЫм 2010, 09:21:14 от monday2000 »

m7876

  • Новичок
  • *
  • Сообщений: 38
    • Просмотр профиля
Я уже описывал методику на форуме натахауса: http://natahaus.info/forums/showthread.php?p=64662#post64662
Здесь я делал похоже, только совсем не выравнивал страницы (поленился). Кроме того, загрузил в фотошоп последний разворот (с красными выделениями) и постарался, насколько возможно, заменой цвета приблизить выделение к фону.
И еще, поскольку исходное разрешение оказалось около 120 dpi (если мне не изменяет память), то пакетно увеличил размеры в ирфане до 200, заодно и перевел в тона серого.
Да, я засек время (просто было любопытно) -- 13 минут весь процесс.
« Последнее редактирование: 05 ёоЫм 2010, 12:04:00 от m7876 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
m7876
Так я, в сущности, точно так же действовал - но ничего путного достичь не смог. :o

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
monday2000
Не пойму, как у Вас получился такой жирный результат. В СканТэйлоре при настройках по-умолчанию бинаризация дает практически тот же результат, что и у m7876 (кроме страниц, испорченных маркером, да еще и расфокусированных, там СТ уже практически бессилен, даже после расслоения сканов - я использовал RGB-расслоение в гимпе, после чего оставил только синий слой).

А вообще, для сканов с таким разрешением, конечно же, лучший выход один - не использовать бинаризацию, а увеличить контраст, вывести в режиме цветной-серый с выравниванием освещения в СТ и закодировать в фото-режиме. Так точно ничего нужного не пропадет..
Что же касается выделения маркером - то для максимально качественной бинаризации этих страниц, пожалуй, нужен СК с его возможностью бинаризовать область внутри зон со своим порогом, но так будет даже геморройнее, чем подменять цвета в фотошопе.

http://www.onlinedisk.ru/file/470802/
« Последнее редактирование: 05 ёоЫм 2010, 14:25:05 от 57an »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Цитировать
Не пойму, как у Вас получился такой жирный результат.
Пожалуй, меня сбили с толку замулёванные страницы. Так что я пытался сделать и выравнивание освещённости в Book Restorer, и ещё я сделал Auto-levels в Фотошопе с заменой цвета замулёванности на белый. Кстати, после Auto-levels замена цвета сработала несравненно лучше, чем до неё.

Видимо, это плохо сказалось на бинаризации.
Цитировать
и закодировать в фото-режиме.
Вот об этом я и вовсе не подумал. :) Вот что значит привычка к стремлению к качеству. :)

Да, изучение таких сканов - всё равно дело полезное, хоть даже и вытянуть из них достаточно хорошее качество не получается.

Я тоже как-то задумался - как же так, вроде бы в greyscale буквы вполне можно суметь прочесть - но стоит сделать бинаризацию - как тут же столько всего теряется.

Быть может, теоретически всё же возможны какие-то изощрённо-хитрые алгоритмы, способные "вытянуть" даже и такой текст. ::) Вот пример такого алгоритма: http://refocus.sourceforge.net/ . Не знаю, насколько хорошо это работает, но идея любопытная. Подробнее: http://www.osp.ru/pcworld/2009/04/7337689/

m7876

  • Новичок
  • *
  • Сообщений: 38
    • Просмотр профиля
У бинаризованного скана есть два преимущества -- размер и хорошее качество распечатки. А вот читаемость может быть не очень, хотя высокие dpi ее (читаемость) улучшают. Я на свои почти две с половиной тысячи отсканированного / обработанного только несколько раз оставлял сканы серыми. Правда, почти всегда удавалось потом книгу добыть и пересканировать.
===
Советую обратить внимание на фильтр Wavelet Sharpen в GIMP. Мне удавалось с ним вытягивать почти безнадежные вещи. Refocus тоже пробовал, но практически без результата.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Несколько последних постов я выделил в новую тему "Программные библиотеки растровой графики"

http://www.djvu-scan.ru/forum/index.php?topic=62.0

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
<...>

И если всё-таки да, то какие могут быть "секретики"?

Юзайте ФШ! Вот и весь секрет ;)
Например:

Было
Стало

Это так, на скорую руку.

Цитировать
Заранее благодарен!

Пожалуйста.

neurolog

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
    • E-mail

Юзайте ФШ! Вот и весь секрет ;)

Например:

Было...

Дайте оригинал, хочу свой еще метод попробовать :)