Автор Тема: На странице и фото, и цветные узоры, и текст, поверх цветных узоров... КАК?  (Прочитано 22264 раз)

TipaGraf

  • Новичок
  • *
  • Сообщений: 12
    • Просмотр профиля
Здравствуйте!
Вначале - хотел бы поблагодарить Вас за Вашу работу! Спасибо за Ваши программы и за Ваши мануалы к ним!

Вот, столкнулся со следующим случаем. ИМХО - самым трудным для сканобработки.
Есть книга с кучей разнообразной цветной графики на страницах. А именно:
на одной странице имеются - цветные  фотографии, цветной узор (на всю страницу), по которому нанесен ч/б текст.
Книги, где на странице есть просто фото и текст (которые никак друг на друга не налезают) - для меня уже не проблема (благодаря Вам).
Но вот как быть в данном случае, когда на странице не только цветная фотография, но еще и  текст, который нанесен на цветной узор?

Есть ли какой-то внятный алгоритм обработки такого скана?
Конечно, можно сделать обычный ПДФ, вот только весить он будет....
А хотелось бы именно в DjVu  сделать книгу - чтобы и качественно и легковесно получилось бы.

У меня модемный инет, поэтому я не имею возможности отправить сюда полновесный тифф.
Кстати, именно из-за того, что у меня модемный инет, я и хочу сделать ДжВу, чтобы результатом поделится можно было бы.

Спасибо.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
TipaGraf
Добрый день.
Цитировать
Есть ли какой-то внятный алгоритм обработки такого скана?
Это самый сложный случай - условно говоря, "сегментация теста, который находится поверх фото-картинки".

В принципе, кое-какая методика существует. Но я ею не владею - и точно не знаю, насколько она универсальна (можно ли ею охватить также и Ваш случай).

Для начала просмотрите вот это: http://www.djvu-soft.narod.ru/scan/corel_scan.htm

Далее обратитесь на форум сюда: http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&glp (требуется регистрация, чтобы увидеть этот топик) и спросите там Arcand по этому вопросу. Крайне желательно приложить образец сырого скана при этом. Да и сюда выложите образец скана - попробуем подумать, что с ним делать.
Цитировать
У меня модемный инет, поэтому я не имею возможности отправить сюда полновесный тифф.
Возьмите TIF и сохраните его в Irfan View в JPG со сжатием 100% качества. Потом вырежьте самый характерный кусочек скана и выложите. Можно мне просто скинуть на почту monday2000 [at] yandex.ru.
Цитировать
но еще и  текст, который нанесен на цветной узор?
Наверное, тут всё же надо смотреть на конкретный пример. Смотря какой узор - с размытыми или чёткими краями, сколько там цветов - в зависимости от этого его можно поместить в фон или маску.

Почитайте также полную доку к программе DEE 5.1 http://djvu-soft0001.nxt.ru/dee51le_help.rar (6 МБ) (Если у Вас нет полного DEE 5.1) - там есть раздел, где подробно расписываются настройки автосегментёра documenttodjvu.

Цитировать
ИМХО - самым трудным для сканобработки.
Да, простой, универсальной и проработанной методики пока нет. Просто руки ещё не дошли :) - пока ещё боремся с более простыми задачами. Со временем и эта проблема будет, конечно же, решена (до разумной степени).

Цитировать
Вначале - хотел бы поблагодарить Вас за Вашу работу!
Спасибо на добром слове. :)
« Последнее редактирование: 16 °ТУгбв 2010, 09:28:42 от monday2000 »

TipaGraf

  • Новичок
  • *
  • Сообщений: 12
    • Просмотр профиля
To monday2000
Спасибо за оперативный ответ!
А то ж - август - все на море!   :)

Я Вам выслал на почту письмо к которому приаттачил образцы сканов в jpg.
Если можно, пожалуйста, выложите эти мои сканы сюда, чтобы другие тоже увидели, подключились бы к решению.

На Ru-Board эту проблему тоже описал.

Спасибо.

Жду помощи! Саму книгу почти отсканил.



monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
TipaGraf
Вот Ваш пример, который Вы мне прислали по электронной почте:
http://ifolder.ru/18918585  (370 КБ)
Цитирую описание из письма:
Цитировать
Выбрал самые явные примеры - характеризующие всю книгу.

Yoga68.jpg - вот, самая "жесть" для сканобработки :-). Имеем ВСЁ - и
текст на цветной фотке, ну и - самое трудное - ч/б текст на фоне
цветного узора, да еще цвет у узора бледный, но границы четкие.
И если надпись на фотографии встречается только в паре мест и, в
принципе, это не сложно отдежавьючить (в крайнем случае - нормально ж
получается, если фото+текст загоняются в ДЖВУ как фото, без
распознования текста).
То с текстом на фоне узора предвижу бОльшие затруднения.

Yoga58.jpg - тут видите, еще вот такой цветной блок есть, на котором и
фото и текст. Ну и узор на странице, опять же.

Yoga32.jpg - а это я приложил, чтобы показать, что там не один цвет
узоров, т.е. надо бы подобрать методу для сканобработки - универсальную для
всех цветов. Ведь бывает же - один цвет обрабатывается в программах
сканобработки на ура, а другой - ни в какую.
Ну и еще - тоже характерный момент: тут видите - узор бледный, и, к
тому же - у него не такие четкие края, как у узоров с предыдущих
примеров.

Вот такая книга.

Надеюсь на помощь. Сам пока только более-менее освоил сканобработку
книг с разделением текста и графики. Но тут случай иной.

Заранее спасибо.
Выбрал самые явные примеры - характеризующие всю книгу.

Yoga68.jpg - вот, самая "жесть" для сканобработки :-). Имеем ВСЁ - и
текст на цветной фотке, ну и - самое трудное - ч/б текст на фоне
цветного узора, да еще цвет у узора бледный, но границы четкие.
И если надпись на фотографии встречается только в паре мест и, в
принципе, это не сложно отдежавьючить (в крайнем случае - нормально ж
получается, если фото+текст загоняются в ДЖВУ как фото, без
распознования текста).
То с текстом на фоне узора предвижу бОльшие затруднения.

Yoga58.jpg - тут видите, еще вот такой цветной блок есть, на котором и
фото и текст. Ну и узор на странице, опять же.

Yoga32.jpg - а это я приложил, чтобы показать, что там не один цвет
узоров, т.е. надо бы подобрать методу для сканобработки - универсальную для
всех цветов. Ведь бывает же - один цвет обрабатывается в программах
сканобработки на ура, а другой - ни в какую.
Ну и еще - тоже характерный момент: тут видите - узор бледный, и, к
тому же - у него не такие четкие края, как у узоров с предыдущих
примеров.

Вот такая книга.

Надеюсь на помощь. Сам пока только более-менее освоил сканобработку
книг с разделением текста и графики. Но тут случай иной.

Заранее спасибо.
TipaGraf
Буду думать, что можно сделать.
« Последнее редактирование: 17 °ТУгбв 2010, 09:17:27 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
TipaGraf
Посмотрел я Ваши сканы.

Возникла такая идея, что все узоры следует отправить в фон. Даже если от этого их края несколько размоются. Дело в том, что эти узоры не несут никакой смысловой нагрузки (как текст), а они чисто декоративные - так что небольшое размытие (при попадании узоров в фон) им не особо повредит.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
TipaGraf
Вообще моя идея состоит в том, чтобы попытаться сделать из каждого Вашего скана пару "передний субскан - задний субскан". И потом без лишних проблем задежавючить эти пары субсканов по методу разделённых сканов.

Правда, пока не представляю - как бы это сделать. Такой готовой программы нет, которая могла бы сделать нужное разделение (другими словами, сегментацию).

Можно попробовать сделать так: сначала сделать передний субскан (полностью чёрно-белый) - это относительно несложно (удобно в Scan Tailor, но не обязательно именно там). Затем из исходного скана вычесть передний (набросать программку прийдётся) - получится заготовка заднего субскана. Правда, чёрт его знает, что в итоге получится. Вряд ли, конечно, таким способом можно сразу получить готовый задний субскан - он, очевидно, будет загажен мельчайшими кусочками из переднего субскана. Разве что попробовать его почистить?

Такие сканы, как Ваши, никто ещё не делал (в массовом порядке), так что некоей отработанной технологии пока нет. Её ещё нужно нащупать.

Здесь действительно нужно применить, пожалуй, подход http://www.djvu-soft.narod.ru/scan/corel_scan.htm (за авторством Arcand с Руборда). Думаю, он тут вполне может сработать.
Правда, это очень ИМХО мудрёный метод, пользоваться которым умеет только сам Arcand. ;D :P Так что его практическая ценность невелика.
« Последнее редактирование: 17 °ТУгбв 2010, 10:21:26 от monday2000 »

TipaGraf

  • Новичок
  • *
  • Сообщений: 12
    • Просмотр профиля
monday2000

Спасибо за заливку сканов на обменник!


Очень поверхностно :-) глянул  http://www.djvu-soft.narod.ru/scan/corel_scan.htm.
Как я понял – там же просто «обычная» обработка сканов (которая прекрасно выполняется без Корела), но только НУ ОЧЕНЬ НАВОРОЧЕННАЯ :-).  Эдакий Линукс, рядом с Окнами :-). Учитывая, что опыта работы с Корел у меня нет вообще …. В общем, чувствую – затянется обработка этой конкретной книги надолго. Что обидно – таких книг, как эта – вообще нет на горизонте для заскана. Но зато много обычных. Жалко тратить столько времени и усилий для обработки одной единственной книги. Это ж как…построить (в кредит) в городе водородную заправку для одной единственной машины :-).

Пока еще вообще не пробовал обрабатывать эти сканы.

Почитал Ваш пост.

Чисто прикинул – как бы это сделать.
Пока мне видится такой алгоритм (правда, очень утомительный и долгий, но… а что делать?) – обрабатываю  в Кромсаторе (или в ST) чисто текст, т.е. делаю сканы с ч/б текстом. Правда – ИМХО может быть мусор вокруг букв – от кусков узоров. Тут вся надежда на встроенного дворника :-).

Затем, делаю сканы чисто с графикой, при этом цветные узоры вместе с текстом, который на них, выделяю и помечаю как графический объект. Поэтому, ИМХО, лучше работать именно в Кромсаторе, т.к., в данном случае, полагаться на автоматизм выделения зон с графикой и текстом в ST – не есть хорошо. А надо сразу вручную всё самому размечать.  Ну а далее – чисто ручками в фотошопе или еще где-нить замазываю все буквы на узорах.

В итоге – получаем раздельные сканы, которые можно собирать.

Вот, как-то так.  Что посоветуете для упрощения?

Да, кстати, есть такой вопрос. В фотошопе иногда не получается корректно открыть тифф файл, который был обработан кромсатором. Пропорции просто ужас – лист становится очень узким. Вы случайно  не знаете – как это пофиксить? С фотошопой я, скорее, на Вы :-).




monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
TipaGraf
Вот я на скорую руку набросал консольную утилитку для вычитания чёрно-белого изображения из цветного (размеры изображений должны быть одинаковы):

http://www.djvu-soft.narod.ru/soft/subtract_images.rar (26 КБ)

Утилита нуждается в файле FreeImage.dll - я его не стал вкладывать (помня, что Вы у нас на модеме сидите). FreeImage.dll можно взять, к примеру, в одной из моих предыдущих программ.

Пользоваться так:

subtract_images <color_file> <bw_mask_file>
Вот пример того, что получилось:

http://www.onlinedisk.ru/file/497128/  (166 КБ)

Внутри - DjVu-файл и JPG-файл, иллюстрирующий работу subtract_images. Вот его кусочек для образца:

Конечно, получилось не очень. Зато это очень просто - не то, что метод Arcand. В дальнейшем можно попробовать обработать такие сканы (сгенерированный задний фон) шумодавом. Или ещё что-нибудь такое.

Могу сделать программку для пакетной обработки в духе subtract_images.
Цитировать
Пропорции просто ужас – лист становится очень узким. Вы случайно  не знаете – как это пофиксить?
Точно не помню, там какой-то пункт меню надо переключить. Это известная и популярная проблема.
« Последнее редактирование: 17 °ТУгбв 2010, 16:00:43 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Попробовал как вариант делать Erosion http://www.djvu-soft.narod.ru/bookscanlib/012.htm на маске - перед вычитанием её из исходного скана.

Качество получилось не очень - в готовом DjVu на синем фоне чёрные буквы имеют видимый белый кантик:

http://www.onlinedisk.ru/file/497175/

Вот как это выглядит:


Зато имеет место некоторая экономия размера DjVu. Без эрозии - 248 КБ, с ней - 144 КБ. Но это без использования ДЗФ в DjVu Imager. А на ДЗФ=4 размеры уже очень близки: 16,31 (с эрозией) и 16,96 КБ (без неё).

Видимо, дело в том, что скан размывается в процессе сжатия в DjVu - и потому при достаточно больших значениях ДЗФ ошмётки букв от вычитания картинок размываются в значительной степени.
« Последнее редактирование: 17 °ТУгбв 2010, 17:13:13 от monday2000 »

TipaGraf

  • Новичок
  • *
  • Сообщений: 12
    • Просмотр профиля
Извините, но скачать с http://www.djvu-soft.narod.ru/soft/subtract_images.rar не получается.
Пишет - 404 нет такой страницы.

Если можно, киньте на мыло utaa500 [at] mail.ru. Да, и неплохо бы еще короткий мануал к ней - типа в чем обрабатывать сканы? Это ж, как я понял - утилита, которая работает уже с обработанными в СК или СТ сканами? Или она прям для первой обработки сырых сканов? Просто - у меня инет - ужас какой - днем проблема вообще дозвониться и, если возникают по ходу работы вопросы - проблемно бывает спросить.

А вообще - спасибо за Вашу работу! Как видим - создание специального (и максимально универсального) инструментария для подобного типа сканов уже назрел. 

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
TipaGraf
Цитировать
Пишет - 404 нет такой страницы.
Залил заново и кинул на Вашу почту.
Цитировать
Да, и неплохо бы еще короткий мануал к ней - типа в чем обрабатывать сканы?
Это как бы пробная утилита. Пользоваться так
subtract_images <color_file> <bw_mask_file><color_file> - это цветной скан. <bw_mask_file> - это тот же цветной скан, но прошедший бинаризацию (и превращённый в чёрно-белый таким образом). Чёрно-белый скан тут выступает в роли маски - т.е. subtract_images для каждого чёрного пикселя из маски соответствующий ему пиксель цветного изображения (с теми же координатами) делает белым.

"Пробная" потому, что обрабатывает за один присест только один скан. Если концепция subtract_images окажется нужной - то я могу сделать соответствующую пакетную утилиту. Хотя, понятно, что такой подход является жутко примитивным и мне он самому не нравится - просто пока нет ничего лучше.
Цитировать
днем проблема вообще дозвониться
А услуги ADSL в Вашем городе не предлагаются?
« Последнее редактирование: 18 °ТУгбв 2010, 10:01:59 от monday2000 »

TipaGraf

  • Новичок
  • *
  • Сообщений: 12
    • Просмотр профиля
To monday2000

Извините, что долго не отвечал. Я Вам мыло отправил. Вот, не знаю - можно ли эту ссылку на книгу из мыла на этот форум выложить?

Спасибо за Вашу помощь! Буду (думаю - не я один) ждать доводки Вашего инструментария для удобной пакетной обработки сабжевых сканов.

Цитировать
А услуги ADSL в Вашем городе не предлагаются?
Ну.. предлагается. Только не анлим. 2 гига (на 512кбит) - стоит где-то около 100 баксов.
Пока - ставить себе домой по такой цене...хмм....не интересно :-).
Правда, есть еще и 3G инет - подешевле, но - тоже лимитный.
А что Вы хотите - у нас в Туркмении всего один провайдер. Государственный...


monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
TipaGraf
Цитировать
Вот, не знаю - можно ли эту ссылку на книгу из мыла на этот форум выложить?
Да ради бога - любые мои ссылки используйте как хотите. ;)
Цитировать
Буду (думаю - не я один) ждать доводки Вашего инструментария для удобной пакетной обработки сабжевых сканов.
Хорошо, как-нибудь сделаю пакетную программу для вычитания сканов.
Цитировать
А что Вы хотите - у нас в Туркмении всего один провайдер. Государственный...
Сочувствую. У меня в Ростове-на-Дону 1-1,5 мегабит анлим стоит 500-700 руб. в месяц примерно. Самый дешёвый вариант - 230 руб в месяц 64 кбит анлим.


veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
audiobookkeeper.rucottagenet.rueyesvision.rueyesvisions.comkinozones.rulaserlens.rumedinfobooks.rump3lists.ruspicetrade.ruspysale.rustungun.rulargeheart.ru
lasercalibration.rulaserpulse.rulaterevent.rulatrinesergeant.rulayabout.ruleadcoating.ruleadingfirm.rulearningcurve.ruleaveword.rumachinesensible.rumagneticequator.rumagnetotelluricfield.ru
mailinghouse.rumajorconcern.rumammasdarling.rumanagerialstaff.rumanipulatinghand.rumanualchoke.runameresolution.runaphtheneseries.runarrowmouthed.runationalcensus.runaturalfunctor.runavelseed.ru
neatplaster.runecroticcaries.runegativefibration.runeighbouringrights.ruobjectmodule.ruobservationballoon.ruobstructivepatent.ruoceanmining.ruoctupolephonon.ruofflinesystem.ruoffsetholder.ruolibanumresinoid.ru
onesticket.rupackedspheres.rupagingterminal.rupalatinebones.rupalmberry.rupapercoating.ruparaconvexgroup.ruparasolmonoplane.ruparkingbrake.rupartfamily.rupartialmajorant.ruquadrupleworm.ru
qualitybooster.ruquasimoney.ruquenchedspark.ruquodrecuperet.rurabbetledge.ruradialchaser.ruradiationestimator.rurailwaybridge.rurandomcoloration.rurapidgrowth.rurattlesnakemaster.rureachthroughregion.ru
readingmagnifier.rurearchain.rurecessioncone.rurecordedassignment.rurectifiersubstation.ruredemptionvalue.rureducingflange.rureferenceantigen.ruregeneratedprotein.rureinvestmentplan.rusafedrilling.rusagprofile.ru
salestypelease.rusamplinginterval.rusatellitehydrology.ruscarcecommodity.ruscrapermat.ruscrewingunit.ruseawaterpump.rusecondaryblock.rusecularclergy.ruseismicefficiency.ruselectivediffuser.rusemiasphalticflux.ru
semifinishmachining.rutacticaldiameter.rutailstockcenter.rutamecurve.rutapecorrection.rutappingchuck.rutaskreasoning.rutechnicalgrade.rutelangiectaticlipoma.rutelescopicdamper.rutemperateclimate.rutemperedmeasure.ru
tenementbuilding.ruultramaficrock.ruultraviolettesting.rujobstress.rujogformation.rujointcapsule.rujointsealingmaterial.rujournallubricator.rujuicecatcher.rujunctionofchannels.rujusticiablehomicide.rujuxtapositiontwin.ru
kaposidisease.rukeepagoodoffing.rukeepsmthinhand.rukentishglory.rukerbweight.rukerrrotation.rukeymanassurance.rukeyserum.rukickplate.rukillthefattedcalf.rukilowattsecond.rukingweakfish.ru
kleinbottle.rukneejoint.ruknifesethouse.ruknockonatom.ruknowledgestate.rukondoferromagnet.rulabeledgraph.rulaborracket.rulabourearnings.rulabourleasing.rulaburnumtree.rulacingcourse.ru
lacrimalpoint.rulactogenicfactor.rulacunarycoefficient.ruladletreatediron.rulaggingload.rulaissezaller.rulambdatransition.rulaminatedmaterial.rulammasshoot.rulamphouse.rulancecorporal.rulancingdie.ru
landingdoor.rulandmarksensor.rulandreform.rulanduseratio.rulanguagelaboratory.rufactoringfee.rufilmzones.rugadwall.rugaffertape.rugageboard.rugagrule.rugallduct.ru
galvanometric.rugangforeman.rugangwayplatform.rugarbagechute.rugardeningleave.rugascautery.rugashbucket.rugasreturn.rugatedsweep.rugaugemodel.rugaussianfilter.rugearpitchdiameter.ru
geartreating.rugeneralizedanalysis.rugeneralprovisions.rugeophysicalprobe.rugeriatricnurse.rugetintoaflap.rugetthebounce.ruhabeascorpus.ruhabituate.ruhackedbolt.ruhackworker.ruhadronicannihilation.ru
haemagglutinin.ruhailsquall.ruhairysphere.ruhalforderfringe.ruhalfsiblings.ruhallofresidence.ruhaltstate.ruhandcoding.ruhandportedhead.ruhandradar.ruhandsfreetelephone.ruhangonpart.ru
haphazardwinding.ruhardalloyteeth.ruhardasiron.ruhardenedconcrete.ruharmonicinteraction.ruhartlaubgoose.ruhatchholddown.ruhaveafinetime.ruhazardousatmosphere.ruheadregulator.ruheartofgold.ruheatageingresistance.ru
heatinggas.ruheavydutymetalcutting.rujacketedwall.rujapanesecedar.rujibtypecrane.rujobabandonment.ru