Автор Тема: тонкие перекресные черточни у букв "и" и "н"  (Прочитано 3009 раз)

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
У меня, почему-то после обработки СК стали пропадать тонкие перекресные черточни у букв "и" и "н". Раньше делал, все было ОК. Все установки беру из ScanAndShare1.07 .  Увеличение контраста увеличивает толшину букв, но вот черточки как были невидны, так и остались.

Раньше такого не замечал.

Уже не знаю на что грешить: на сканер, на опции сканирования или на опции СК.

Вот примеры http://ifolder.ru/23084700

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #1 : 20 °ЯаХЫм 2011, 17:20:09 »
sergiokapone
Попробуйте Scan Tailor.

А вообще причин такой проблемы может быть, скорее всего, 2:

- некорректный порог бинаризации
- слишком агрессивное действие Despeckle.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #2 : 20 °ЯаХЫм 2011, 21:49:15 »
По моему опыту, может помочь только порог бинраризации smoth (так, вроде), но потом обычно требуется ручная чистка сканов. Но вообще это беда(с таким браком почти все "хорошие" книги в интернете).
ST этим грешит ничуть не меньше.

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #3 : 20 °ЯаХЫм 2011, 22:13:57 »
Причина такой проблемы одна - некачественный скан (под некачественностью подразумеваю и качество бумаги и полиграфии). Там, где перекладина в И и Н исчезла - там она и на сером скане почти не была заметна из шумов.

buga

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #4 : 20 °ЯаХЫм 2011, 22:25:05 »
Причина тут одна - образчик отвратной советской типографии. При большом увеличении можете убедиться, что на самом деле представляют собой перемычки букв. Плюс ко всему, вокруг букв еще один типогр. брак - то ли тени, то ли двоения букв. Причем цвет этих теней очень близок к цвету перемычек. Убирая одно, убирается и другое. Поэтому красивого качества из такого исходника не получишь.
Более-менее приемлимый результат получится при таких настройках:
Quality: smooth=1, blur=sharpen=3,
illumination=soft, adjust histogram=вкл.
contrast: auto-levels=вкл.
остальные параметры gray enhance отключены.
binarization threshold = auto, или left=155, right=150
options: despeckle method=safe50
Должно получиться что-то вроде этого: http://www.onlinedisk.ru/file/649727/. Это без ручной чистки.
В СТ получится примерно такой же результат.
Скажите, книга небось напечатана в издательстве "Наука"?  ;D
« Последнее редактирование: 20 °ЯаХЫм 2011, 22:31:57 от buga »

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #5 : 21 °ЯаХЫм 2011, 19:31:21 »
Скажите, книга небось напечатана в издательстве "Наука"?  ;D

Книга издательства "Знание". Качество печати и правда не очень...
Я уже книгу перегнал в djvu
http://free-books.dontexist.com/book/index.php?md5=53f7582d2c35f8e3489f6f2f0086ac4d

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #6 : 21 °ЯаХЫм 2011, 22:58:35 »
Скажите, книга небось напечатана в издательстве "Наука"?  ;D

Книга издательства "Знание". Качество печати и правда не очень...
Я уже книгу перегнал в djvu
http://free-books.dontexist.com/book/index.php?md5=53f7582d2c35f8e3489f6f2f0086ac4d

Клас! Особенно название порадовало — "Физика наших дней". 1977 года выпуска

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #7 : 22 °ЯаХЫм 2011, 00:42:09 »
Клас! Особенно название порадовало — "Физика наших дней". 1977 года выпуска

Что тут удивительно? Физика ихних дней, не Ваших.

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #8 : 22 °ЯаХЫм 2011, 01:39:03 »
Клас! Особенно название порадовало — "Физика наших дней". 1977 года выпуска

Что тут удивительно? Физика ихних дней, не Ваших.

Об чём и речь!
А вообще, согласитесь Вы или нет, но по старым учебникам и дополнительным материалам как-то ... кх-х ... легче было учиться. Во всяком случае мне. Недавно мне знакомая, историк в школе, про новые учебники рассказывала ... слов нет ...
Простите за оффтоп.

sergiokapone

  • Постоялец
  • ***
  • Сообщений: 103
    • Просмотр профиля
Re: тонкие перекресные черточни у букв "и" и "н"
« Ответ #9 : 08 ЅЮпСам 2011, 10:04:13 »
Подниму свою старую тему, так как нашел решение проблемы в SK.

У меня, почему-то после обработки СК стали пропадать тонкие перекресные черточни у букв "и" и "н". Раньше делал, все было ОК. Все установки беру из ScanAndShare1.07 .  Увеличение контраста увеличивает толщину букв, но вот черточки как были невидны, так и остались.

Для того, чтобы не пропадали детали букв на плохих сканах, нужно использовать в SK despeckle-метод Safe. После этого открытия уже нашел сию рекомендацию и в советах bolega
Цитата: bolega
24. По поводу Despeckle.
Во-первых, в Кромсаторе заложен алгоритм (fine despeckle), при котором он в процессе чистки распознает буквы i и j (часто используемые в индексах формул) и не позволяет "зачищать" ихние точки. Для этого используется упрощённый OCR, при помощи которого эти точечки распознаются и despeckl-ом не трогаются (иначе нельзя, т.к. размеры таких точечек чаще всего меньше предельно допустимых).  Главное, что мне удалось совместить одновременное выполнение этих двух операций (OCR и despeckle), и с очень высокой скоростью. На это ушло 2 месяца мучений.

Во-вторых, имеется специальный safe-метод despeckle, суть которого в следующем: сначала на странице выделяются все символы, строится спец.хэш из их контуров, и в процессе despeckle чистятся только те точки, которые не принадлежат контурам букв. Метод не идеальный, но буквы страдают гораздо меньше.
Не идеальный, потому что чересчур сильно разрозненные части букв могут и не слиться в один контур. Здесь тоже есть над чем подумать. (Хотя такие случаи я уже обрабатываю в draft, там ведь тоже теперь проводится полный layout-анализ страницы: выделение букв, строк текста, иллюстраций и т.д., вероятностный анализ буква-мусор и т.д.).

Главное в нашем деле, чтобы было из чего выбирать. Имею ввиду ПО. Тогда и книг будет больше сделано.
Всем удачи.

25. Если скан неважный (буквы с сильными разрывами), и despeckle заметно портит их, на закладке Options выберите режим despeckle = safe. В этом случае в процессе обработки области, занимаемые буквами, чиститься не будут. Как альтернатива, можно на закладке Pages нажать кнопку Special и там "смягчить" степень деспеклирования (fine-2, fine-3 и т.д.)

И ещё: НЕ Применяйте despeckle для сканов плохого качества, когда буквы рваные и бледные. Либо задайте для всех страниц despeckle=[fine-3].

Кстати: despeckle он и есть despeckle. По определению убирает изолированные точки заданного размера. И если линия превратилась в набор точек, то это уже не линия. Это на экране при уменьшенном масштабе и фильтре она глазом воспринимается как линия, а с точки зрения pixels это уже не так.

При despeckle при каком виде despeckle? удаляются ещё и ряд спеклов, больших чем заданный предел. При этом анализируется соотношение площади чёрных точек к площади спекла и его ориентация. Методика чисто эвристическая и подбиралась экспериментально.

Fine despeckle действительно чистит капитально (в пределах заданного допуска). Для бледных сканов лучше, конечно, не использовать.

В ST, по-умолчанию, наверное используются подобные алгоритмы.
« Последнее редактирование: 08 ЅЮпСам 2011, 10:14:03 от sergiokapone »