Автор Тема: Сканирование книг: общие вопросы  (Прочитано 21914 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #30 : 31 ѕЪвпСам 2010, 08:19:50 »
SorokaSV
Цитировать
и (пока) SK совершенно незаменим!
То есть, Вы пользуетесь СканКромсатором?

Давайте, кстати, обсудим - каковы преимущества СК перед СТ.

Из объективных я могу назвать возможность выбора произвольного порога бинаризации - тогда как в СТ диапазон возможных значений порога узковат даже сейчас.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #31 : 31 ѕЪвпСам 2010, 13:06:06 »
Давайте, кстати, обсудим - каковы преимущества СК перед СТ.

Из объективных я могу назвать возможность выбора произвольного порога бинаризации - тогда как в СТ диапазон возможных значений порога узковат даже сейчас.
Да, это пожалуй главное. Но не единственное. Правда, может быть опять только для меня.
ST, ИМХО, предполагает: мы сами как-то очень хорошо отсканировали книгу. А я не то что не сканирую (несколько есть, есть и планы, но они пока не могут осуществиться - в сутках 24 часа, да и нет хорошего деварпинга  :o), но в основном перерабатываю никудышные djvu (если повезёт, pdf), причём для чтения на E-ink (контраст 6:1, разрешение 600 на 800, 92мм на 123 мм). И здесь совершенно незаменим порог Smoth с улучшайзерами (smoth, blur, sharp). Часто и ручная установка порога творит чудеса.
Очень полезной оказалась опция размер none по ширине с полями 15 px - выбирается разброс по dpi в разных сканах.
Ну и конечно постобработка (редко удавалось обходиться без неё).
Автоматическое выделение зон в ST мне показалось несколько обманным. Мне кажется, он не понимает, что на одной странице может быть несколько несвязных зон. Но режим вычитания зон конечно полезен (в SK ничего похожего не нащёл), и выделение зон в ST удобнее.
 
« Последнее редактирование: 31 ѕЪвпСам 2010, 13:10:30 от SorokaSV »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #32 : 31 ѕЪвпСам 2010, 20:09:53 »
SorokaSV
Цитировать
И здесь совершенно незаменим порог Smoth с улучшайзерами (smoth, blur, sharp)
Ну, от Тулона такое требовать - перебор. :) Для этого есть уйма программ - всяких там шароварных.
Цитировать
но в основном перерабатываю никудышные djvu (если повезёт, pdf), причём для чтения на E-ink
А если просто распознавать в FineReader - для E-ink?
Цитировать
Автоматическое выделение зон в ST мне показалось несколько обманным. Мне кажется, он не понимает, что на одной странице может быть несколько несвязных зон.
Этот алгоритм детектирует растровое зерно иллюстраций - такое я читал объяснение. Автором этого алгоритма является U235 с Руборда, а вот и оригинал алгоритма на Матлабе на сайте U235: http://www.alexrey036.narod.ru/graylayers.html .
Цитировать
Но режим вычитания зон конечно полезен (в SK ничего похожего не нащёл)
Если бы bolega очень захотел - то добавил бы это в СК. Только он уже вообще практически ушёл на покой. :(

Вот что мне принципиально не нравится в СК - так это закрытость исходников. Тут я bolega никогда не понимал. Ну чего бы, спрашивается, не открыть бы исходники? Хотя, конечно, просто открыть исходники было бы мало (тем более СК написан на Делфи) - надо бы ещё и объяснить ключевые моменты их работы.

Да и хелп bolega так никогда и не написал к СК - всё обещал-обещал - а так и не сделал.  :-\ А ведь это несложно - ну возьми и за 1-2 вечера накидай текстовый файлик с перечислением всех фич.

В результате нет ни одного человека, кто знал бы полностью СК. :D

Хотя, как мне кажется, между нежеланием открыть исходники и не-написанием хелпа к СК есть определённая связь. И имя всему этому - СКРЫТНОСТЬ (bolega как человека). Скрытность, переходящая все пределы разумного и целесообразного, губительная для дела, противоречащая здравому смыслу.

Чего bolega было бояться, открой он исходники? Что кто-то сделает клон СК - а его оттеснит на обочину? Ну вот перед глазами СТ - сильно кто стал делать его клоны и оттеснять этим Тулона на обочину? ;D

А зато как бы мы все выиграли, проводи bolega политику полной открытости! :'( Как бы это самым благотворным образом сказалось бы на количестве и качестве доступных в Сети DjVu-книг...  ???

Да и СК - это нелегальная программа ко всему прочему. И непонятно - так ли уж это было оправданно? Если, к примеру, многие DjVu-программы тоже нелегальны - так там просто некуда деться иначе - а вот тот же СТ смог же быть полностью легальным.

Именно по этим фундаментальным причинам я всегда был не-сторонником СК.
« Последнее редактирование: 31 ѕЪвпСам 2010, 20:27:45 от monday2000 »

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #33 : 31 ѕЪвпСам 2010, 22:01:55 »


А если просто распознавать в FineReader - для E-ink?
А при чём тут E-ink? Зачем мы все вообще занимаемся djvu? Ведь всё равно, в конце концов, всё распознается. А просто соотношение результат к затратам максимально в настоящее время, мне кажется, как раз для djvu, в том числе и для меня (надо ещё fb2-строение и epub-строение осваивать?).
Об остальном: вы рассуждаете как программист. Я внутреннего строения не знаю. Я даже ни от кого ничего не требую - есть ST, есть SK - и я ими работаю, пытаясь использовать сильные стороны. Нет руководства? Так вообще, ИМХО, ни для чего их нет (например, руководство к моему ридеру ничего, кроме смеха, вызвать не может).
Иногда другие люди (не авторы программ), пишут про них хорошие книги и статьи - как и у нас с SK.

А может Вы и правы: надо вообще бросить djvu и делать fb2 книги - совершенно независимо от E-ink.
« Последнее редактирование: 31 ѕЪвпСам 2010, 22:32:52 от SorokaSV »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #34 : 01 ЅЮпСам 2010, 09:32:40 »
SorokaSV
Цитировать
А при чём тут E-ink? Зачем мы все вообще занимаемся djvu?
Это я как вариант назвал. Дело в том, что современный E-Ink имеет специфическую особенность - слишком малый экранчик. Поэтому любой растровый формат - будь то DjVu, или растровый PDF - будут ИМХО слишком мельчить буквы там.

Правда, я сам в руках E-Ink не держал, и могу только гадать - как там на самом деле.

Вы же говорите о погано сделанных DjVu - и я именно такие предположил распознавать. Качественные DjVu ИМХО даже на E-Ink будут пристойно выглядеть - и их не потребуется распознавать.
Цитировать
А просто соотношение результат к затратам максимально в настоящее время, мне кажется, как раз для djvu
Да Вы что! :) Может, производство гигантских PDF с серыми сканами внутри на 150 dpi и проще (но не лучше уж точно), а вот OCR-ние по сравнению с DjVu - это просто ад. Это уж я не раз на своей шкуре проверил не раз и убедился самым наглядным образом. :D
Цитировать
надо ещё fb2-строение и epub-строение осваивать?
Нет, не надо. Достаточно распознать в вордовский DOC-файл и всё. А далее он уже автоматом конвертируется в fb2. Ну или же кто-то за Вас сможет без проблем перегнать Doc в Fb2.
Цитировать
Так вообще, ИМХО, ни для чего их нет (например, руководство к моему ридеру ничего, кроме смеха, вызвать не может).
Но вспомните инструкции к стиральной машине или к телевизору. Там по крайней мере про каждую кнопку хотя бы сказано, для чего она. А у СК нет даже этого голого минимума. :D
Цитировать
А может Вы и правы: надо вообще бросить djvu и делать fb2 книги - совершенно независимо от E-ink.
Это НЕРЕАЛЬНО. Если бы это было возможно - все давно бы так делали. Кстати - распознавать поганые DjVu для E-Ink я предлагаю через пень-колоду - только чтобы кое-как можно было на E-Ink прочитать - и всё, то есть не делать полноценный OCR с вычиткой.

Как вариант, возможно нечто среднее между OCR и DjVu - а именно, ClearScan. И то - только для поганых уже существующих DjVu.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #35 : 01 ЅЮпСам 2010, 17:52:26 »
SorokaSV

Дело в том, что современный E-Ink имеет специфическую особенность - слишком малый экранчик. Поэтому любой растровый формат - будь то DjVu, или растровый PDF - будут ИМХО слишком мельчить буквы там.

Правда, я сам в руках E-Ink не держал, и могу только гадать - как там на самом деле.

Вы же говорите о погано сделанных DjVu - и я именно такие предположил распознавать. Качественные DjVu ИМХО даже на E-Ink будут пристойно выглядеть - и их не потребуется распознавать.


Достаточно распознать в вордовский DOC-файл и всё. А далее он уже автоматом конвертируется в fb2. Ну или же кто-то за Вас сможет без проблем перегнать Doc в Fb2.

Это НЕРЕАЛЬНО. Если бы это было возможно - все давно бы так делали. Кстати - распознавать поганые DjVu для E-Ink я предлагаю через пень-колоду - только чтобы кое-как можно было на E-Ink прочитать - и всё, то есть не делать полноценный OCR с вычиткой.


Вот и я думаю, гораздо проще сделать приличный djvu чтобы как-то прочитать. Некоторые не стыдно было бы и выложить - но может дождусь деварпинга?
И читать его (djvu) будет проще и удобнее, чем кое как распознанный doc (который вообще поддерживается через пень колоду - основной формат fb2).
Выглядит очень прилично, если буквы чёрненькие и жирненькие (smoth, smoth, blur, sharp foreva!). Даже если буквы маленькие, а при повороте в ландшафтный режим ещё нормальнее (по размеру, не по красоте). Даже поиск по OCR слою работает.


monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #36 : 01 ЅЮпСам 2010, 18:00:28 »
SorokaSV
Цитировать
Вот и я думаю, гораздо проще сделать приличный djvu чтобы как-то прочитать.
В смысле переделать чужой некачественный DjVu в свой более-менее пристойный-читабельный? Да, наверное, так и есть. Но просто бывают настолько плохие по качеству чужие DjVu - что, быть может, они будут на E-Ink совсем жутко смотреться - и может быть, их нужно перевести в OCR. Я говорю "может быть", потому что я не представляю себе воочию, как DjVu смотрится на E-Ink - за неимением такового. :) Это чисто моё предположение (насчёт OCR для E-Ink). ;)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #37 : 16 ЅЮпСам 2010, 20:23:22 »
Полезная ссылка:

Создание Djvu документов в Linux от А до Я

http://debiania.blogspot.com/2010/06/djvu-linux.html

vol_and

  • Новичок
  • *
  • Сообщений: 7
    • Просмотр профиля
Re: Сканирование книг: общие вопросы
« Ответ #38 : 23 ЅЮпСам 2010, 15:39:21 »
Здравствуйте, помогите новичку.
При просмотре этой книги с помощью программы STDU Viewer, предпоследняя страница примерно в три раза шире остальных, соответственно остальные на экране смотрятся мелкими.
Решил с помощью DjVu Small декодировать книгу, затем подогнать ширину предпоследней страницы, убрать последнею и одну 586 (их две) страницу. После декодирования обнаружил, что ширина всех страниц примерно одинаковая, убрал одну 586 и последнею страницу и закодировал по-новой. Результат такой начиная с 741, все страницы получились примерно в три раза шире остальных и размер файла стал больше. Подскажите, что делаю не так, настройки все по умолчанию, может настройки нужно поменять?
« Последнее редактирование: 23 ЅЮпСам 2010, 17:19:38 от vol_and »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #39 : 23 ЅЮпСам 2010, 18:23:51 »
vol_and
ИМХО самое правильное - используйте WinDjView вместо STDU Viewer - если задача состоит только в удобном прочтении книги.

Если же надо, допустим, распечатать эту книгу - попробуйте переобработать декодированные из неё сканы в Scan Tailor (с целью унифицировать размеры страниц), и затем собрать обратно в DjVu.

DjVu Small к этой проблеме не имеет никакого отношения. Это просто неправильно сделанная книга - с разнобойными страницами (наверное, с umup.narod.ru, не иначе :) ).

vol_and

  • Новичок
  • *
  • Сообщений: 7
    • Просмотр профиля
Re: Сканирование книг: общие вопросы
« Ответ #40 : 24 ЅЮпСам 2010, 14:04:02 »
Спасибо за помощь.
Проверил декодированные из книги сканы в Scan Tailor, оказалось у двух последних DPI=100. Последнею страницу удалил, предпоследнею по ошибке сделал DPI=600 (ширину подогнал под остальные), после сборки в DJVU, страницы с 741 до последней стали в два раза уже остальных, а при DPI=100 были в три раза шире.
Вопрос, почему из-за одного скана (последнего) с другим DPI, 740 страниц собираются нормально, а с 741 до конца книги ширина страниц становится другая, хотя ширина у всех сканов примерно одинаковая? Если логически мыслить, то после сборки книги, размером должна отличаться только последняя страница, а она за собой тянет ещё несколько страниц.

P.S. При DPI=300 книга  собралась хорошо. 

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #41 : 24 ЅЮпСам 2010, 15:05:42 »
Цитировать
Вопрос, почему из-за одного скана (последнего) с другим DPI, 740 страниц собираются нормально, а с 741 до конца книги ширина страниц становится другая, хотя ширина у всех сканов примерно одинаковая?
Где, в WinDjView? Трудно сказать.

Вообще нужно добиться одинаковых размеров и DPI - тогда не нужно будет ломать голову, почему те или иные страницы выбиваются из общей массы.

Такая унификация достигается путём ресемплирования. Читайте http://www.djvu-soft.narod.ru/scan/resampling.htm . В зависимости от степени разнобойности сканов - вплоть до индивидуального корректирующего ресемплирования каждого скана. Если не сильно разнобойные - то оптом ресемплировать. Как именно ресемплировать - это надо рассчитывать. Обычно рассчитывается корректирующее DPI и записывается в файл, а потом все сканы ресемплируются.

vol_and

  • Новичок
  • *
  • Сообщений: 7
    • Просмотр профиля
Re: Сканирование книг: общие вопросы
« Ответ #42 : 24 ЅЮпСам 2010, 15:26:09 »
Спасибо, будем изучать  :)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #43 : 24 ґХЪРСам 2010, 17:57:42 »
О важности Deskew:

Сейчас я переделал одну книгу в СТ. Переделку затеял ради Deskew. И поля ещё расширил заметно (потому что в СТ поля по умолчанию оказались пошире, чем в исходной книге).

Так вот, после переделки размер DjVu упал почти на 30%! :o

Вот, оказывается, как важно делать Deskew. Мало того, что книгу без Deskew крайне неприятно читать - так она ещё и по размеру гораздо больше. Понятно, почему - за счёт распухания словаря разделённых символов.

И даже добавление полей не ухудшило фактор снижения размера DjVu (наверное :) ).

Исходная книга была в отличном качестве и на 600 dpi - но без Deskew.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Сканирование книг: общие вопросы
« Ответ #44 : 25 ґХЪРСам 2010, 12:03:48 »
Использовать Finereader 8 Portable для декодирования PDF в TIF нельзя. Только что попался один довольно простой растровый (!) PDF-файл - который был частично декодирован в пустые страницы.

PS PDF-XChange Viewer гораздо быстрее декодирует PDF в TIF, нежели чем Finereader 8 Portable, и безошибочнее (ошибок пока не заметил).
« Последнее редактирование: 25 ґХЪРСам 2010, 13:43:06 от monday2000 »