Автор Тема: Программа ST Split  (Прочитано 15726 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Программа ST Split
« : 29 °ЯаХЫм 2010, 17:51:22 »
Представляю свою новую программу:

ST Split v1.0

Скачать:

http://www.djvu-soft.narod.ru/soft/st_split_v1_0.rar  (656 КБ)

Исходники:

http://www.djvu-soft.narod.ru/soft/st_split_v1_0_src.rar  (45 КБ)

Программа является аналогом "Сепаратор" от 57an и аналогом LayerTailor от U235.

ST Split - это программа, предназначенная для сопряжения программы Scan Tailor со связкой программ DjVu Imager и DjVu Small.

Благодаря этому, ST Split даёт возможность кодировать продукцию Scan Tailor в DjVu по методу разделённых сканов (c DjVu Imager).

ST Split имеет лицензию "GPL 2 и выше" и полностью открытые исходные коды.

Программа работает как под Win98, так и под Win2000/XP.

ST Split использует бесплатную программную графическую библиотеку FreeImage (под лицензией GPL).

Основная схема работы:
Цитировать
Scan Tailor v0.9.8  -> ST Split v1.0 -> DjVu Small v0.4.3  -> DjVu Imager v2.8

Возможности:

1. Разделение продукции Scan Tailor, полученной в режиме "Смешанный", на пары субсканов (передний субскан + задний субскан). Программа осуществляет это разбиение, базируясь на СТ-принципе резервирования цветов (чисто белый и чисто чёрный цвета имеют номера цветов 255 и 0 соответственно, а все остальные цвета находятся в диапазоне 1..254).

2. Дополнительно, при использовании продукции Scan Tailor, полученной в режиме "Цветной/Серый", генерация передних субсканов в режиме цветности исходных сканов (серый или цветной). Это необходимо для того, чтобы можно было cделать (при необходимости) выравнивание освещённости передних субсканов в программе Book Restorer v4.2.1.

3. Пакетная дерастеризация любых серых или цветных изображений (например, полученных в п.1 задних субсканов).

В текущей версии ST Split применяются (на выбор) 2 алгоритма дерастеризации:

- Гауссово размытие

- Выборочное гауссово размытие (пытается сохранить чёткость чёткоконтурных объектов, размывая только мягкоконтурные объекты).

Оба эти алгоритма позаимствованы из графической программы GIMP.

ВАЖНО: Будьте готовы к тому, что оба этих алгоритма работают крайне медленно. Особенно это касается выборочного гауссового размытия. Рекомендуемое значение радиуса - от 3 до 5-7.

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #1 : 30 °ЯаХЫм 2010, 05:49:56 »
Было бы классно, если бы не только алгоритмы, но и логику предпросмотра в окошке из Гимпа вставили... Вслепую подбирать радиус крайне опасно.
Чем не понравился наш с U235 вариант именования папок?
Опять начали с английского интерфейса. Потом снова придется уродовать русские слова сокращениями...



monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #2 : 30 °ЯаХЫм 2010, 09:34:28 »
57an
Цитировать
Чем не понравился наш с U235 вариант именования папок?
Вы знаете - я Вашу программу вообще ни разу не открывал :P, а как работает программа от U235 - уже не помню - разик как-то глянул, и всё.  ::)
Вы имеете в виду имена "1" и "2"? Такие имена мне показались наиболее простыми - с точки зрения понимания юзером.
Цитировать
Опять начали с английского интерфейса.
А я всегда с него начинаю. Потому что вдруг интерфейс как-то ещё перекроится. Русский добавлю позже.
Цитировать
Потом снова придется уродовать русские слова сокращениями...
А что же делать? Иного приемлемого выхода не вижу.
Цитировать
Было бы классно, если бы не только алгоритмы, но и логику предпросмотра в окошке из Гимпа вставили...
Да-да, я тоже сам об этом вчера подумал - нужен инструмент визуального подбора радиуса. Думаю прикрутить как минимум кнопку вроде "Тест" - нажимаешь её, и самый первый файл в списке загруженных кодируется выбранным алгоритмом, а потом открывается графическим просмотрщиком, ассоциированным с TIF - чтобы можно было посмотреть качество.

Кстати, программа планируется так, чтобы всегда выдавать файлы с расширением "tif" (а не tiff), и приводить всякие экзотические TIF-вариации (типа 32-битного) на выходе к стандартному виду (8 бит - серое, 24 бит - цветное, оба вида в LZW).

Конечно, окошко динамического визуального подбора размытия (как в Фотошопе) было бы ещё круче - но это сложновато - т.к. по-моему, требует, как это называет Tulon, "потокобезопасный" вариант алгоритма. Делать такое - изрядная возня.

Естественно, программа ещё может измениться любым образом в сторону улучшения. Это пока что как бы экспериментальный вариант.

Несмотря на мои усилия, программа получилась какая-то сложноватая. Куча каких-то полей ввода путей к папкам... :) Но я в этом не виноват - а виноват Tulon. Это ему по уму следовало бы встроить функционал моей программы в Scan Tailor (кроме дерастеризации).

К тому же я хотел бы, чтобы программу можно было ещё использовать не только как инструмент для метода разделённых сканов - а ещё и просто как средство пакетного размытия любых не-чёрно-белых сканов - мало ли когда возникнет такая нужда. Неудобно юзать GIMP только для этого - всё-таки проще запустить такую простую программу, и поразмывать ею.

Дальнейшие планы:
- Сделать так, чтобы на выходе всегда выводились имена файлов в виде 0001.tif, 0002.tif, ..., 0010.tif, ...., 0100.tif.
- Сделать опцию вроде "левый базис имён" и "правый базис имён" (выбор по желанию пользователя) - в смысле, из имён СТ чтобы делать 0002.tif, ..., 0010.tif, ...., 0100.tif, беря то ли левую, то ли правую часть СТ-имён за основу.
- Когда-нибудь, в далёком будущем :), попытаюсь вставить размытие от G'MIC http://gmic.sourceforge.net/ и Wavelet denoise - плагин для GIMP http://registry.gimp.org/node/4235 .

Если кто-нибудь знает хороший алгоритм дерастеризации (подавления шума - denoise) с открытыми исходными кодами - прошу мне подсказать, я его попытаюсь добавить в программу. Использовать же коммерческие шумодавы в принципе не хотелось бы - поскольку они коммерческие. Каждая нелегальная программа, используемая в DjVu-книгосканировании (вроде СканКромсатора ;D ), загоняет нас в "тень" - а это крайне нежелательно.

В данной версии использованы алгоритмы:

Фильтр Гаусса http://www.djvu-soft.narod.ru/bookscanlib/013.htm
Выборочное гауссово размывание http://www.djvu-soft.narod.ru/bookscanlib/014.htm

Это мой первый опыт практического применения продукции моего проекта BookScanLib http://www.djvu-soft.narod.ru/bookscanlib/project.htm .

PS Может, нужно как-то ещё улучшить данную программу? Предлагайте идеи.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #3 : 07 јРЩ 2010, 18:03:32 »
Пробую применить ST Split v1.0 практически.

Уже наметились кое-какие замечания (самому к себе :) ).

- Очевидно, что Гауссово размытие практически бесполезно для серых иллюстраций компьютерных скриншотов. Особенно таких, где имеется текст, который должен быть различим. Выборочное гауссово размытие - слишком уж долго, я его на практике пока не применяю.

Нужно, конечно, не просто размытие - а какое-то интеллектуальное размытие. Если вообще нужно.

Кстати, эффект снижения размера результирующего DjVu после применения Гауссового размытия оказался ниже :), чем использование опций ДЗФ и "качество заднего фона" в самом DjVu Imager. В общем, пока что мне показалось бессмысленным делать размытие растра. Или просто сканы такие попались? На настоящих иллюстрациях, без текста, гауссово размытие можно будет делать посильней - тогда, быть может, и смысл в нём появится.

- Выяснилось, что программе следует уметь принимать на входе не только в чистом виде "Смешанный" СТ-вывод - а смесь "смешанных" и "чёрно-белых" СТ-выведенных сканов. Дело в том, что СТ иногда некорректно авто-определяет зоны - поэтому проще сразу переключить порой такой скан в СТ из "Смешанного" режима в "Чёрно-белый" - и так и вывести.

В общем, входящие чёрно-белые сканы ST Split будет сразу отправлять в папку передних субсканов.

- Для тех входящих "смешанных" СТ-сканов, у которых нет иллюстрации, ST Split создаёт чисто белый задний субскан. Это излишне - я хочу сделать так, чтобы он не создавался.

- И, самое главное на сегодняшний момент: а так ли уж нужна "возможность №2" в ST Split - а именно, генерация передних субсканов в исходном режиме цветности (серое или цветное)? Меня, конечно, мучает этот вопрос.  :-\

Я попробовал сделать реальную книгу с ST Split. И подготовил реальный пример одного скана с использованием "возможности № 2":

http://ifolder.ru/17618894  (12,04 МБ)

Там внутри один серый скан - выведеный из СТ в режиме "Цветной/Серый". (Вообще-то он без иллюстраций сам по себе - но мог бы их и иметь - так что это не меняет суть дела.)

Плюс, там внутри ещё 2 DjVu-файла: один - полученный традиционным путём в СТ, а второй - прошедший выравнивание освещённости в Book Restorer 4.2.1, и затем бинаризованный в СТ (на максимально-"Жирнее" пороге бинаризации стадии "Вывод"). (ещё этот скан прошёл выпрямление искривленных строк в BR, но это не важно в данном контексте).

Для тех, кому не хочется качать 12 МБ, я приготовил этот же пример - только без исходного TIF'а - а только с 2-мя DjVu-файлами - "хорошим" и "плохим" (которые были получены из этого TIF'а):

http://ifolder.ru/17619660  (44 КБ)

Так вот, этот пример ИМХО чётко показывает: возможность № 2 в ST Split имеет смысл. Качество заметно лучше. Левая кромка текста:



оказалась "пересвеченной" после СТ - это хорошо видно на DjVu-файле из моего примера. А та же кромка после выравнивания освещённости в Book Restorer 4.2.1 (и последующей бинаризации) - выглядит не хуже основной области текста (это тоже видно на другом DjVu-файле из моего примера - так что сравните сами, и наглядно убедитесь).

Конечно, то качество, с которым СТ (в чистом виде - т.е. без BR-выравнивания освещённости) сделал эту страницу, можно назвать удовлетворительным. Но - всегда хотелось бы лучшего, и мой пример показывает: лучшее - возможно. Просто СТ сейчас лишает пользователя возможности получить качество - а я, при помощи своего ST Split, возвращаю пользователям возможность получить настоящее качество.

Конечно, практическое использование "возможности-2" - дело очень муторное. Многие не захотят возиться. К тому же, тут обнаружились некоторые серьёзные подводные камни. Оказалось, что результат выравнивания освещённости в Book Restorer 4.2.1 необходимо проверять вручную (на каждом скане) (прямо внутри самого BR) - т.к. некоторые сканы получаются настолько малоконтрастными, что при последующей бинаризации из них "не вытянешь" текст. В Book Restorer 4.2.1 есть ползунок Sensivity of the processing при выравнивании освещённости:



Если после выравнивания освещённости в BR контраст получился чересчур низким - то нужно отменить выравнивание освещённости для данного "плохого" скана, затем сдвинуть этот ползунок максимально вправо - и повторить выравнивание освещённости.

Также оказалось, что для сканов, прошедших выравнивание освещённости в Book Restorer 4.2.1, порог бинаризации в СТ оказался в некоторых случаях недостаточным - хотелось бы ещё бОльшие значения "Жирнее". Так что, попробую ещё и бинаризировывать в Book Restorer 4.2.1 (сканы, прошедшие там выравнивание освещённости).

Надеюсь, мой пример достаточно наглядно показывает, что "возможность №2" в ST Split имеет право на жизнь.

А также, мой пример наглядно демонстрирует убожество СТ, который не даёт пользователю (специально?) получить желаемое КАЧЕСТВО обработки сканов - потому что в СТ отсутствует опция генерации передних субсканов в исходном режиме цветности (серое или цветное). Дескать, это пользователю "не надо", "и так хватит".
« Последнее редактирование: 07 јРЩ 2010, 18:16:21 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #4 : 14 јРЩ 2010, 15:56:44 »
Новая подверсия:

ST Split v1.1

Скачать:

http://www.djvu-soft.narod.ru/soft/st_split_v1_1.rar  (659 КБ)

Исходники:

http://www.djvu-soft.narod.ru/soft/st_split_v1_1_src.rar  (46 КБ)

Что нового:

- Добавлена кнопка "Test". При её нажатии дерастеризуется самый первый скан в списке загруженных и тут же открывается во графическом просмотрщике, ассоциированном с TIF. Кнопка "Test" сделана для облегчения визуального подбора пользователем параметров пакетного дерастрирования.

- Добавлена опция "Name transformation" (включена по умолчанию). Она имеет подопции Left (по умолчанию) и Right. Эта опция управляет форматом имён выводных файлов: если Name transformation включена, то в качестве имён выводных файлов берётся левая (подопция Left) или правая (подопция Rigth) половинка имени соответствующего входящего СТ-файла (относительно символа подчёркивания в СТ-имени файла). Пример: СТ-имена вида 0001_0001.tiff, 0002_0002.tiff, 0003_0003.tiff, ... преобразуются в имена вида 0001.tif, 0002.tif, 0003.tif, ... .

- Надпись над списком загруженных файлов теперь изменяется в зависимости от того, какие сканы туда загружены: "To split:" - загружены сканы, подлежащие разбиению на субсканы, "To derasterize" - загружены сканы, подлежащие дерастеризации.

- Теперь допускается загружать на разбиение смесь "Смешанного" и "Чёрно-белого" СТ-вывода. При этом черно-белые сканы будут целиком попадать в папку передних субсканов.

- Для серых и цветных сканов ("Смешанный" СТ-вывод), не имеющих иллюстраций, задний субскан теперь не создаётся.

- Программа выдаёт на выходе файлы с расширением "tif" (а не "tiff", как у СТ) и приводит файлы к стандартному режиму: чёрно-белые - CCIT Fax G4 1 бит, серые - LZW 8 бит, цветные - LZW 24 бит.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #5 : 14 јРЩ 2010, 17:09:40 »
Я пробую практически применять технологию с созданием серого (цветного) переднего субскана в ST Split. Кстати, надо бы дать какой-то термин этой технологии ("возможность №2 в ST Split"). Назову такой подход пока что временно "Метод Grey-1" (G1).

Результаты применения G1 весьма впечатляющие ИМХО. Хотя и трудоёмкость создания DjVu-книги, увы, растёт на порядок.

Как уже говорилось, G1-сканы после их создания проходят выравнивание освещённости в Book Restorer v4.2.1 (BRLC). Я уже писал, что BRLC оказалось не полностью автоматической процедурой, а, увы, его результаты следует проверять вручную, и "запоротые" BRLC сканы нужно переделывать: отменять для конкретного скана BRLC, увеличивать порог BRLC, и пробовать снова применять BRLC к данному скану. В общем, у меня возникла такая идея, что теоретически алгоритм BRLC можно было бы улучшить -за счёт адаптивного нахождения значения порога BRLC - индивидуально для каждого скана. По тому же принципу, как это делает адаптивная бинаризация. Жаль только, практически это неосуществимо сделать - поскольку BR - коммерческая закрытая программа.

Другая сложность в методе G1 - это бинаризация сканов, прошедших BRLC. Чем и как их бинаризовать? СТ для этого заведомо не подходит - т.к. не умеет "просто бинаризовать", он же обязательно меняет геометрию входящих сканов.

Book Restorer v4.2.1 бинаризует неплохо. Только потом у сканов надо руками отрезать чёрную каёмку по периметру и руками чистить вылезшую грязь.

Была у меня такая задумка - делая Цветной-Серый вывод из СТ, включать опцию "Белые поля" - чтобы сразу отсечь ту грязь, что даёт чёрную каёмку после бинаризации. Но выяснилось, что белые поля пагубно влияют на BRLC - чрезвычайно пересветляя сканы при BRLC.

Попробую делать бинаризацию в СК. В СК, кстати, есть фича "чистить за резаками" - что может быть удобно для удаления чёрной каёмки на уже бинаризованных сканах.

Кстати, качество бинаризации в Book Restorer v4.2.1 оказалось гораздо лучше, чем таковое у СТ - я попробовал оба варианта на одних и тех же сканах. Буквы получаются гораздо жирнее. Правда, попутно "вылезает" гораздо больше мусора (при бинаризации в Book Restorer v4.2.1), нежели чем при бинаризации в СТ.

Принципиальное решение, думаю, в том, чтобы делать бинаризацию "такую, как в Book Restorer v4.2.1" - а затем научиться делать некий "умный despeckle" - который будет аккуратно и эффективно чистить практически всю грязь на бинаризованных сканах.

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #6 : 21 јРЩ 2010, 06:25:43 »
0. Полученный после разделения файл переднего плана файл http://www.onlinedisk.ru/file/437458/, с виду нормальный, после компиляции в Djvu Small в профиле bitonal300 инвертируется.

1. Предлагаю таки переименовать ни о чем не говорящие названия папок 1 и 2 в txt и pic. Тогда смогу добавить Вашу программу и в инструкцию по созданию djvu в wiki ST, не делая лишних изменений в тексте и иллюстрациях.
2. Тест дерастеризатора предлагаю производить для любого скана в списке, а не только для первого.
3. К дерастеризатору, скорее всего нужны галочки напротив списка иллюстраций. Т.к. часто обложка, например, не требует размытия.
4. 600dpi, даже размытые Гауссом по 4м пикселям создают djvu-страницы в 2 раза большего объема, чем 300dpi размытые Гауссом по 2м пикселям. Предлагаю рассмотреть хотя бы для 600 dpi сканов возможность даунскейла иллюстраций до 300dpi (а в идеале даунскейл с любого имеющегося разрешения в любое родное разрешение сканирования).
5. Похоже, единственный реальный способ без проблем собрать djvu имеющейся "подрезанной" версией Djvu Imager, это тупо переименовывать разделяемые сканы простым 4х-символьным счетчиком с номером страницы. Пока что бедным юзерам советую переименовывать сканы во входной папке сплита. Распознавание номера страниц в Imager - абсолютно тупиковый шаг. Получилось проблем в сто раз больше, чем было изначально..

И сделайте, наконец, русификацию!
« Последнее редактирование: 21 јРЩ 2010, 07:25:09 от 57an »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #7 : 28 јРЩ 2010, 13:10:31 »
57an
Займусь всем этим через недельку - сейчас немного занят.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #8 : 07 ёоЭм 2010, 09:50:03 »
57an
Цитировать
0. Полученный после разделения файл переднего плана файл http://www.onlinedisk.ru/file/437458/, с виду нормальный, после компиляции в Djvu Small в профиле bitonal300 инвертируется.
Давайте исходный файл - до разбиения. С этим я уже ничего не смогу понять, в чём причина.
Цитировать
1. Предлагаю таки переименовать ни о чем не говорящие названия папок 1 и 2 в txt и pic. Тогда смогу добавить Вашу программу и в инструкцию по созданию djvu в wiki ST, не делая лишних изменений в тексте и иллюстрациях.
Мне больше нравятся имена "1" и "2". Я их считаю более красноречивыми, чем txt и pic. Позовите человека с улицы, и спросите - что понятнее - 1 и 2 или txt и pic? Сама суть программы - это делать разбиение скана на 2 составляющие - т.е. на 1 и 2. Я думаю, что для "чайника" txt и pic выглядит более "пугающе", чем 1 и 2. И txt и pic - это менее определённо - текст может быть и на скриншотах, а картинки могут быть и в виде line art (т.е. для переднего плана).

Чтобы txt и pic было "понятно", чайнику потребуются некие усилия для понимания сути метода разделённых сканов. Не факт, что каждый чайник захочет в это вникать.

1 и 2 - это как бы символические (упрощённые для понимания чайника) имена для официальных терминов foreground и background. 1 и 2 даже не требуют знания английского (в отличие от txt и pic).
Цитировать
2. Тест дерастеризатора предлагаю производить для любого скана в списке, а не только для первого.
Хорошо, сделаю.
Цитировать
4. 600dpi, даже размытые Гауссом по 4м пикселям создают djvu-страницы в 2 раза большего объема, чем 300dpi размытые Гауссом по 2м пикселям. Предлагаю рассмотреть хотя бы для 600 dpi сканов возможность даунскейла иллюстраций до 300dpi (а в идеале даунскейл с любого имеющегося разрешения в любое родное разрешение сканирования).
Подумаю над этим. Это ж надо втиснуть в интерфейс как-то. :)
Цитировать
это тупо переименовывать разделяемые сканы простым 4х-символьным счетчиком с номером страницы.
Да-да, именно так - это было бы идеально.
Цитировать
Распознавание номера страниц в Imager - абсолютно тупиковый шаг. Получилось проблем в сто раз больше, чем было изначально..
Понимаете, в сложных случаях всё равно что-то нужно переименовывать (в простую схему имён): либо наклеиваемые иллюстрации, либо внутренние имена обклеиваемых DjVu-страниц. Переименовывать внутренние имена обклеиваемых DjVu-страниц мы пока не умеем.

Поймите - всё равно без переименования не обойтись (в общем случае). Никакая автоматика не в силах предусмотреть любые мыслимые варианты прихотливых схем именования файлов.

Лучше всего - с самого начала, получив после сканера сырые сканы, тут же переименовать их в имена 0001.tif, 0002.tif, .... - и далее во всех обработках придерживаться этой схемы имён (противодействуя СТ, меняющему эти простые имена, путём переименования после СТ назад в 0001.tif, 0002.tif, ....).
Цитировать
И сделайте, наконец, русификацию!
Это я сделаю. Русификацию я делаю лишь тогда, когда очередная программа уже "устоялась". Просто мне так легче - я же отдельно русифицирую каждый контрол - и, пока программа ещё не устоялась, и контролы меняются от версии к версии - то, соответственно, мне пришлось бы и перевод также менять вслед за каждым изменяющимся контролом - а это лишняя работа. Русифицирую уж тогда, когда станет ясно, что интерфейс "застабилизировался".
« Последнее редактирование: 07 ёоЭм 2010, 09:54:31 от monday2000 »

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #9 : 09 ёоЭм 2010, 12:58:33 »
Цитировать
Давайте исходный файл - до разбиения.
Сам файл уже не найду так сразу, но возможно поможет тот факт, что после ST Split он сжат в G4FAX (а на входе ST Split был LZW файл после ST).
При конвертации обработанного ST Split файла в bw LZW Djvu Small отрабатывает нормально (без инверсии).
Цитировать
для "чайника" txt и pic выглядит более "пугающе"
Не знаю, по мне это все равно что переменные называть a1 и a2 вместо мнемонических имен..
А "чайника" испугает как мой, так и Ваш вариант. Не испугает только кнопка "получить djvu". Жаль, что Вы ее так боитесь.. ) Автоматизировать, значит уж до конца..
Цитировать
противодействуя СТ
Оставьте хотя бы как опцию. Пусть даже без поддержки длинных русских имен (можно об этом даже конретно написать возле кнопки ее включения).
Все равно единственный возможный способ противодействия СТ - это то, что я предложил. Ну никак не получится "доклеить" только некоторые картинки, например 100_1R или 104_2L без геморроя предварительного переименования в допустим 0199 и 0207 (как того потребует Imager). Ведь изначально Imager был предназначен именно для доклейки. А в существующем виде в связке с СТ это исключительно инструмент пакетной обработки без возможности точечных исправлений (от чего, впрочем, опять же всего один шаг до кнопки "получить djvu" в ST Split ))) )

Еще раз - как я вижу концепцию работы с СТ:
1) сделали вывод СТ
2) натравили на него разделитель, в процессе разделения удалили файлы из папки out
3) проанализировали разделенные файлы (особенно картинки), при необходимости поправили их в СТ (в папке OUT теперь только измененные изображения).
4) еще раз натравили разделитель (который отработал намного быстрее, чем на шаге 2).
5) собрали djvu.

Сейчас это невозможно, как ни переименовывай.
« Последнее редактирование: 09 ёоЭм 2010, 13:25:35 от 57an »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #10 : 09 ёоЭм 2010, 14:48:06 »
57an
Цитировать
Сам файл уже не найду так сразу, но возможно поможет тот факт,
Не, нужен именно сам тот файл. Кстати, в Irfan View "неправильные" файлы отображаются инвертированно - даже если в обычном виндовом вьювере они правильно отображаются. Там же можно и инвертировать, если что (пока глюк не найдётся).
Цитировать
Оставьте хотя бы как опцию.
Нет, я так просто запутаюсь сам. Пусть уж остаётся как есть сейчас.
Цитировать
А в существующем виде в связке с СТ это исключительно инструмент пакетной обработки без возможности точечных исправлений
Вы не рассматриваете 3 вариант - разрезка разворотов в сторонней программе, переименование их после разрезки в новую сплошную нумерацию (0001.tif, 0002.tif, ...) и только потом уже обработка полученного в СТ - сплит - DjVu Imager.

Такой вариант мне представляется идеологически наиболее простым. И возможность "точечных исправлений" сохранится.

А Вы - не хотите ли попробовать сделать свою программу по сканобработке? Или хотя бы сделать свой клон СТ?

Я думаю, что проблемы с именами файлов следует искать не в DjVu Imager и не в ST Split - а в СТ. Это есть несовершенство СТ - а не несовершенство DjVu Imager или ST Split. Отсюда логичный вывод - зачем вносить новое несовершенство в DjVu Imager или ST Split (реализовав Ваши последние предложения), если наиболее разумно будет устранить имеющееся несовершенство в СТ (то ли путём изготовления Вами своего клона СТ, то ли путём создания Вами собственной программы по сканобработке).

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #11 : 28 ёоЭм 2010, 13:05:30 »
Новая подверсия:

ST Split v1.2

Скачать:

http://www.djvu-soft.narod.ru/soft/st_split_v1_2.rar  (659 КБ)

Исходники:

http://www.djvu-soft.narod.ru/soft/st_split_v1_2_src.rar  (53 КБ)

Что нового:

- Исправлен баг с инвертированием черно-белого субскана http://www.onlinedisk.ru/file/463921/

- Тестовое размытие теперь делается не для самого первого файла в списке загруженных, а для текущего выделенного в списке.

- Добавлены 2 радио-кнопки для более наглядного разграничения 2 функциональных групп возможностей программы.

57an
Цитировать
3. К дерастеризатору, скорее всего нужны галочки напротив списка иллюстраций. Т.к. часто обложка, например, не требует размытия.
Это пока не сделал, буду думать над этим.
Цитировать
4. 600dpi, даже размытые Гауссом по 4м пикселям создают djvu-страницы в 2 раза большего объема, чем 300dpi размытые Гауссом по 2м пикселям. Предлагаю рассмотреть хотя бы для 600 dpi сканов возможность даунскейла иллюстраций до 300dpi (а в идеале даунскейл с любого имеющегося разрешения в любое родное разрешение сканирования).
Задумался я - а так ли уж это нужно. Во-первых, нужное выходное разрешение можно выставить ещё в СТ, а во-вторых - есть же ДЗФ в DjVu Imager.
- Под новую схему именования файлов в последнем СТ ещё буду отдельно подстраивать и ST Split, и DjVu Imager. Я ещё даже новый СТ не скачивал, так что как-нибудь немного позже.
- Русский интерфейс в  планах - но лишь в самую последнюю очередь.

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #12 : 06 °ТУгбв 2010, 07:03:08 »
Гаусс работает как-то черезчур бойко. Размывает очень сильно даже на радиусе 0.1.
Много замечаний к согласованности "половинок" программы. Напрасно вы их, похоже, склеили в одну...
Из удобств - только кнопка Get Input.

По поводу необходимости уменьшения разрешения иллюстраций - необходимость в этом есть.
Кроме того, не все собирают результат в djvu. Есть и те, кто делают pdf.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #13 : 06 °ТУгбв 2010, 09:31:15 »
57an
Цитировать
Напрасно вы их, похоже, склеили в одну...
Да, с этим я согласен. Это просто мне ... немного было лень (делать 2 программы).  :) К тому же я всегда стою на том, чтобы не лепить всё в одну программу.
И вообще - эта программа очень уж убогая получилась, и отношение у меня к ней какое-то несерьёзное.

Эта программа вообще не должна была появляться на свет. Потому что создание субсканов должно было быть встроено в СТ, а размытие должно идти в составе некоей специализированной программы по сканобработке (с визуальным отображением сканов) - обладающей должным качеством.

Цитировать
Много замечаний к согласованности "половинок" программы.
Давайте, излагайте. Подумаю, что можно сделать.
Цитировать
По поводу необходимости уменьшения разрешения иллюстраций - необходимость в этом есть.
Ладно, подумаю, как бы это сделать.
Цитировать
Гаусс работает как-то черезчур бойко. Размывает очень сильно даже на радиусе 0.1.
Чёрт его знает, я в нём ничего не смыслю. Попробуйте сравнить с http://www.djvu-soft.narod.ru/bookscanlib/013.htm - должно совпадать. Или же можно сравнить с GIMP'овским Gaussian Blur. Путём сравнения элементарно выяснить, совпадают результаты, или нет.

Надеюсь, эта программа всё же носит временный характер - должен же когда-то восторжествовать здравый смысл. То, что СТ обязан выдавать готовые пары субсканов - несомненно (включая вариант "серый передний субскан"). Именно потому, что программа носит временный характер, я и "налепил" столько разношёрстного функционала в одну программу.

Скорее всего, на практике всё это закончится тем, что некто создаст альтернативу СТ (лишённую одиозных недостатков СТ) - после чего об СТ все плавно забудут. Сейчас это кажется фантастичным - но иного реального пути я не вижу. Ведь на Tulon невозможно подействовать.

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #14 : 06 °ТУгбв 2010, 11:08:48 »
Вот сравнение гимпа с разным радиусом и сплита.
http://www.onlinedisk.ru/file/490741/

Насчет "излагания" несогласованности - я, честно, не вижу особого в этом смысла, с учетом с несерьезного к отношения к сплиту.

Как насчет идеи перенести возможности "гауссовой" части сплита в Imager - с применением после ДЗФ и удобной возможностью теста хотя бы в существующем виде (либо сразу с упаковкой в djvu)? Если со временем добавить туда еще коррекцию яркости и контрастности иллюстраций - то вуаля, почти все задачи постобработки будут решены.

Тогда и уменьшать разрешение сплитом может не понадобиться (ну разве в целях экономии места на винте).