Автор Тема: Программа ST Split  (Прочитано 43738 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #15 : 06 °ТУгбв 2010, 12:22:14 »
57an
Цитировать
Вот сравнение гимпа с разным радиусом и сплита.
http://www.onlinedisk.ru/file/490741/
Хорошо, я поищу глюк (если у меня там он есть).
Цитировать
Как насчет идеи перенести возможности "гауссовой" части сплита в Imager
Нет, не хотелось бы. Правильнее делать специализированную отдельную программу. (В соответствии с теми принципами, что я не раз излагал).
Цитировать
Насчет "излагания" несогласованности - я, честно, не вижу особого в этом смысла, с учетом с несерьезного к отношения к сплиту.
Вся ответственность за эти нелепые проблемы лежит целиком на Tulon. Tulon нарочно не делает вывод пар субсканов - хотя ему ничто не мешает это сделать. Tulon отказался даже ввести в СТ модификации от anagnost96 (!). Это - самое яркое доказательство не-желания Tulon сделать вывод пар субсканов. Т.е. Tulon даже не может сказать, что у него "нет времени" на внедрение вывода пар субсканов - ибо вставить патч от anagnost96 в СТ - дело 1-2 часов для Tulon (сущий пустяк).

Причина, по которой Tulon не делает вывод пар субсканов - это, по-видимому, намерение Tulon сделать свой GUI под minidjvu - который будет делать разделение пар субсканов внутри себя. Отсюда и введение Tulon резервирования диапазона 2-254 для фона - чтобы дать зацепку своему будущему GUI под minidjvu.

Т.е. Tulon тем самым намеренно игнорирует существование иных DjVu-кодировщиков, желая всё "подмять под себя".

Ещё раз повторюсь - создание всякого рода "сплитов", "сепараторов" - это есть неправильно и это есть уродство. У меня поэтому просто рука не поворачивается всерьёз относится к сплиту.

Так что самое правильное в подобной ситуации - это устранение означенного уродства. А это можно сделать либо соответствующим модифицированием СТ, либо созданием альтернативы СТ. Создание альтернативы СТ мне представляется более реалистичным путём (несмотря на всю фантастичность).

Возможен также и вариант, если кто-то не-Tulon модифицирует СТ в нужном направлении. Но это тоже полумера - т.к. тогда прийдётся потом править каждый новый официальный СТ-билд (а Tulon откажется ввести такое изменение в официальный СТ).

В общем, ST Split я, конечно, доведу до ума - чтобы им можно было реально пользоваться. Но на будущее всерьёз ставку делать на ST Split не буду - а буду искать вариант порождения альтернативы СТ, как единственно верный выход из создавшейся нелепейшей ситуации (когда амбиции Tulon встали поперёк всего пути прогресса - с такой бедой, знаете ли, уже ничего нельзя сделать... :) ).
« Последнее редактирование: 06 °ТУгбв 2010, 12:24:41 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #16 : 06 °ТУгбв 2010, 12:42:23 »
Идея Tulon о создании своего minidjvu GUI и передачи туда неразделённого вывода напрямую с СТ (с тем, чтобы разделение пар субсканов проводилось внутри его minidjvu GUI) порочна в принципе.

Ведь такой подход предполагает, что сканы внутри СТ должны всегда обрабатываться идеально - чтобы их можно было сразу передать на DjVu-кодирование.

Но это же невозможно - одному человеку просто не под силу создать идеальную программу по сканобработке. И, если кто-то считает, что это не так - значит, это ослеплённый амбициями безумец.

А значит, надо дать возможность другим программам по сканобработке напрямую поучаствовать в сканобработке продукта, вышедшего из СТ - перед DjVu-кодированием. "Дать возможность" - это значит встроить в СТ вывод пар субсканов.

Но Tulon упрямо гнёт именно свою линию (по не-деланию в СТ вывода пар субсканов) - отрицая очевидный здравый смысл (вот до чего доводит человека ослепление амбициями).

Разве мои доводы нелогичны?

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #17 : 09 °ТУгбв 2010, 21:00:29 »
57an
Все намеченные изменения по ST Split я пока что отложу на некоторое время. Просто мне крайне неприятно заниматься этой программой, мне приходится буквально пересиливать себя - поэтому я и не горю немедленно кинуться её улучшать.

Чем больше проходит времени, тем больше мне становится неприятен Scan Tailor, и тем очевиднее мне становится, что Scan Tailor нужно чем-то заменить - чем-то адекватным - а Scan Tailor после этого отправить на свалку истории - где ему самое место.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #18 : 09 БХЭвпСам 2010, 17:01:45 »
57an
Я подумываю сделать очередную версию ST Split.

Планируемые изменения:

1. Я решил выкинуть вообще из программы 2-часть - т.е. размытие.

Действительно, она только сильно усложняет интерфейс - а толку от неё мало. То есть, в принципе мало - от применения Blur размер результирующего DjVu уменьшается крайне незначительно (по моим наблюдениям). Гораздо эффективнее размер результирующего DjVu снижает последующая регулировка ДЗФ и Background quality в DjVu Imager. Так что делать Blur - ИМХО в принципе игра не стоит свеч.

2. Адаптирую программу под новую схему имён СТ.

Новая схема имён в СТ - это:

- Если не было разрезания, то имена входных файлов сохраняются неизменными на выходе.
- Теперь выходное расширение - tif, а не tiff.
- Если было разрезание, то будут такие имена на выходе из СТ:

0001_1L.tif, 0001_2R.tif, 0002_1L.tif, 0002_2R.tif, ....

Только мне прийдётся, конечно, в ST Split "разрезанные" имена переименовывать в новую простую сплошную нумерацию. Это всё потому, что DjVu Imager хочет видеть у себя на входе файлы с такими именами:

0001.tif, 0002.tif, ... , 0010.tif, ....

3. В последующих версиях могу сделать и ресемплинг сканов. Только мне пока не очень ясно - зачем именно это нужно, и как в точности это сделать. Делать его скопом одно значение ресемплинга для всех сканов или выборочно? Выборочно не хотелось бы, так как это сложней.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #19 : 09 БХЭвпСам 2010, 17:16:00 »
Я вообще бы предложил разработать и принять некий общепринятый стандарт именования файлов - действующий для всех самодельных программ DjVu-книгосканирования.

Основные принципы пока видятся такие:

- Наиболее желательна - обычная сплошная циферная нумерация (как в FineReader):

0001.tif, 0002.tif, ... , 0010.tif, ....

- Имена файлов не должны содержать не-циферных символов без крайней необходимости.

- Нумерация входящих и выходящих файлов должна быть сплошной. В самом деле, так ли уж нужно сохранять следы прежней нумерации после разрезки страниц? При условии, что сканы всей книги разрезаются все сразу, то старая нумерация до разрезки нам становится совсем без надобности. И не надо туда навешивать суффиксы 1L и 2R (это неоправданное усложнение).

Такой стандарт был бы ИМХО нам всем удобен.

Чисто практически можно поступить так:

Вот когда kontiky сделает свою пакетную разрезалку, то пусть её продукция на выходе всегда будет соответствовать такому стандарту (независимо от того, что там у неё было на входе, какие там были имена файлов входящие - пусть хоть самые дурацкие).

По поводу выбрасывания Blur из ST Split.

Я решил, что такие вещи, как Blur нужно оформить в отдельную специализированную программу - причём визуальную. Такую, своего рода ST-2. Суть её - пакетный Grey Enhance всякого рода (с пользовательскими зонами).
Правда, кто и когда будет делать такую программу - я не знаю. :) Но втискивать Blur в ST Split - пожалуй, всё-таки как-то убого и неполноценно. :-\ К тому же, как выяснилось, практически не нужно (из-за низкого эффекта Blur на снижение размера получаемого DjVu).
« Последнее редактирование: 09 БХЭвпСам 2010, 17:20:48 от monday2000 »

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #20 : 09 БХЭвпСам 2010, 17:49:57 »
По ресемплингу.
1. Не все пользуются МРС djvu-кодерами. Есть люди, которые собирают pdf после ST (например библиотеки, которые недолюбливают djvu).
2. Фактор размера получаемых на выходе файлов - без ресемплинга он такой же как и у файлов на входе, с ресемплингом экономим место.
3. Я думаю, достаточно одинакового ресемплинга для всех файлов.

По блуру.
Я его использовал для обработки альбомов репродукций с явно выраженным растром, которые при такой обработке, на мой взгляд оставались в лучшем качестве. ДЗФ терял больше деталей. Background quality - добавлял слишком много артефактов.
Для остальной массы книг блур, имхо, вполне заменим ДЗФ-ом.

По именованию файлов.
Предположим, в разрезанном файле нашлась ошибка (например, неправильно сработала линия разреза). Как в такой ситуации быстро найти страницу, в которой нужно поправить резак? Только делить номер пополам и искать среди сканов примерно с получившимся номером - имхо, неудобно. Отбросить суффикс и получить имя требуемой страницы гораздо проще.

Я что-то потихоньку начинаю склоняться к технологии ST 600dpi -> PDF ClearScan. Приятно в один этап получить компактный pdf с текстовым слоем, не заморачиваясь с djvu-шной трехходовкой (а с учетом FR+DjvuOCR - пятиходовкой). Это я так намекаю еще разок подумать насчет одношагового post-ST djvu-кодера.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #21 : 10 БХЭвпСам 2010, 10:21:45 »
57an
Цитировать
1. Не все пользуются МРС djvu-кодерами. Есть люди, которые собирают pdf после ST (например библиотеки, которые недолюбливают djvu).
Между прочим, для таких людей несложно предусмотреть и обратное слияние разделённых сканов (если будет нужно). А вообще разделять сканы - это удобно, поскольку потом можно раздельно обрабатывать тексты и картинки - которые разнородны по своей природе и их сложно обрабатывать в рамках неразделённого скана. В общем, время покажет, как конкретно поступать.
Цитировать
3. Я думаю, достаточно одинакового ресемплинга для всех файлов.
А, ну такое мне будет совершенно несложно сделать. Не обещаю именно в следующей версии, но в принципе могу сделать.
Цитировать
Для остальной массы книг блур, имхо, вполне заменим ДЗФ-ом.
Да, у меня кошки скребут, конечно, по поводу идеи выкидывания Blur, но, скрепя сердце, всё же пойду на это - так будет ИМХО разумнее.
Цитировать
Предположим, в разрезанном файле нашлась ошибка (например, неправильно сработала линия разреза). Как в такой ситуации быстро найти страницу, в которой нужно поправить резак?
Я предполагаю, что после разрезки пользователь должен проделать визуальный контроль всех разрезанных сканов - с целью убедиться в правильности разрезки (плюс комплектность всех страниц - "а не забыл ли я какую-нибудь страницу отсканировать"). К сожалению, как-либо по другому, думаю, нельзя. То есть, если пользователь потом заметит ошибку разрезания - пусть пеняет на себя и делает всё заново.

Казалось бы, вариант СТ лучше - раз он позволяет вернуться с самого конца в состояние "до разрезки" и переиграть всё заново. Но на деле это оборачивается неимоверным усложнением всего и вся.

Так что мой вариант ("разрезал и забыл" - т.е. забыл о неразрезанных исходных сканах) мне представляется в целом проще. Потому что радикально упрощается жизнь после разрезки - как для разработчика сканобрабатывающей программы, так и для пользователей.

И мне кажется, что визуально проконтролировать правильность разрезки - ну совсем уж просто, даже для школьника. Тем более, если сделать простую пакетную разрезкалку (надеюсь на kontiky) и написать к ней простую и понятную инструкцию, где указать в картинках все критерии правильной разрезки - то особых проблем не ожидается. Нет, ну конечно всегда найдутся неадекватные люди, которым и это будет непонятно - но их будут единицы.
Цитировать
Я что-то потихоньку начинаю склоняться к технологии ST 600dpi -> PDF ClearScan.
Те люди, кто сканируют в PDF, и не признают DjVu, не советуют использовать ClearScan. Говорят, что он пропускает целые абзацы.
Цитировать
Это я так намекаю еще разок подумать насчет одношагового post-ST djvu-кодера.
Наверное, в будущем мы всё-таки прийдём к такому одношаговому DjVu-кодировщику для разделённых сканов. Но пока что его сложно было бы сделать - это проблема на стыке ST и DjVu. Здесь многое зависит именно от ST - а Tulon вот не хочет и упрямится. От этого всё теряет смысл.

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #22 : 10 БХЭвпСам 2010, 11:18:37 »
Цитировать
обратное слияние разделённых сканов
Речь шла об МРС PDF, которые (с учетом кодирования битональной части в G4FAX) вполне делаются на бесплатном ПО сотрудниками библиотек. Подобная же методика используется в СК, насколько я понимаю.

Цитировать
не советуют использовать ClearScan
Хорошо бы ссылочку. Интересно посмотреть на исходный материал. Обычно то, что не распознается ClearScan все равно остается в виде фоновой картинки.

Цитировать
Здесь многое зависит именно от ST
Никак не возьму в толк - в чем именно проблема. Все три этапа, необходимые для одношаговика давно вами отработаны. Битональная часть даже в двух ипостясях - через documenttodjvu и через minidjvu. Правда вот интересно, можно ли объединить их таким образом, чтобы не было необходимости разделять сразу все страницы, а подсовывать их на bitonal и photo-кодеры последовательно по одной? Чисто для экономии места.
« Последнее редактирование: 10 БХЭвпСам 2010, 11:21:10 от 57an »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #23 : 10 БХЭвпСам 2010, 19:03:41 »
57an
Цитировать
Речь шла об МРС PDF, которые (с учетом кодирования битональной части в G4FAX) вполне делаются на бесплатном ПО сотрудниками библиотек.
А ведь это любопытно. Если у Вас есть какая-то конкретная информация - поделитесь, будет интересно ознакомиться.
Цитировать
Хорошо бы ссылочку.
Вот: http://jurassic.ucoz.ru/forum/9-740-3#3206
Цитировать
Никак не возьму в толк - в чем именно проблема.
Ну, это большой разговор - как-нибудь обсудим специально в отдельном топике.

57an

  • Постоялец
  • ***
  • Сообщений: 201
    • Просмотр профиля
    • Djvu Bookmarker on SF.net
Re: Программа ST Split
« Ответ #24 : 10 БХЭвпСам 2010, 22:42:31 »
Цитировать
Если у Вас есть какая-то конкретная информация - поделитесь

Насколько я понял, технология в целом такая (повторять пока что не пробовал).

0. Разбиваются сканы на подсканы текста и иллюстраций.
1. Создаются прозрачные JPEG-2000 pdfки только с даунсемплированными картинками. Первоначально это делалось с помощью фотошопа, говорят, что можно этот шаг выполнить и с помощью ImageMagick.
2. Текстовые тифы (их еще предварительно прогоняют через DJVU для слияния похожих букв) кодируют в G4FAX-PDF с помощью ImageMagick.
3. Накладывают прозрачные слои иллюстраций поверх текста с помощью pdftk.
4. Объединяют полученные на этапах 1-3 отдельные страницы в многостраничный pdf.

По-идее шаги получаются на бесплатном софте с помощью скриптов. Самих скриптов я пока что не видел.

А как аналогичные вещи делаются в СК?

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #25 : 11 БХЭвпСам 2010, 14:46:30 »
57an
Цитировать
А как аналогичные вещи делаются в СК?
А я не знаю, спросите у bolega.

Я вообще очень не люблю формат PDF. Надо будет, пожалуй, как-нибудь написать подробную статью-сравнение по пунктам PDF и DjVu. Тогда все увидят, какой кошмар этот формат PDF (именно по сравнению с DjVu). :) PDF меня интересует лишь вынужденно - раз уж другие им пользуются.
Цитировать
кодируют в G4FAX-PDF с помощью ImageMagick.
ImageMagick использует GhostScript для работы с PDF.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #26 : 14 БХЭвпСам 2010, 09:09:38 »
Новая подверсия:

ST Split v1.3

Скачать:

http://www.djvu-soft.narod.ru/soft/st_split_v1_3.rar  (642 КБ)

Исходники:

http://www.djvu-soft.narod.ru/soft/st_split_v1_3_src.rar  (44 КБ)

Что нового:

- Убран функционал дерастеризации
- Убраны все опции (за ненадобностью)
- Программа приведена в соответствие с новой схемой имён файлов на выходе из СТ. А именно, теперь ST Split всегда переименовывает свою продукцию (файлы) в вид:

0001.tif, 0002.tif, ... , 0010.tif, .... - независимо от того, какие имена файлов (и с какими расширениями) поступили на вход ST Split. Таким образом, любая информация об именах файлов ДО разрезания намеренно теряется (а она не нужна, если все сдвоенные развороты были разрезаны правильно - а так обычно и бывает).

Теперь ST Split наиболее прост, сколь только может быть.

P.S. Конечно, лучше всего было бы встроить весь функционал ST Split напрямую в Scan Tailor. Но, как известно, Tulon категорически отказался это делать.

Поэтому ИМХО наиболее оптимальным решением этого вопроса было бы кому-то сделать свой "клон" СТ (и встроить туда функционал СТ) - благо, исходники СТ открыты. Я этим не буду заниматься (и некогда, и вообще не хочу увязнуть в этом). Может, кто-то ещё захочет?

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #27 : 06 ѕЪвпСам 2010, 11:50:07 »
Ряд дальнейших сообщений выделено в отдельную тему "Проблема инь в DjVu 600 dpi" http://www.djvu-scan.ru/forum/index.php?topic=99.0

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа ST Split
« Ответ #28 : 01 °ЯаХЫм 2011, 10:53:46 »
Новая подверсия:

ST Split v1.4

Скачать:

http://www.djvu-soft.narod.ru/soft/st_split_v1_4.rar  (643 КБ)

Исходники:

http://www.djvu-soft.narod.ru/soft/st_split_v1_4_src.rar  (36 КБ)

Что нового:

При генерации серых/цветных передних субсканов:

- Добавлена возможность обработки смеси сканов "Серый/Цветной" и "Смешанный" (ранее было можно только в лучшем случае "Чёрно-белый" и "Смешанный").
-  Теперь генерируются также и одновременно задние субсканы (для удобства).
« Последнее редактирование: 01 °ЯаХЫм 2011, 11:06:43 от monday2000 »

woodyfon

  • Новичок
  • *
  • Сообщений: 7
    • Просмотр профиля
Re: Программа ST Split
« Ответ #29 : 21 ЅЮпСам 2011, 23:12:48 »
monday2000
Можете ли вы в программу добавить возможность вывода "пустых" изображений (белый фон) для тех файлов, где нет иллюстраций. Актуально, если требуется собирать pdf-файл, используя метод разделенных сканов и специальные плагины. Использование последних даст возможность полностью пакетировать сборку.