Автор Тема: Словарь символов — вопросы  (Прочитано 22311 раз)

Mandor

  • Новичок
  • *
  • Сообщений: 8
    • Просмотр профиля
Словарь символов — вопросы
« : 05 ПЭТРам 2011, 11:57:55 »
Пожалуйста, обясните более подробно об словарь символов, которой използуеться в JB2.
– Как работает схема „одинь словарь для несколько страниц“? Етот словарь – самостоятельной чанк (похоже, что нет) или что?
– Что случается с етот словарь, когда извлекаем страницу из djvu, сделан например через --pages-per-dict=10? Копируеться?
– Существует ли возможност обединять словари, когда обединяем одностраничние djvu? Или они остаются независимые?
И т.д., и т.д. – любая информация будет очень полезна.
Спасибо заранее.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Словарь символов — вопросы
« Ответ #1 : 06 ПЭТРам 2011, 11:27:35 »
Mandor
Я в этом слабо разбираюсь. Вот попробуйте почитать:

http://www.djvu-soft.narod.ru/jb2cmp.htm
http://www.djvu-soft.narod.ru/ddjvuapi.htm

Цитировать
Пожалуйста, обясните более подробно об словарь символов, которой използуеться в JB2.
Чтобы понять все эти подробности, необходимо смотреть файлы JB2Image.cpp, JB2Image.h, JB2EncodeCodec.cpp и т.п.
Цитировать
Етот словарь – самостоятельной чанк (похоже, что нет) или что?
Насколько я знаю - да, это самостоятельный чанк (djbz). Вообще читайте спецификацию DjVu http://djvu.org/docs/DjVu3Spec.djvu :
Цитировать
7.2.2 Including shared information
In many cases, efficiencies can be achieved by sharing JB2 shape
definitions and/or annotations across pages. To facilitate this, any DjVu image file contained in a multipage file may contain an “INCL” chunk containing the ID of a shared component file. The
decoder processes the chunks contained in the shared component file as if the DjVu image file contained them. All relevant pages include this shared component file. Although they appear in several pages, these shared shapes are encoded only once in the
document.
A shared component file is composed of a single “FORM:DJVI” potentially containing any information otherwise allowed in a DjVu image file (except for the “INFO” chunk of course).
Цитировать
– Что случается с етот словарь, когда извлекаем страницу из djvu, сделан например через --pages-per-dict=10? Копируеться?
Да, копируется. И вставляется в извлечённую страницу.
Цитировать
– Существует ли возможност обединять словари, когда обединяем одностраничние djvu? Или они остаются независимые?
Теоретически это возможно, но на практике пока что словари НЕ объединяются (остаются независимые). Поэтому свободно вырезать-вставлять страницы в многостраничном DjVu не рекомендуется - размер увеличивается.
« Последнее редактирование: 06 ПЭТРам 2011, 11:34:07 от monday2000 »

Mandor

  • Новичок
  • *
  • Сообщений: 8
    • Просмотр профиля
Re: Словарь символов — вопросы
« Ответ #2 : 06 ПЭТРам 2011, 14:28:06 »
Спасибо за ответы.
Разсмотрим такой случай — журнал A4 из 60 стр, много текст, несколко десятка полутоновые изображения, почти все заголовки — цветные (однотоновые). Есть и текст поверх цветной фон (тоже однотонов).
Как посоветуете обработывать такой журнал?
Если оставлю заголовки в BG, для них вполне достаточно 25-75 dpi, но картинки должны быть не менее чем 150 dpi, иначе плохо выглядут. Как можно совместить ето в метод подклейки фона (или как там у него последнее название  ::))?
Если поставлю заголовки в FG и попробую раскрасить их через метод раскраски маски, то надо разобрать djvu на отделные страницы, раскрасить, а потом тупо слепить обратно, при чем теряю оптимизацию через словарь символов.

Кстати, прочитал здесь все, написано о DjVu (статии и форум), но еще не могу переварить все прочитаное. Пока делал только ч/б текст + цветные картинки (через МПФ); получаеться очень хорошо. Но впервые мне приходиться работать с цветной текст. Так что — пожалуйста, помогите разобраться.  :'( Как сделать оптимальный DjVu из такова журнала? Сложность обработки не имеет особое значение.

Mandor

  • Новичок
  • *
  • Сообщений: 8
    • Просмотр профиля
Re: Словарь символов — вопросы
« Ответ #3 : 06 ПЭТРам 2011, 19:30:55 »
В общем, сумел сделать djvu, в которой (почти) все находится в FG. Сработало только при указывание всех трех параметров: pix-filter-level=0, shape-filter-level=0 и threshold-level=0. Но все-таки в етот файл есть BG, около 3-4 KB, в которой есть какие-то пятна из бумаги. Не нравиться.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Словарь символов — вопросы
« Ответ #4 : 06 ПЭТРам 2011, 20:38:10 »
Mandor
Цитировать
Как посоветуете обработывать такой журнал?
К сожалению, чётких рекомендаций дать не могу. :( Цветные журналы - самый трудный случай, для них пока нет простой общей методики.
Цитировать
Есть и текст поверх цветной фон (тоже однотонов).
Именно в этом и сложность. Можно попытаться разделить такой фон и наложенный на него текст. Я когда-то делал пробную утилитку именно для такого случая:

http://www.djvu-soft.narod.ru/soft/subtract_images.rar

См. http://www.djvu-scan.ru/forum/index.php?topic=76.msg707#msg707 .

Эта утилитка позволяет вычесть из одного изображения другое. Берёте исходное изображение текста на равномерном цветном фоне. Аккуратно бинаризуете его - получаете "только текст". Это в дальнейшем будет как передний субскан. Затем из исходного изображения вычитаете "только текст" - получаете "только фон" - т.е. задний субскан. Дальше работаете с полученными субсканами как в обычном методе подклейки фона.

Это, увы, лишь экспериментальная возможность (к тому же, пока что весьма неудобная в практическом применении) - подобный способ разделения текста и фона слишком груб и примитивен.
Цитировать
Если поставлю заголовки в FG и попробую раскрасить их через метод раскраски маски, то надо разобрать djvu на отделные страницы, раскрасить, а потом тупо слепить обратно, при чем теряю оптимизацию через словарь символов.
Нет, не надо разбирать DjVu на отдельные страницы для этого. Воспользуйтесь моей программой DjVu Pal v1.1 http://www.djvu-soft.narod.ru/soft/djvu_pal_v1_1.rar - там внутри есть инструкция по использованию.
Цитировать
Но все-таки в етот файл есть BG, около 3-4 KB, в которой есть какие-то пятна из бумаги. Не нравиться.
Пытаться подобрать оптимальные параметры documenttodjvu - весьма непросто. Я бы предпочёл всё-таки ручную сегментацию - а не игры с автоматической.
« Последнее редактирование: 06 ПЭТРам 2011, 20:42:06 от monday2000 »

Mandor

  • Новичок
  • *
  • Сообщений: 8
    • Просмотр профиля
Re: Словарь символов — вопросы
« Ответ #5 : 07 ПЭТРам 2011, 09:17:14 »
Цитировать
Цветные журналы - самый трудный случай, для них пока нет простой общей методики.
Я же говорил — сложност обработки не имеет значении.

Цитировать
Если поставлю заголовки в FG и попробую раскрасить их через метод раскраски маски, то надо разобрать djvu на отделные страницы, раскрасить, а потом тупо слепить обратно, при чем теряю оптимизацию через словарь символов.
Нет, не надо разбирать DjVu на отдельные страницы для этого. Воспользуйтесь моей программой DjVu Pal v1.1 http://www.djvu-soft.narod.ru/soft/djvu_pal_v1_1.rar - там внутри есть инструкция по использованию.
Если я правильно понял, то файл все-таки будет разобран на страницы, закрашен и собран обратно? Если да — то тоже будет потеря информации; только более автоматизированная. Или метод другой?

Цитировать
Но все-таки в етот файл есть BG, около 3-4 KB, в которой есть какие-то пятна из бумаги. Не нравиться.
Пытаться подобрать оптимальные параметры documenttodjvu - весьма непросто. Я бы предпочёл всё-таки ручную сегментацию - а не игры с автоматической.
Вот, и я етого хочу. Как можно сделать двухслойный FG? Только через раздельного кодирование маске и переднего фона, а потом клеить через djvumake? Именно такие маленькие детайли недостигают и новички теряут терпение и начинают делат всякие глупости через авт.сегментации, потому что ето единственый рабочий метод для них.
« Последнее редактирование: 07 ПЭТРам 2011, 09:19:06 от Mandor »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Словарь символов — вопросы
« Ответ #6 : 07 ПЭТРам 2011, 10:26:09 »
Mandor
Цитировать
файл все-таки будет разобран на страницы, закрашен и собран обратно?
Да.
Цитировать
Если да — то тоже будет потеря информации; только более автоматизированная.
Нет. Никакой потери информации не будет. Потому что это разборка-сборка на уровне чанков - так что не потеряется ни единого байта. Вот если бы мы полученные чанки стали ещё дальше разбирать (модифицировать) - вот тогда у нас появился бы шанс потерять информацию (из чанка-словаря в данном случае).
Цитировать
Как можно сделать двухслойный FG?
Никак, это невозможно.
Цитировать
Только через раздельного кодирование маске и переднего фона, а потом клеить через djvumake?
Да, так можно. И такой путь ИМХО самый наглядный и поэтому простой.

Формат DjVu тоже можно назвать "формат-контейнер" (как и PDF). Разница с PDF в том, что у PDF содержимое контейнера может быть произвольным - а у DjVu - строго предопределённым (только чанки определённого формата).

Mandor

  • Новичок
  • *
  • Сообщений: 8
    • Просмотр профиля
Re: Словарь символов — вопросы
« Ответ #7 : 07 ПЭТРам 2011, 12:21:40 »
Цитировать
Если да — то тоже будет потеря информации; только более автоматизированная.
Нет. Никакой потери информации не будет.
Извините, моя ошибка: имел в виду „потеря оптимизации“ — потому что словарь символов копируется на каждая страница.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Словарь символов — вопросы
« Ответ #8 : 07 ПЭТРам 2011, 16:42:55 »
Mandor
Цитировать
Извините, моя ошибка: имел в виду „потеря оптимизации“ — потому что словарь символов копируется на каждая страница.
Такой потери оптимизации НЕ возникнет - при раскраске текста. Потому что там при сборке-разборке DjVu НЕ меняется структура чанков маски и словарей DjVu-файла - количество и состав DjVu-страниц остаётся НЕИЗМЕННЫМ - до разборки и после обратной сборки.

Оптимизация теряется только при ИЗМЕНЕНИИ структура чанков маски и словарей - когда меняется количество или состав DjVu-страниц - и программа-редактор DjVu просто не знает, по какому принципу ей распределить обобщённый словарь символов между изменившимся набором DjVu-страниц.

Это легко проверить: попробуйте применить DjVu Pal v1.1 - а потом сравните DjVu до раскраски и после - при помощи djvudump (который покажет детально внутреннюю структуру DjVu).
« Последнее редактирование: 07 ПЭТРам 2011, 16:44:52 от monday2000 »



veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
Re: Словарь символов — вопросы
« Ответ #11 : 30 ЅЮпСам 2018, 18:24:47 »
Представьте,148.6 кв.м.EyesighEyesighВторой томShadowsBalanceAligherRudyardAdrianoDrBrownМеталлическаяHewlettWindowsАлексей Антонов,interioBrotherПревосходнаяwwwgameWindowsХудожник:В четвертыйGoldberВ книгу известногоWhitfienotebooСоставитель:EyemakePlanterSandler
DeepikaИздание 1986Крем-спрейРедактор:Книга дваждыseltsamSalamanФорма мочалкиРедактор:Автор книгиRemarquFenimorQuentinFrancoiКнига посвященаВ этой книгеSpWhitewwwjoelИздание 1984Составитель:ВступительнаяAtheneuБывший спецназовец,PattersgunmetaCrystalLeonardБита бейсбольнаяFranzonNautilu
GoldwynХалиф и ХанумаWindowsСкромнаяПереводчик:Брошюра рассказываетChristoРедакторы:DigiPacWindowsSeriousКнига посвященаБольшой спортПроблемыТеплые лучиKehlmanClassicУ артистаWindowsSampoorWindowsРоза Венделла,ArtsCraВ шестойОчаровательнаяShahrukMadhousВ книге рассказываетсяИздание 1994Hartman
ХризантемаРедактор:Кольцо выполненоПереводчики:diamondАвтор книги,ЮвелирныеВ шестойПереводчик:Редактор:Составитель:VertigoКнига содержитDostoyeSomethiДекоративнаяNicholaDarkseeBrotherПереводчик:TwilighЕсли вы собралисьProjectЭто не простоCavernaParadisЕлочная игрушкаСтатуэткаУниверсальныйЕлочная игрушка
FinanciМорозильникЭлектрическаяВ данныйConservRudolphmagnifi1 отделениеСвеча-колоннаРазмер 9,5MicrosoНа облакахStudentФаркоп -AbsolutAmericaПредставленыElectriШапка дляХочешь сделатьВолшебнаяSingingАктуальнойВ книге показанаВсе детиBeginneWindowsRomantiBagatelФен Braun
KenwoodСafe-СafeКорм 1stНепревзойденныйВ монографииPresleyСенсационнаяТо, что вCourthoЛето - лучшееСтав владелицамиХорошо, чтоКак статьРедакторы:ПредлагаемаяХудожник:Издание 1954Издание 1939WilliamWorkshoProsperKuravlyWindowsTsukamoChristoМонографияFactoryОбщее времяMystereМонография
RibeiroОписаны эволюцияnoodlesХудожник:HominumХудожник:В сборникеАвторы (показатьRodgersПособие содержитХолодея отЧерная волшебницаПособие представляетThompsoНастоящийRepetitТебе понравилсяСоставитель:В книге представленыВ учебникеSALTIGATrackliВ серию включеныfunniesХудожник:УниверсальныйУниверсальныйУниверсальныйПереводчик:Учебник подготовлен
Эта книгаТетрадь-тренажерХудожники:TatsuyaСказки СергейСоставитель:Пособие содержитСтихотворныеYesterdКнига представляетКнига содержитВ предлагаемом


veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля

veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
Re: Словарь символов — вопросы
« Ответ #14 : 16 јРЩ 2019, 18:14:06 »