Главное > DjVu

Словарь символов — вопросы

(1/615) > >>

Mandor:
Пожалуйста, обясните более подробно об словарь символов, которой използуеться в JB2.
– Как работает схема „одинь словарь для несколько страниц“? Етот словарь – самостоятельной чанк (похоже, что нет) или что?
– Что случается с етот словарь, когда извлекаем страницу из djvu, сделан например через --pages-per-dict=10? Копируеться?
– Существует ли возможност обединять словари, когда обединяем одностраничние djvu? Или они остаются независимые?
И т.д., и т.д. – любая информация будет очень полезна.
Спасибо заранее.

monday2000:
Mandor
Я в этом слабо разбираюсь. Вот попробуйте почитать:

http://www.djvu-soft.narod.ru/jb2cmp.htm
http://www.djvu-soft.narod.ru/ddjvuapi.htm


--- Цитировать ---Пожалуйста, обясните более подробно об словарь символов, которой използуеться в JB2.
--- Конец цитаты ---
Чтобы понять все эти подробности, необходимо смотреть файлы JB2Image.cpp, JB2Image.h, JB2EncodeCodec.cpp и т.п.

--- Цитировать ---Етот словарь – самостоятельной чанк (похоже, что нет) или что?
--- Конец цитаты ---
Насколько я знаю - да, это самостоятельный чанк (djbz). Вообще читайте спецификацию DjVu http://djvu.org/docs/DjVu3Spec.djvu :

--- Цитировать ---7.2.2 Including shared information
In many cases, efficiencies can be achieved by sharing JB2 shape
definitions and/or annotations across pages. To facilitate this, any DjVu image file contained in a multipage file may contain an “INCL” chunk containing the ID of a shared component file. The
decoder processes the chunks contained in the shared component file as if the DjVu image file contained them. All relevant pages include this shared component file. Although they appear in several pages, these shared shapes are encoded only once in the
document.
A shared component file is composed of a single “FORM:DJVI” potentially containing any information otherwise allowed in a DjVu image file (except for the “INFO” chunk of course).
--- Конец цитаты ---

--- Цитировать ---– Что случается с етот словарь, когда извлекаем страницу из djvu, сделан например через --pages-per-dict=10? Копируеться?
--- Конец цитаты ---
Да, копируется. И вставляется в извлечённую страницу.

--- Цитировать ---– Существует ли возможност обединять словари, когда обединяем одностраничние djvu? Или они остаются независимые?
--- Конец цитаты ---
Теоретически это возможно, но на практике пока что словари НЕ объединяются (остаются независимые). Поэтому свободно вырезать-вставлять страницы в многостраничном DjVu не рекомендуется - размер увеличивается.

Mandor:
Спасибо за ответы.
Разсмотрим такой случай — журнал A4 из 60 стр, много текст, несколко десятка полутоновые изображения, почти все заголовки — цветные (однотоновые). Есть и текст поверх цветной фон (тоже однотонов).
Как посоветуете обработывать такой журнал?
Если оставлю заголовки в BG, для них вполне достаточно 25-75 dpi, но картинки должны быть не менее чем 150 dpi, иначе плохо выглядут. Как можно совместить ето в метод подклейки фона (или как там у него последнее название  ::))?
Если поставлю заголовки в FG и попробую раскрасить их через метод раскраски маски, то надо разобрать djvu на отделные страницы, раскрасить, а потом тупо слепить обратно, при чем теряю оптимизацию через словарь символов.

Кстати, прочитал здесь все, написано о DjVu (статии и форум), но еще не могу переварить все прочитаное. Пока делал только ч/б текст + цветные картинки (через МПФ); получаеться очень хорошо. Но впервые мне приходиться работать с цветной текст. Так что — пожалуйста, помогите разобраться.  :'( Как сделать оптимальный DjVu из такова журнала? Сложность обработки не имеет особое значение.

Mandor:
В общем, сумел сделать djvu, в которой (почти) все находится в FG. Сработало только при указывание всех трех параметров: pix-filter-level=0, shape-filter-level=0 и threshold-level=0. Но все-таки в етот файл есть BG, около 3-4 KB, в которой есть какие-то пятна из бумаги. Не нравиться.

monday2000:
Mandor

--- Цитировать ---Как посоветуете обработывать такой журнал?
--- Конец цитаты ---
К сожалению, чётких рекомендаций дать не могу. :( Цветные журналы - самый трудный случай, для них пока нет простой общей методики.

--- Цитировать ---Есть и текст поверх цветной фон (тоже однотонов).
--- Конец цитаты ---
Именно в этом и сложность. Можно попытаться разделить такой фон и наложенный на него текст. Я когда-то делал пробную утилитку именно для такого случая:

http://www.djvu-soft.narod.ru/soft/subtract_images.rar

См. http://www.djvu-scan.ru/forum/index.php?topic=76.msg707#msg707 .

Эта утилитка позволяет вычесть из одного изображения другое. Берёте исходное изображение текста на равномерном цветном фоне. Аккуратно бинаризуете его - получаете "только текст". Это в дальнейшем будет как передний субскан. Затем из исходного изображения вычитаете "только текст" - получаете "только фон" - т.е. задний субскан. Дальше работаете с полученными субсканами как в обычном методе подклейки фона.

Это, увы, лишь экспериментальная возможность (к тому же, пока что весьма неудобная в практическом применении) - подобный способ разделения текста и фона слишком груб и примитивен.

--- Цитировать ---Если поставлю заголовки в FG и попробую раскрасить их через метод раскраски маски, то надо разобрать djvu на отделные страницы, раскрасить, а потом тупо слепить обратно, при чем теряю оптимизацию через словарь символов.
--- Конец цитаты ---
Нет, не надо разбирать DjVu на отдельные страницы для этого. Воспользуйтесь моей программой DjVu Pal v1.1 http://www.djvu-soft.narod.ru/soft/djvu_pal_v1_1.rar - там внутри есть инструкция по использованию.

--- Цитировать ---Но все-таки в етот файл есть BG, около 3-4 KB, в которой есть какие-то пятна из бумаги. Не нравиться.
--- Конец цитаты ---
Пытаться подобрать оптимальные параметры documenttodjvu - весьма непросто. Я бы предпочёл всё-таки ручную сегментацию - а не игры с автоматической.

Навигация

[0] Главная страница сообщений

[#] Следующая страница

Перейти к полной версии