Автор Тема: Обсуждение статьи "Сравнение форматов DjVu и PDF"  (Прочитано 48470 раз)

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Я написал статью:

Сравнение форматов DjVu и PDF

http://www.djvu-soft.narod.ru/scan/djvu_vs_pdf.htm

Топик создан для её возможности её обсуждения.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Я не слишком жалую pdf: файлы в сети в среднем ничуть не лучше djvu (даже электронные публикации - почти все делают в А4, дальше неприличное слово, характеризующее  умственный уровень делателей), моя электронная книга PB301+ их (pdf)  читает довольно плохо (хотя и попадаются читаемые неплохо, можно было бы сказать даже хорошо, если бы не врождённый недостаток "хороших" pdf ( и djvu тоже!) - серое по серому - что заметно только на нынешних E-ink экранах), работать с ними я не умею - проще из pdf сделать хороший djvu. Но Вы пишите:
Пользователи формата PDF не работают с ним на программном уровне - а только на уровне использования готовых PDF-программ. Как следствие, от них полностью сокрыты существенные недостатки формата PDF (очевидные PDF-программисту).
А с djvu что, иначе? Пользователи видят в основном плохие (а то и никудышные) djvu, и никакие достоинства WinDjvu не помогают.

Он плохо масштабируется (особенно на мобильных компьютерах - "мельчит" текст) 

А это вообще относится к любому растровому формату. Есть деятели, которые не только pdf, но и djvu выпускают форматом А4 и шрифтом 11pt - слов нет. Так он знаете как у меня на книжке мельчит - в точности, как такой же pdf - хотя читается проще - буковки обычно всё-таки пожирнее в djvu.
Ну и уж справедливости ради... Не ведает ведь pdf, что такое инь.

А когда о размерах файла идёт речь, кажется что Вы возражаете мне. Но я писал о неважно каком размере файлов только применительно к проблеме инь. Что экономически целесообразнее: 2 Mb с одним-двумя инями или 6 Mb без единого? Сейчас ответ, я думаю очевиден (так как размер файла большого значения не имеет). Возможно несколько лет назад так не казалось - в результате огромный массив книг требует пересканирования или перевода в fb2 (ну, или в epub - видимо он победит, так как fb2 знают только рускоязычные).
И вообще, не ждёт ли djvu и pdf забвение - новые книги будут выпускаться только в масштабируемых форматах.
« Последнее редактирование: 19 Октября 2010, 23:23:50 от SorokaSV »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
SorokaSV
Цитировать
А с djvu что, иначе? Пользователи видят в основном плохие (а то и никудышные) djvu, и никакие достоинства WinDjvu не помогают.
С DjVu так же. Я имел в виду, что некорректно говорить, что "PDF - хороший, а DjVu - плохой" даже не имея никакого понятия о качестве внутреннего устройства формата.
Цитировать
А это вообще относится к любому растровому формату.
Да, совершенно верно. Я, кстати, там в статье написал, что этот недостаток относится, скорее, к векторному PDF - а не к растровому.
Цитировать
Ну и уж справедливости ради... Не ведает ведь pdf, что такое инь.
Можно и DjVu сделать гарантированно без инь - использовать lossless-режим кодирования. Или же сканировать на 600 dpi (а не интерполировать с насканенного 300 dpi на 600 dpi). ИМХО инь опасен только в математических книгах - т.к. может исказить формулы, а в остальном инь - это не так уж страшно, да и бывает он крайне редко (если честно признать). Я вот на 600 dpi ни разу пока не видел.
Цитировать
Что экономически целесообразнее: 2 Mb с одним-двумя инями или 6 Mb без единого?
Трудно сказать. :) Наверное, смотря кому как нравится. И ещё смотря, сколько книг. Если 2-3 - тогда лучше без инь, а если тысячи - тогда лучше с инь.

Хотя лучше и 2 МБ, и без инь. ;D Надо просто научиться эффективно бороться с инь - вот и всё. Думаю, это реально. Просто проблема возникновения инь ещё малоизучена. Никто ведь даже не пытался анализировать код JB2-кодировщика - чтобы понять природу возникновения инь.

Я вообще думаю - что как ни крути - а принцип кодирования DjVu (сегментация + словарь разделённых символов) - это всё равно прогрессивнее, чем PDF. Растровый PDF уже отжил своё (но только как средство кодирования графических текстов), это очевидно. Разве что JBIG2 как-то поддержит PDF на плаву - но всё равно DjVu лучше - хотя бы потому, что внутренне более разумно устроен.
Цитировать
Возможно несколько лет назад так не казалось - в результате огромный массив книг требует пересканирования или перевода в fb2
А это лишь следствие несовершенства СканКромсатора или отсутствия Скан Тейлора. Я так думаю, что не надо их пересканировать. Надо сделать редактор маски - и просто оптом поменять некачественные шейпы на качественные (то ли автоматом, то ли вручную). Или же сделать нечто вроде ClearScan от Adobe - но для DjVu.
Цитировать
И вообще, не ждёт ли djvu и pdf забвение - новые книги будут выпускаться только в масштабируемых форматах.
Да - но а что делать с огромными массивами бумажных книг в обычных библиотеках? Их то надо оцифровать и выложить в Интернет - все книги до единой.

Как мне кажется, будущее в том, что разовьётся искусственный интеллект - который породит OCR-системы нового поколения. И тогда автоматика сможет из любого скана полностью автоматически сделать векторный PDF (грубо говоря).
« Последнее редактирование: 20 Октября 2010, 09:27:18 от monday2000 »

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Да, инь пожалуй совсем не страшно, но почему-то очень противно.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
SorokaSV
Цитировать
Да, инь пожалуй совсем не страшно, но почему-то очень противно.
Как мне кажется, сравнивая растровый PDF и DjVu, уместно рассуждать общими категориями: DjVu по своему замыслу и архитектуре очевидно гораздо совершеннее, чем PDF - для оцифровки графических текстов.

Я так думаю, что не может нечто принципиально отсталое (растровый PDF) считаться лучше нечто принципиально прогрессивного (DjVu). А если всё-таки в DjVu и найдутся какие-то щероховатости - по сравнению с растровым PDF - то это ИМХО в значительной мере поправимо - главное - это суть (продвинутости DjVu по отношению к растровому PDF).

Просто форматом DjVu мало занимались (после его создания) - поэтому он сейчас и кажется "хуже". Нужно просто "дать ладу" формату DjVu (развитием самодельного DjVu-софта) - тогда его преимущество покажется неоспоримым даже самым закоренелым сторонникам растрового PDF.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
На форуме сайта http://www.the-ebook.org/ появилась тема: "А не попробовать ли наш новый DJVU to PDF eBook converter?" Вот первый пост:

"Конвертер бесплатный, без баннеров и рекламы, работает на Mac, Win, Linux.

Предоставляет следующие инструменты:

Обрезание полей
Разрезание страницы на 2 части для чтения в landscape ориентации ридера.
Разрезание сканов двухстраничных разворотов
Отбеливание фона
"Зачернение" серого текста


От себя ещё могу добавить: ждать чуда от DjVu формата на eink ридере не приходится - постоянные компромиссы и неудобства связанные с малым размером устройств и числом градаций серого. А DjVU - это, как правило, полностраничные сканы. Так что конвертер могу порекомендовать только в случае, если ооочень нужная книга или журнал существует лишь в виде DjVu, других возможностей читать её на ридере нет и потому приходится смириться с существенными неудобствами и корявостью сканированного текста.

Взять можно здесь: http://pd4ml.com/djvu.htm

Программа писалась для себя, коммерческой выгоды не предполагалось, потому, надеюсь, публикация ссылки как спам воспринята не будет."

Вот такие пироги.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
SorokaSV
Спасибо за ссылку. ;)
Цитировать
От себя ещё могу добавить: ждать чуда от DjVu формата на eink ридере не приходится - постоянные компромиссы и неудобства связанные с малым размером устройств и числом градаций серого.
Так все E-Ink ридеры - это ещё пока "гадкие утята". Их расцвет ещё далеко не наступил. Поэтому и с DjVu не всё у них гладко.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
SorokaSV

Так все E-Ink ридеры - это ещё пока "гадкие утята". Их расцвет ещё далеко не наступил. Поэтому и с DjVu не всё у них гладко.

Должен сказать, на моём E-ink ридере с Djvu во много раз лучше, чем с pdf (хотя, конечно, далеко не всё гладко - плюс программисты ридеров не собираются похоже совсем работать с djvu).
Кстати, количество сообщений у меня что-то давно не меняется - чего то с подсчётом.
« Последнее редактирование: 25 Октября 2010, 23:09:01 от SorokaSV »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
SorokaSV
Цитировать
плюс программисты ридеров не собираются похоже совсем работать с djvu
Это как раз из-за того, что E-Ink читалки пока не являются популярно-массовым продуктом. Как только они станут таковыми - очень быстро появятся и достойные DjVu-просмотрщики под них.
Цитировать
Кстати, количество сообщений у меня что-то давно не меняется - чего то с подсчётом.
Так во флеймовом топике сообщения не подсчитываются. 8) Да и разве это так важно - сколько сообщений? ;) Мы тут все равны и занимаемся общим делом.
« Последнее редактирование: 26 Октября 2010, 21:30:10 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Любопытное обсуждение по теме:

http://www.linux.org.ru/forum/talks/4279640

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Обсуждение статьи "Сравнение форматов DjVu и PDF"
« Ответ #10 : 05 Декабря 2010, 13:57:46 »
Интересное высказывание от Astra55 с Руборда http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&start=1400#10 :
Цитировать
Прочитал очередной опус незабвенного monday2000 на тему DjVu vs. PDF. Вот уж воистину - простота хуже воровства. Ведь невооруженным глазом видно, что DjVu хоть и медленно, но зато верно, приказывает долго жить, а monday2000 пытается хоронить PDF, старательно отделяя вектор от контейнера. Не может формат держаться только на самоделках, пусть их штампуют хоть под десять штук в день. А новые софты от нового хозяина DjVu не могут вызвать ничего, кроме рвотного рефлекса. Безусловно, DjVu применяется и будет еще достаточно долго применяться, но уровень этого применения останется в прошлом веке. Кроме фанатизма, есть еще и объективная реальность. С нее надо начинать, а не пытаться вешать на уши читателям засохшую лапшу.
С моей точки зрения, главный тезис в этом посте - это "Не может формат держаться только на самоделках".

Пожалуй, это один из фундаментальных вопросов относительно формата DjVu.

Интересно, почему формат "не может формат держаться только на самоделках". (?) Если посмотреть внимательно на последние годы - то основное развитие формата DjVu идёт как раз на "самодельном", любительском уровне.

Может, подразумевается, что любители не в силах сделать столь же качественные программы, что и платные профессионалы? Но и эта мысль опровергается жизнью - достаточно сравнить броузерный DjVu-плагин и WinDjView.

И потом непонятно - а как же Linux? Это же целая операционная система - и причём полностью "самодельная" - и ничего, прекрасно она "держится только на самоделках" - и даже успешно конкурирует с Microsoft (в некоторых нишах). Так операционная система - это же не какой-то там формат - это куда как сложнее.

Мне так кажется, что будущность формата DjVu, а особенно развитие программ для работы с DjVu, во многом будет именно "самодельным" - а не "официальным". Пожалуй, в этом отношении форматы PDF и DjVu соотносятся как Windows и Linux.

Свежий пример - введение Леоном Боту поддержки XMP-метаданных в djvused. Вот как Леон прокомментировал это событие:
Цитировать
Xmp is only used to annotate documents for archival etc.
No viewer implements XMP and this is why the spec says that the old metadata should be kept in sync.
Also I have seen Lizardtech, then Celartem, then Caminova.
DjVuLibre lasts longer than companies it seems.
То есть, Леон просто открыто плюнул на Caminova - и взял, да ввёл в формат DjVu то, что сам посчитал нужным. Вот так-то.

Так что, если уж сам Леон Боту так поступает - то это важный сигнал.

Если говорить о развитии программ по работе с DjVu - то тут, с моей точки зрения, почти всё в наших руках - т.е. в руках любителей формата DjVu. Единственная принципиальная сложность - это "дотягивание" самодельного JB2-кодировщика (minidjvu) до уровня его коммерческих аналогов. Это, пожалуй, самая главная и самая тяжёлая задача, стоящая в данный момент перед неформальным DjVu-сообществом.

Но, сказать честно, этой проблемой ещё никто не занимался всерьёз, как следует. Даже Илья Межиров, по его словам, мог бы куда как больше усилий приложить в данном направлении.

Так что ИМХО задачу самодеятельного улучшения JB2-кодировщика не назовёшь нереализуемой.

А все остальные задачи в плане создания хороших DjVu-программ - уж точно разрешимые силами любителей. Это, как говорится, "не вопрос". Это лишь вопрос времени - и достаточно ближайшего.

Сам по себе формат DjVu (в плане его спецификации) не является каким-то там устаревшим или плохим. Фундаментальные алгоритмы, заложенные в формат DjVu (Z-Coder, IW44, JB2), вполне современны и полностью отвечают желаемым требованиям. Тут "самодельщикам" вообще ничего даже и делать не надо.

Так что мне не совсем ясна мысль Astra55, который сказал, что "не может формат держаться только на самоделках". Пока что жизнь демонстрирует ровно противоположное явление - формат DjVu процветает и расширяет своё распространение и влияние (по крайней мере в Рунете). Именно такова "объективная реальность", если говорить терминами Astra55.
« Последнее редактирование: 05 Декабря 2010, 13:59:31 от monday2000 »

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: Обсуждение статьи "Сравнение форматов DjVu и PDF"
« Ответ #11 : 06 Декабря 2010, 16:09:04 »
О держании на самоделках.
Наверное, имеется в виду, что независимо от качества, выживает то, что поддерживается многоденежным производителем. Вот операционки. Самая распространённая - Windows, но как говорят, из всех вариантов она самая плохая (я не знаю, работал только в NortonC и Windows). Djvu ждёт судьба Linux (в своём масштабе) - и разве это плохо?
Другое дело, что программисты - это только Вы. Но это тоже о масштабах.
« Последнее редактирование: 06 Декабря 2010, 16:10:53 от SorokaSV »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Обсуждение статьи "Сравнение форматов DjVu и PDF"
« Ответ #12 : 07 Декабря 2010, 09:10:08 »
SorokaSV
Цитировать
Другое дело, что программисты - это только Вы.
Ну почему же только я - есть и немало других. Если проанализировать все самодельные DjVu-программы (а их уже немало) - то хорошо заметно, что их авторами являются преимущественно русскоязычные программисты.

Пока нужно пользоваться тем, что есть Леон Боту, и что он охотно сотрудничает. Без него было бы гораздо тяжелей. Именно Леон - главный координатор самодеятельного DjVu - в лице DjVuLibre.

alexs13

  • Новичок
  • *
  • Сообщений: 3
    • Просмотр профиля
    • E-mail
Re: Обсуждение статьи "Сравнение форматов DjVu и PDF"
« Ответ #13 : 08 Декабря 2010, 21:32:58 »
... Самая распространённая - Windows, но как говорят, из всех вариантов она самая плохая...
Windows - возможно и не самая плохая, но наиболее распространенная. Под нее разработано куча приложений. В данном случае сработал фактор лидерства - первичности. Можно привести и другие примеры, по другим программным продуктам - деградирующим, отстающим в развитии, но более известным и распространенным. Аналогично и здесь PDF и DjVu. Очень часто можно встретить: "Чем открыть DjVu?" и очень редко "Чем открыть PDF?".  Народ привык уже к одному формату, он его полностью устраивает, но время возьмет свое, в том случае если формат докажет свои преимущества. Фактор размера уже не так важен...
« Последнее редактирование: 08 Декабря 2010, 21:35:11 от alexs13 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Вот здесь http://forum.ru-board.com/topic.cgi?forum=5&topic=29984&start=1100#17 bolega, автор СканКромсатора, высказал следующую мысль:
Цитировать
Сделал сейчас pdf. Размер почти как после МПФ, но качество чуть-чуть лучше (меньше размытость в изначально малоконтрастной области). Но это все нюансы реализации кодеков, так что Вы абсолютно правы, что

Цитировать
Цитата:При одинаковых размерах/потерях iw44 и jpeg200 практически одинаковы

Но! Если я задам для pdf jpg2000 качество=100%, то я получаю практически безпотерьный pdf размером в 1,5 раза больше чем при photo-МПФ. В djvu мне не удалось получить такое же качество в photo-режиме. Возможно, что в djvu такая либеральность просто не предусмотрена.
Я отправил письмо Леону Боту с вопросом, можно ли ещё снизить агрессивность DjVuPhoto? Вот что он мне ответил:
Цитировать
You can make very large quasi-lossless iw44 if you want:
  % c44 -slice 999 -crcbfull foo.ppm foo.djvu
So I do not get the argument.
What do they call the "max quality" settings?

Anyway, one should always compare with something constant, either size or quality.

The main differences between jpeg2k and iw44 are the following:
- iw44 is very optimized for speed
- iw44 offers less adjustment for high quality: the slice parameter is not very fine grained there.
- iw44 uses a different wavelet that generates a bit more artefacts but runs much faster.

See <http://leon.bottou.org/slides/djvu/index.djvu?djvuopts&page=24>
You can click on some of the bars to see how the images look like (this was compressed using
the specified method and recompressed using quasi-lossless djvu for displaying purposes.)

- L.