57anРазмер 300-страничному добавило недостаточное сглаживание букв
Я тоже это заметил. Видно, если лупой в WinDjView рассмотреть произвольные страницы обоих книг.
а они еще и большого размера, поэтому кодеру найти две похожие, чтобы объединить их в словаре, оказалось затруднительно.
А почему это так? Если в книге все буквы (а не часть) большого размера - почему это затрудняет поиск одинаковых букв?
Кроме того, из-за излишне жирной бинаризации многие буквы склеились между собой с тем же результатом.
Тоже заметил - и тоже это видно в лупу в WinDjView.
Мне кажется, что "склеенные" буквы - это более весомая причина завышения размера книги, нежели чем зазубренность букв. Вряд ли зазубренность так же сильно раздувает размер, как это делает склееность (но точно не могу сказать, это лишь предположение).
И ещё 300-страничной 900 КБ добавляет встроенный OCR - которого нет в 600-страничной.
И ещё такой момент: обе книги изобилуют чёрно-белыми рисунками в маске DjVu. Это тоже не способствует снижению размера файла. Может, именно из-за каких-то особенностей этих рисунков размеры обоих книг столь близки.
Но не факт, что эти рисунки следует отправлять в фон (ради снижения размера книги) - а вдруг они в фоне потом слишком размажутся...
И ещё - в 600-страничной в конце книги имеются цветные страницы - и всё равно её размер остался оптимальнее 300-страничной!
FilamatИнтересные примеры. Только я не знаю, что бы Вам посоветовать. Надо бы как-то контуры букв сглаживать - в 300-страничной. Я не знаю, как это делается. Вот Arcand в своей методичке это делает без проблем:
http://www.djvu-soft.narod.ru/scan/corel_scan.htm . Жаль, что его методика почти невоспроизводима по сложности.
Попробуйте действительно использовать Scan Tailor (СТ) - вдруг там более сглаженные буквы получатся...
Можно заодно (раз уж СТ будет использоваться) попробовать некоторые чёрно-белые рисунки сделать в СТ в Picture-зонах (чтобы потом в фон их отправить при DjVu-кодировании).
Можно ещё попробовать CPC Tool
http://www.djvu-soft.narod.ru/soft/cpc_tool_5_21.rar (112 КБ) - достаточно простой (в использовании) инструмент сглаживания контуров букв. Правда, его почему-то давно никто не использует. Наверное потому, что если им злоупотребить, то он уж слишком буквы обкорнает.
Да и выигрыш по размеру при его использовании всегда был минимален.
Инструкция по его применению внутри архива с программой.
Только вот как до кодирования книги угадать размер словаря? И что будет если его сделать неумеренно большим?
Да никак его обычно не угадывают. Каждый ставит, сколько кому нравится.
Чем больше словарь - тем больше будет торможение при чтении книги (навигации по ней). Можете хоть 1000 страниц словарь сделать (т.е. заведомо больше числа страниц в книге) - и тогда он будет один на всю книгу. Но производители фирменного DjVu-софта всегда советовали ставить словарь равным 10-20 страниц. Я, например, всегда ставлю словарь = 10, и не люблю больших словарей (именно из-за торможения).