Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - ivt

Страницы: [1]
1
Цитировать
Прога почему-то не создает гиперссылку на самую нижнюю строку на странице.
Показал исходники знакомому программисту, объяснил суть задачи. Он сказал что проблема здесь (файл contentm.cpp):
for (int j=0; j<lines.size()-1; j++)нужно заменить на
for (int j=0; j<lines.size(); j++)или
for (int j=0; j<=lines.size()-1; j++)Суть думаю понятна: в исходном варианте последняя линия просто не попадала в цикл обработки. Исправление же расширяют границы цикла чтобы он охватывал все линии  (от 0 до lines.size()-1 включительно).
Пробовал собрать с исправлениями  в QtCreatore, собралось, работает вроде правильно (проверял на этих файлах).

Также заметил еще одну особенность: если строка в содержании располагается на двух линиях, то гиперссылка будет сформирована только для второй линии (где встречается номер страницы). В примере, на котором я проверял, такие строки тоже есть. Также такие строки есть в этой книге.

2
Pdf / Re: PDF-технология ClearScan
« : 06 °ЯаХЫм 2015, 00:58:58 »
Наткнулся на такой проект от нынешнего разработчика ScanTailor - smoothscan.
Если я правильно понял то это дает возможность в словаре файла djvu заменять растровые символы на их сглаженные аналоги.

3
Общий / Re: Первая книга - первые впросы
« : 06 °ЯаХЫм 2015, 00:18:44 »
textsharik, спасибо за советы.
Цитировать
Я попробовал несколько методов размытия. По-моему, лучшие результаты (как по качеству, так и по размеру) даёт Кромсатор (Quality/Smooth=2).
СканКромсатор еще не освоил, пробовал в GIMP. При добавлении размытия буквы выглядят ровнее, но потом нужно делать бинаризацию (чтобы закодировать в DJVU) и тут все пиксельные неровности возвращаются. Поигрался и в итоге решил страницы с текстом оставить в том виде, в котором они получаются при экспорте из ScanTailor.

Цитировать
Странно. У меня получились сильно отличающиеся размеры:
Гаусс,2  -  54 кб;
Descreen - 75 кб;
Размер картинок в Вашем примере в 2 раза меньше (наверно делитель заднего фона=2), отсюда и разница тоже почти в 2 раза. У меня в этом случае такие цифры получились:
Гаусс с коэфф.=4 300dpi ДЗФ=2  68,1 Kb
Гаусс с коэфф.=5 300dpi ДЗФ=2  57,5 Kb
C Decreen экспериментировать не стал, все равно в пакетном режиме не знаю как его использовать в GIMP.
Сейчас обработал все иллюстрации с параметрами как приводил выше, получилось так (файл view.djvu от DjvuImager, содержит только 149 иллюстраций (из них 10 цветных), без текста):
Гаусс с коэфф.=4 300dpi ДЗФ=2  9,9 Mb
Гаусс с коэфф.=5 300dpi ДЗФ=2  8,5 Mb
Результирующий файл получился примерно 19,5 Mb (для Гаусса 4). Таким его и оставлю, т.к. хотя Гаусс с коэфф.=5 и меньше, но во-первых всего на 1,5 Мb, а во-вторых размытие больше.

Вот такие итоговые файлы получались в процессе:
Тест без иллюстраций                                                       9,5 Mb
Текст+Иллюстрации, Гаусс с коэфф.=2 300dpi ДЗФ=2  31,8 Mb
Текст+Иллюстрации, Гаусс с коэфф.=4 300dpi ДЗФ=2  19,5 Mb
Текст+Иллюстрации, Гаусс с коэфф.=5 300dpi ДЗФ=2  18,1 Mb
Похоже что для нормального преобразования растра в этом случае подходит размытие Гаусса с коэффициентом 4 (дальнейшее увеличение степени размытия почти не даёт выигрыша в размере, но зато усиливает размытие (уменьшает качество изображения)).
Фильтр Descreen тоже показывает неплохое качество размытия. Но нужно разбираться с его настройками и искать способ его пакетного применения к набору изображений.

4
Цитировать
Терпеть можно, но многовато. Это вина издательства, которое использовало дизеринг при печати текста.
Можно попробовать обработать текст каким-нибудь размывающим фильтром.
Действительно, в книге, если присмотреться, текст не монотонно черный, а с серыми точками внутри. Пробовал обрабатывать страницы с текстом до кодирования в Gimp Гауссовым размытием с коэффициентом 1 и 2. В результате (если сравнивать с той же страницей после ScanTailor, но без обработки) размер файла получается еще больше (процентов на 25 примерно).
Цитировать
300 dpi - в данном случае перебор. Descreen показывает, что оригинал имел разрешение 150 dpi.
Кроме того, гаусс явно не справляется с удалением растра. По-хорошему, надо использовать тот же Descreen.
(Descreen - это фильтр для Фотошопа. Не знаю, можно ли встроить его в GIMP).
Descreen для Gimp нашелся здесь.
Похоже что фильтра Гаусса с коэффициентом 2 действительно недостаточно. Если кодировать с разрешением 300 dpi (tiff), то имеем:
Исходное изображение - 1935,8 Кб;
Гаусс,2  -  808 Кб;
Descreen - 384,8 Кб;
Гаусс,4 - 183,5 Кб;
Гаусс,5  -  117 Кб;
(Параметры Descreen: Sensetivity=2, selection growth=16, ratio for middle preservation=5).
Причем, на мой взгляд, картинка после размытия Гауссом с коэффициентом 4 выглядит примерно как после Descreen, но размер после кодирования имеет в 2 раз меньше. Хотя можно еще попробовать разные настройки Descreen, но на это потребуется время. Пока склоняюсь к Гауссу с параметром 4.

5
Общий / Re: Каталогизация DjVu книг
« : 20 јРав 2015, 10:34:39 »
На домашнем компьютере пользуюсь Calibre. Умеет вытаскивать обложки, если нет то искать их по книжным магазинам. Из pdf и fb2 умеет читать метаинформацию (автор, название, год издания, жанр). Есть возможность добавлять теги, в том числе и свои. Например, в теги кроме ключевых слов добавляю служебную информацию о наличии оглавления, OCR, исправлениях в книге, программы с помощью которых производилась обработка. Категорий нет, но их могут заменить и теги. Также есть удобная возможность создать виртуальную библиотеку (как подмножество основной) на основе фильтра. Так у меня есть библиотека художественной литературы (все книги с тегом Library) и библиотека технической литературы (все книги с тегом Computer). Также в этой программе есть свой встроенный web-сервер (может пригодиться тем кто хочет иметь доступ к своей библиотеке отовсюду) (включается в настройках), где можно просматривать книги с обложками и метаинформацией.
Метаданные о книге хранятся рядом с ней в xml файле.
Из недостатков пока могу лишь отметить то, что книги копируются в каталог библиотеки, при этом русские названия очень интересно подвергаются транслитерации, что не сразу и найдешь папку с автором.
Из пожеланий есть хранение книг на своих местах в файловой системе и хранение метаданных (в том числе пользовательских) внутри самого файла с книгой.

6
Общий / Первая книга - первые впросы
« : 20 јРав 2015, 00:18:04 »
Решил создать свою первую собственноручно отсканированную книгу в формате DJVU. В основном руководствовался советами с этого сайта. За сайт отдельное спасибо его создателям - много полезной информации и ссылок.
Теперь о книге. Сканировал в оттенках серого в разрешением 600 dpi.
Обработка сканов производилась в ScanTailor Featured, страницы с иллюстрациями обрабатывались в смешанном режиме с последующим раздельным экспортом текста и иллюстраций.
Далее при помощи DjvuSmall собиралась книга с профилем UserBW.
При объеме в 640 страниц размер получился 9,5 Мб (без иллюстраций). Это не много?
Далее - обработка иллюстраций. Вставка и кодирование иллюстраций производится при помощи DjvuImager. В книге полчилось 139 страниц с иллюстрациями (еще много страниц со схематичными рисунками, выделять их  как иллюстрации не стал). Какое качество (ДЗФ,качество заднего фона) выбрать? Пробовал кодировать одну и туже страницу с разным dpi но размер готового одностраничного djvu почему-то не меняется. Ощутимо меняется размер (и качество) при повышении ДЗФ или указании качества заднего фона. При кодировании иллюстраций с качеством в 300 dpi и ДЗФ=2 размер книги получается примерно 45 Мб.
Далее попробовал к иллюстрациям применить гауссово размытие с коэффициентом 2 (скрипт для GIMP) и закодировать (300 dpi и ДЗФ=2) их заново. В результате размер всей книги уменьшился до 32 Мб. Если не использовать ДЗФ то книга получается около 92 Мб (на зато картинки выглядят четче).
В общем пока не ясно с какими настройками кодировать иллюстрации чтобы и выглядели прилично и размер был небольшой.
Еще в книге есть 2 цветные обложки и цветные страницы от спонсоров. Сейчас они кодируются с теми же настройками что и иллюстрации. Нужно ли их обрабатывать отдельно?

Обложка исходная
Обложка с размытием
Пример исходного скана с иллюстрацией
Отделенная иллюстрация
Иллюстрация с размытием


Страницы: [1]