Главное > Общий

Программа для генерации наименования и метаданных DjVu и PDF

(1/245) > >>

monday2000:
Давайте обсудим возможные варианты того, по какой системе назначать имена файлам DjVu-книг и какие XMP-метаданные вносить в DjVu-файлы (имеется в виду при самостоятельном создании DjVu-книги).

Сейчас для именования DjVu-файлов используется программа NameCreator http://www.djvu-soft.narod.ru/soft/namecreator.htm .

Есть мнение, что она уже немного устарела.

Идея топика в том, чтобы разработать на базе NameCreator некую новую программу (разумеется, свободно-бесплатную с открытыми исходниками), которая будет как генерировать имя файла для создаваемой DjVu-книги (по некоей системе), так и одновременно при этом позволять записывать XMP-метаданные в этот же самый DjVu-файл (причём будет соблюдаться некое соответствие между именем DjVu-файла и его XMP-метаданными).

(В продолжение темы http://www.djvu-scan.ru/forum/index.php?topic=34.msg262#msg262)

20.03.10
Тема переименована с "Система именования и метаданных DjVu" на "Программа для генерации наименования и метаданных DjVu".

Смысл данной темы - разработка и создание реальной программы, которая будет генерировать "говорящее" имя файла DjVu-книги + XMP-метаданные в этой DjVu-книге.

18.08.10
Тема переименована с "Система именования и метаданных DjVu" на "Программа для генерации наименования и метаданных DjVu и PDF".

monday2000:
Напомню свою идею "квалификатора качества":
(Из http://www.djvu-scan.ru/forum/index.php?topic=34.msg251#msg251)

--- Цитировать ---По поводу именования файлов: сейчас Name Creator прописывает в имени файла всякие условные обозначения качества DjVu-книги. Например, (T)(C)(K).

Идея хорошая, правда, ИМХО, с недостатками. Дело в том, что подобных признаков качества гораздо больше, чем имеется в Name Creator. Например:

1. Делали ли Deskew.
2. Искривлены ли строки.
3. Какой режим - серый/ч.б./
И т.д. и т.п.

Поэтому я бы предложил иной вариант: взять двоичное число - длиною, скажем, 16 бит. И каждому биту назначить тот или иной признак качества. 0 или 1 в данном бите будет означать наличие/отсутствие того или иного признака качества. Полученное 16-битное число - прописывать в имени файла - в шестнадцатиричном виде (для краткости). Это будет выглядеть как "1FD5" или "34AA".

Причём, можно в этом 16-битном числе назначить битам признаки качества по нарастающей важности - для того, чтобы чисто визуально, глядя на шестнадцатиричное число, можно было оценить уровень качества книги.

Также можно условно поделить весь диапазон значений 16-битного числа на 5 поддиапазонов - т.е. классы качества. Почему 5 - по аналогии со школьными оценками, т.е. как бы "выставлять" качеству DjVu-книги ту или иную оценку, как в школе - от 1 до 5. Тогда в дальнейшем опытный глаз, глянув на шестнадцатиричный индикатор уровня качества в имени файла, сразу умозрительно прикинет, к какому из 5 классов качества относится данная DjVu-книга. Плюс это можно будет в своей программе показывать.
--- Конец цитаты ---

monday2000:
Alfizik
Отвечу на Ваш пост http://www.djvu-scan.ru/forum/index.php?topic=34.msg262#msg262:

--- Цитировать ---Качество можно оценивать по объективным и субъективным критериям.
--- Конец цитаты ---
Резонно.

--- Цитировать ---Имхо, тогда оценивать можно по следующей системе (ввести несколько разрядов): 1 - ниже 300 dpi; 2 - 300 dpi; 3 - 450 (400) dpi; 4 - 600 dpi и 5 - выше 600 dpi. Возможно есть смысл  добавить и больше разрядов (короче требует обсуждения).
--- Конец цитаты ---
Я думаю, что для начала, в качестве рабочего варианта, давайте будем записывать DPI "как есть" - поскольку его значение так трудно формализовать. Т.е. так и писать: "300","600","150","200". Всё-таки, так будет наиболее просто и понятно.

--- Цитировать ---2.цвет книги
ч\б, отенки серого, цветная, малоцветная (менее 16, 8 или 4 цветов).
Наверняка там есть различные нюансы.
--- Конец цитаты ---
Не, там всё предельно чётко. Это определяется лишь наличием-отсутствием тех или иных чанков (что можно посмотреть в WinDjView).

--- Цитировать ---Различать ли какую методику применяли для битонизации (приведение к ч\б )?
--- Конец цитаты ---
Если я правильно понял, то нет. Что значит "методика битонизации"? Какой алгоритм бинаризации использовался и с какими параметрами?

--- Цитировать ---Убирали ли фон и приводили ли его к белому?
--- Конец цитаты ---
Это совсем уж экзотика. Думаю, это делают буквально единицы.

--- Цитировать ---Еще слышал можно обложку книги по разному обрабатывать.
--- Конец цитаты ---
Это совершенно несущественно.

--- Цитировать ---3. Deskew

4. Искривление строк

5. Наличие черных полос на разворотах.

6. Закодирована DjVu-книга в двойных разворотах или каждый лист отдельно.

7. Совпадает ли нумерация страниц книги с нумерацией листов в DjVu файле

8. Есть ли OCR-слой

9. Производилась ли чистка сканов от мелкого мусора (точек)?
Забыл как эта функция в СканКромсаторе называется.

10. Обрезались ли сканы и приводилось ли все поля к одному размеру?
Кажется в NameCreator-е это называется kromsated.
--- Конец цитаты ---
Вот это уже ИМХО более правильные критерии.

--- Цитировать ---Субъективные
--- Конец цитаты ---
Пока ничего не могу сказать. Это можно оставить "на потом" (для обсуждения).

monday2000:
Alfizik
У меня по поводу квалификатора качества такие соображения:

- Квалификатору качества следует иметь номер версии. Вряд ли мы сразу сможем безукоризненно верно определить критерии качества DjVu-книги. Номер версии я предлагаю писать до квалификатора и отделять от него подчёркиванием. Например, "1_FD45". Почему отделять подчёркиванием? Потому что неизвестно, сколько всего будет версий, а значит непонятно, сколько разрядов резервировать под номер версии.

- Программа, о которой я говорю (возможный расширенный аналог NameCreator - с возможностью записи XMP-метаданных), должна, пожалуй, быть способной работать не только с DjVu - но также и с PDF. Ведь XMP вообще-то пришло в DjVu из PDF.

Это означает, что мне потребуется какая-нибудь свободно-бесплатная консольная утилита, умеющая работать с PDF XMP. Кто-нибудь знает такую?

Кстати, давайте пока условно (для удобства) назовём как-нибудь такую гипотетическую программу. Например, "NameCreator-2", или "NC2".

Признаки качества нужно отранжировать по важности: сначала - самые важные, затем менее, и т.д.

Вот мои соображения (в порядке снижения важности - по критерию читабельности). Выражаюсь Вашими же словами:

1.
--- Цитировать ---Цвет книги.
--- Конец цитаты ---
Точнее, правильность выбора цвета книги. Я даже специально сделал пример DjVu, иллюстрирующий неправильный выбор цвета:

http://www.djvu-soft.narod.ru/scan/bad_colored_djvu.rar (120 КБ)

Такую книгу просто невозможно читать - только заново пересканировать.

2.
--- Цитировать --- Закодирована DjVu-книга в двойных разворотах или каждый лист отдельно.
--- Конец цитаты ---

3.
--- Цитировать --- Deskew.
--- Конец цитаты ---


4.
--- Цитировать --- Наличие черных полос на разворотах.
--- Конец цитаты ---
(Немного спорный признак. Бывает, что книга сделана, в общем-то, неплохо - только где-нибудь затесалась узёхонькая черная полоска).

5. 
--- Цитировать ---Обрезались ли сканы и приводилось ли все поля к одному размеру?
Кажется в NameCreator-е это называется kromsated.
--- Конец цитаты ---
Я бы сказал проще: "приводилось ли все поля к одному размеру?" Это ведь автоматически подразумевает обрезку.

Кстати - 4 и 5 как-то похожи друг на друга вроде бы.

6.
--- Цитировать ---Искривление строк.
--- Конец цитаты ---

7.
--- Цитировать ---Есть ли OCR-слой.
--- Конец цитаты ---

8. Есть ли отсутствующие страницы (либо куда-то отдельно это записывать).

9.
--- Цитировать ---Производилась ли чистка сканов от мелкого мусора (точек)?
Забыл как эта функция в СканКромсаторе называется.
--- Конец цитаты ---
Это называется "despeckle".

Критерий качества
--- Цитировать ---Совпадает ли нумерация страниц книги с нумерацией листов в DjVu файле
--- Конец цитаты ---
я бы вообще считал имеющим ничтожную важность. В крайнем случае, элементарно вставить пустые белые листы. Кстати, подобный критерий не всегда является критерием качества - иногда попадаются книги, где в самой бумажной книге чёрт знает какая нумерация - с римскими цифрами сначала, затем с обычными номерами, и т.п.


--- Цитировать ---Субъективные
--- Конец цитаты ---
Сюда бы я отнёс такой довольно ощутимый признак, как "качество букв". Не знаю, как это объективно описать. Обычно хорошее качество букв достигается апсемплингом с интерполяцией с 300 dpi до 600 dpi (в Scan Tailor это делается по-умолчанию, в ScanKromsator надо явно указывать). В результате, буквы получаются такими "жирненькими", и читать такую книгу гораздо приятнее.

В общем, субъективно я бы это назвал "колкость текста для глаз". Колкий текст хрен почитаешь - в больших количествах, а проинтерполированный до 600 dpi - одно загляденье. Хотя, в редких случаях, и на 300 dpi получается "жирненькие" буквы, не-колкие.

monday2000:
Ещё один субъективный признак качества: DjVu, сделанный по принципу DjVu Digital.

Т.е. это DjVu, полученный путём прямой конвертации некоего чисто векторного контента в DjVu. Например, по преобразованию PDF - DjVu, или печать на виртуальном DjVu-принтере текстового файла, или конвертор Office2007-DjVu.

Обычно такой DjVu имеет наивысшее возможное качество. Яркий пример такого DjVu-это спецификации формата DjVu в DjVu.

C другой стороны, в DjVu-книгосканировании DjVu Digital практически не применяется. Получается, что это больше как признак качества произвольного DjVu-файла - нежели чем именно DjVu-книги.

P.S. Тема переименована - см. самый первый пост.

Навигация

[0] Главная страница сообщений

[#] Следующая страница

Перейти к полной версии