Главное > Общий
Программа для генерации наименования и метаданных DjVu и PDF
monday2000:
Давайте обсудим возможные варианты того, по какой системе назначать имена файлам DjVu-книг и какие XMP-метаданные вносить в DjVu-файлы (имеется в виду при самостоятельном создании DjVu-книги).
Сейчас для именования DjVu-файлов используется программа NameCreator http://www.djvu-soft.narod.ru/soft/namecreator.htm .
Есть мнение, что она уже немного устарела.
Идея топика в том, чтобы разработать на базе NameCreator некую новую программу (разумеется, свободно-бесплатную с открытыми исходниками), которая будет как генерировать имя файла для создаваемой DjVu-книги (по некоей системе), так и одновременно при этом позволять записывать XMP-метаданные в этот же самый DjVu-файл (причём будет соблюдаться некое соответствие между именем DjVu-файла и его XMP-метаданными).
(В продолжение темы http://www.djvu-scan.ru/forum/index.php?topic=34.msg262#msg262)
20.03.10
Тема переименована с "Система именования и метаданных DjVu" на "Программа для генерации наименования и метаданных DjVu".
Смысл данной темы - разработка и создание реальной программы, которая будет генерировать "говорящее" имя файла DjVu-книги + XMP-метаданные в этой DjVu-книге.
18.08.10
Тема переименована с "Система именования и метаданных DjVu" на "Программа для генерации наименования и метаданных DjVu и PDF".
monday2000:
Напомню свою идею "квалификатора качества":
(Из http://www.djvu-scan.ru/forum/index.php?topic=34.msg251#msg251)
--- Цитировать ---По поводу именования файлов: сейчас Name Creator прописывает в имени файла всякие условные обозначения качества DjVu-книги. Например, (T)(C)(K).
Идея хорошая, правда, ИМХО, с недостатками. Дело в том, что подобных признаков качества гораздо больше, чем имеется в Name Creator. Например:
1. Делали ли Deskew.
2. Искривлены ли строки.
3. Какой режим - серый/ч.б./
И т.д. и т.п.
Поэтому я бы предложил иной вариант: взять двоичное число - длиною, скажем, 16 бит. И каждому биту назначить тот или иной признак качества. 0 или 1 в данном бите будет означать наличие/отсутствие того или иного признака качества. Полученное 16-битное число - прописывать в имени файла - в шестнадцатиричном виде (для краткости). Это будет выглядеть как "1FD5" или "34AA".
Причём, можно в этом 16-битном числе назначить битам признаки качества по нарастающей важности - для того, чтобы чисто визуально, глядя на шестнадцатиричное число, можно было оценить уровень качества книги.
Также можно условно поделить весь диапазон значений 16-битного числа на 5 поддиапазонов - т.е. классы качества. Почему 5 - по аналогии со школьными оценками, т.е. как бы "выставлять" качеству DjVu-книги ту или иную оценку, как в школе - от 1 до 5. Тогда в дальнейшем опытный глаз, глянув на шестнадцатиричный индикатор уровня качества в имени файла, сразу умозрительно прикинет, к какому из 5 классов качества относится данная DjVu-книга. Плюс это можно будет в своей программе показывать.
--- Конец цитаты ---
monday2000:
Alfizik
Отвечу на Ваш пост http://www.djvu-scan.ru/forum/index.php?topic=34.msg262#msg262:
--- Цитировать ---Качество можно оценивать по объективным и субъективным критериям.
--- Конец цитаты ---
Резонно.
--- Цитировать ---Имхо, тогда оценивать можно по следующей системе (ввести несколько разрядов): 1 - ниже 300 dpi; 2 - 300 dpi; 3 - 450 (400) dpi; 4 - 600 dpi и 5 - выше 600 dpi. Возможно есть смысл добавить и больше разрядов (короче требует обсуждения).
--- Конец цитаты ---
Я думаю, что для начала, в качестве рабочего варианта, давайте будем записывать DPI "как есть" - поскольку его значение так трудно формализовать. Т.е. так и писать: "300","600","150","200". Всё-таки, так будет наиболее просто и понятно.
--- Цитировать ---2.цвет книги
ч\б, отенки серого, цветная, малоцветная (менее 16, 8 или 4 цветов).
Наверняка там есть различные нюансы.
--- Конец цитаты ---
Не, там всё предельно чётко. Это определяется лишь наличием-отсутствием тех или иных чанков (что можно посмотреть в WinDjView).
--- Цитировать ---Различать ли какую методику применяли для битонизации (приведение к ч\б )?
--- Конец цитаты ---
Если я правильно понял, то нет. Что значит "методика битонизации"? Какой алгоритм бинаризации использовался и с какими параметрами?
--- Цитировать ---Убирали ли фон и приводили ли его к белому?
--- Конец цитаты ---
Это совсем уж экзотика. Думаю, это делают буквально единицы.
--- Цитировать ---Еще слышал можно обложку книги по разному обрабатывать.
--- Конец цитаты ---
Это совершенно несущественно.
--- Цитировать ---3. Deskew
4. Искривление строк
5. Наличие черных полос на разворотах.
6. Закодирована DjVu-книга в двойных разворотах или каждый лист отдельно.
7. Совпадает ли нумерация страниц книги с нумерацией листов в DjVu файле
8. Есть ли OCR-слой
9. Производилась ли чистка сканов от мелкого мусора (точек)?
Забыл как эта функция в СканКромсаторе называется.
10. Обрезались ли сканы и приводилось ли все поля к одному размеру?
Кажется в NameCreator-е это называется kromsated.
--- Конец цитаты ---
Вот это уже ИМХО более правильные критерии.
--- Цитировать ---Субъективные
--- Конец цитаты ---
Пока ничего не могу сказать. Это можно оставить "на потом" (для обсуждения).
monday2000:
Alfizik
У меня по поводу квалификатора качества такие соображения:
- Квалификатору качества следует иметь номер версии. Вряд ли мы сразу сможем безукоризненно верно определить критерии качества DjVu-книги. Номер версии я предлагаю писать до квалификатора и отделять от него подчёркиванием. Например, "1_FD45". Почему отделять подчёркиванием? Потому что неизвестно, сколько всего будет версий, а значит непонятно, сколько разрядов резервировать под номер версии.
- Программа, о которой я говорю (возможный расширенный аналог NameCreator - с возможностью записи XMP-метаданных), должна, пожалуй, быть способной работать не только с DjVu - но также и с PDF. Ведь XMP вообще-то пришло в DjVu из PDF.
Это означает, что мне потребуется какая-нибудь свободно-бесплатная консольная утилита, умеющая работать с PDF XMP. Кто-нибудь знает такую?
Кстати, давайте пока условно (для удобства) назовём как-нибудь такую гипотетическую программу. Например, "NameCreator-2", или "NC2".
Признаки качества нужно отранжировать по важности: сначала - самые важные, затем менее, и т.д.
Вот мои соображения (в порядке снижения важности - по критерию читабельности). Выражаюсь Вашими же словами:
1.
--- Цитировать ---Цвет книги.
--- Конец цитаты ---
Точнее, правильность выбора цвета книги. Я даже специально сделал пример DjVu, иллюстрирующий неправильный выбор цвета:
http://www.djvu-soft.narod.ru/scan/bad_colored_djvu.rar (120 КБ)
Такую книгу просто невозможно читать - только заново пересканировать.
2.
--- Цитировать --- Закодирована DjVu-книга в двойных разворотах или каждый лист отдельно.
--- Конец цитаты ---
3.
--- Цитировать --- Deskew.
--- Конец цитаты ---
4.
--- Цитировать --- Наличие черных полос на разворотах.
--- Конец цитаты ---
(Немного спорный признак. Бывает, что книга сделана, в общем-то, неплохо - только где-нибудь затесалась узёхонькая черная полоска).
5.
--- Цитировать ---Обрезались ли сканы и приводилось ли все поля к одному размеру?
Кажется в NameCreator-е это называется kromsated.
--- Конец цитаты ---
Я бы сказал проще: "приводилось ли все поля к одному размеру?" Это ведь автоматически подразумевает обрезку.
Кстати - 4 и 5 как-то похожи друг на друга вроде бы.
6.
--- Цитировать ---Искривление строк.
--- Конец цитаты ---
7.
--- Цитировать ---Есть ли OCR-слой.
--- Конец цитаты ---
8. Есть ли отсутствующие страницы (либо куда-то отдельно это записывать).
9.
--- Цитировать ---Производилась ли чистка сканов от мелкого мусора (точек)?
Забыл как эта функция в СканКромсаторе называется.
--- Конец цитаты ---
Это называется "despeckle".
Критерий качества
--- Цитировать ---Совпадает ли нумерация страниц книги с нумерацией листов в DjVu файле
--- Конец цитаты ---
я бы вообще считал имеющим ничтожную важность. В крайнем случае, элементарно вставить пустые белые листы. Кстати, подобный критерий не всегда является критерием качества - иногда попадаются книги, где в самой бумажной книге чёрт знает какая нумерация - с римскими цифрами сначала, затем с обычными номерами, и т.п.
--- Цитировать ---Субъективные
--- Конец цитаты ---
Сюда бы я отнёс такой довольно ощутимый признак, как "качество букв". Не знаю, как это объективно описать. Обычно хорошее качество букв достигается апсемплингом с интерполяцией с 300 dpi до 600 dpi (в Scan Tailor это делается по-умолчанию, в ScanKromsator надо явно указывать). В результате, буквы получаются такими "жирненькими", и читать такую книгу гораздо приятнее.
В общем, субъективно я бы это назвал "колкость текста для глаз". Колкий текст хрен почитаешь - в больших количествах, а проинтерполированный до 600 dpi - одно загляденье. Хотя, в редких случаях, и на 300 dpi получается "жирненькие" буквы, не-колкие.
monday2000:
Ещё один субъективный признак качества: DjVu, сделанный по принципу DjVu Digital.
Т.е. это DjVu, полученный путём прямой конвертации некоего чисто векторного контента в DjVu. Например, по преобразованию PDF - DjVu, или печать на виртуальном DjVu-принтере текстового файла, или конвертор Office2007-DjVu.
Обычно такой DjVu имеет наивысшее возможное качество. Яркий пример такого DjVu-это спецификации формата DjVu в DjVu.
C другой стороны, в DjVu-книгосканировании DjVu Digital практически не применяется. Получается, что это больше как признак качества произвольного DjVu-файла - нежели чем именно DjVu-книги.
P.S. Тема переименована - см. самый первый пост.
Навигация
Перейти к полной версии