Главное > Общий

Программа для генерации наименования и метаданных DjVu и PDF

<< < (2/245) > >>

monday2000:
Ещё один субъективный признак качества: DjVu-книга, полученная при помощи цифрового фотоаппарата - а не сканера.

Вот пример такой книги (довольно любопытно):

http://ifolder.ru/16907196  (10,6 МБ)


--- Цитировать ---Фотик Cannon A540,с выключенной вспышкой. Больше ничего, только после того как выделил в кромсаторе картинки - отдельно каждую (штук 300, включая все буквицы в начале глав) обработал в фотошопе на предмет уровней белого. Иначе очень некрасиво выходило.
--- Конец цитаты ---

57an:

--- Цитировать ---Ещё один субъективный признак качества: DjVu-книга, полученная при помощи цифрового фотоаппарата
--- Конец цитаты ---
Нужно ли выделять ее из группы "искривление строк"? Другой вопрос, что искривления разные - есть возле корешка - когда буквы в кучу собираются, есть когда корешок прижат хорошо, но страница в другом месте не прижалась - небольшие локальные искривления. А есть фотоискажения - трапеция и (или) подушка всей страницы в целом.
Кстати, отдельная особенность фотосканов - сложность определения dpi. Вот в приведенной книге реальное dpi вполне может колебаться даже для соседних страниц разворота, например 1147.1 на одной странице и 1149.4 на другой - в зависимости от расстояния страницы до объектива фотоаппарата.

По-моему классификацию, как и обработку, следует делить на 3 категории -
качество скана - dpi; фотоскан, сканер, скриншот с электронной книги или электронная книга.

пре-djvu-обработка - тупо по этапам СТ + удаление растра + тоновая коррекция

кодирование в djvu - профиль кодирования - простой - bitonal, photo; или смешанный - scanned или photo+bitonal или photo + posterized (с указанием dpi для background). Плюс степень сжатия background (в приведенной фотокниге при отличном кодировании иллюстрации чуть пережаты - это видно при их увеличении).

monday2000:
57an

--- Цитировать ---Нужно ли выделять ее из группы "искривление строк"?
--- Конец цитаты ---
Я пока не знаю. Пока просто собираю информацию. Вопрос признаков качества DjVu-книги непростой.

Понятно, что мало кто из книгосоздателей вообще захочет прописывать в имени файла точный квалификатор качества. Многие вообще не знают и знать не хотят - что такое Deskew и т.д.

Значит, юзвери будут писать в качестве квалификатора качества заведомую лабуду - которая будет только с толку сбивать.

Это только в больших сетевых библиотеках, надеюсь, станут правильно именовать собранные книги.

Можно сделать, скажем, 2 квалификатора качества: один - краткий - для записывания в имя файла, второй - полный - для записывания в XMP-метаданные DjVu-файла. Хотя не факт, что это нужно - просто как идея.

Такой момент ещё: NameCreator, как известно, не даёт 100% обратимости русский-транслит. Мне это пока что кажется неправильным - хотелось бы именно полную обратимость (для программного преобразования, например).

monday2000:
Сегодня я случайно заметил, что, оказывается, djvused уже поддерживает работу с XMP-метаданными DjVu-файла! Это видно из её документации http://djvu.sourceforge.net/doc/man/djvused.html (в самом низу страницы выше фразы "LIMITATIONS"):

--- Цитировать ---(metadata ... (key value) ... )
Define meta-data entries. Each entry is identified by a symbol key representing the nature of the meta data entry. The string value represents the value associated with the corresponding key. Two sets of keys are noteworthy: keys borrowed from the BibTex bibliography system, and keys borrowed from the PDF DocInfo metadata. BibTex keys are always expressed in lowercase, such as year, booktitle, editor, author, etc.. DocInfo keys start with an uppercase letter, such as Title, Author, Subject, Creator, Produced, Trapped, CreationDate, and ModDate. The values associated with the last two keys should be dates expressed according to RFC 3339.
--- Конец цитаты ---
То есть, ничего уже даже и придумывать самому не надо - как бы работать с XMP-метаданными DjVu-файла, всё уже придумано.  :)

Скачать самую свежую версию djvused (поддерживающую в т.ч. эту функциональность) можно тут:

http://www.djvu-soft.narod.ru/soft/djvused.rar  (283 КБ)

monday2000:
У меня возникли некоторые новые идеи относительно программы, обсуждаемой в данном топике.

1. Такая программа должна работать не только с DjVu - но также одновременно и с PDF. Другие форматы я не рассматриваю - т.к. большинство книг в нашей сфере имеют форматы только DjVu и PDF.

2. При генерации информативного имени для PDF- или DjVu-книги для транслитерирования кириллицы в латинницу такой программе следует использовать действующий ГОСТ 7.79—2000: Правила транслитерации кирилловского письма латинским алфавитом.:
http://www.ifap.ru/library/gost/7792000.pdf
http://www.gsnti-norms.ru/norms/common/doc.asp?2&/norms/stands/7_79.htm (в этой HTM-версии есть опечатки, :o так что за основу следует брать PDF-версию строкой выше).

Программа NameCreator, используемая ныне, не использует этот ГОСТ. Использование ГОСТа хорошо тем, что, во-первых мы избежим отсебятины при транслитерации, а во-вторых - этот ГОСТ обеспечивает 100%-обратимость (машинно-алгоритмическую) при прямой и обратной транслитерации! :-* Это довольно важно - и NameCreator такую обратимость, насколько я помню, не обеспечивает.

ГОСТ 7.79—2000 - это очень простой для понимания документ, и его будет легко реализовать в виде алгоритма транслитерации. И это - официально действующий в данный момент документ.

3. Для характеристики качества изготовления электронной PDF- или DjVu-книги ("квалификатор качества") я предлагаю использовать 5-балльную шкалу оценок. Прямо как в школе. Просто я подумал - все эти многочисленные критерии качества почти невозможно строго формализовать. Так пусть уж пользователь сам "выставляет книге оценку", исходя из произвольных собственных представлений о том, "на какой балл она тянет". И это будет достаточно надёжно - в конце концов, на 5-балльной шкале оценок у нас работают все школы и институты - и нормально. Можно лишь составить примерную табличку, где приблизительно сгруппировать все признаки качества по баллам. Но эта табличка будет носить только рекомендательный характер.
5-балльная шкала оценок - это надёжное средство оценивания, опробованное в широких масштабах и в течение длительного времени.

4. Такая программа будет не только формировать информативное имя файла - но также и (опционально) одновременно формировать и записывать XMP-метаданные - как для PDF, так и для DjVu. И чисто техническая возможность для этого уже есть. Для записи XMP в PDF я предполагаю использовать ExifTool http://owl.phy.queensu.ca/~phil/exiftool/ , а для записи XMP в DjVu - djvused.

Остающиеся проблемы:

1. Я пока ещё не решил, по какой типовой схеме генерировать информативное имя файла электронной PDF- или DjVu-книги. Видимо, это будет примерно так же, как и у NameCreator - Название, Автор, и т.д. Вот бы был какой-нибудь ГОСТ именно для этого! :-\ Так не хочется городить отсебятину...  :-[ Можно попробовать обсудить вопрос с крупными электронными библиотеками (типа Либрусека).

2. Возникает проблема корреляции между информативным именем файла и XMP-метаданными. По идее, надо бы сделать их 100% взаимно-обратимыми в автоматическом режиме. Т.е., чтобы мы, скажем, имея только информативное имя файла, могли полностью автоматом генерить XMP (хотя бы частично - понятно, что в XMP сведений помещается гораздо больше, чем в имя файла) - и наоборот. Но тогда возникает вопрос - стоит ли в информативном имени файла разделять его логические части каким-нибудь спецсимволом, например "|" - как в e2dk-ссылках? Это для того, чтобы программа могла полностью автоматически распарсить информативное имя файла на соответствующие поля XMP-метаданных. Но не породит ли использование такого спецсимвола лишние неудобства и проблемы?

Кстати, XMP описан тут:
http://en.wikipedia.org/wiki/Extensible_Metadata_Platform

Я пока ещё не очень с ним разобрался, но похоже, что в его основные поля выглядят так http://en.wikipedia.org/wiki/Dublin_Core :

--- Цитировать ---Title — название;
Creator — создатель;
Subject — тема;
Description — описание;
Publisher — издатель;
Contributor — внёсший вклад;
Date — дата;
Type — тип;
Format — формат документа;
Identifier — идентификатор;
Source — источник;
Language — язык;
Relation — отношения;
Coverage — покрытие;
Rights — авторские права.

Квалифицированный (компетентный) набор элементов метаданных Дублинского ядра, помимо 15 вышеперечисленных, может включать:

Audience — аудитория (зрители);
Provenance — происхождение;
RightsHolder — правообладатель.
Каждый элемент опционален и может повторяться
--- Конец цитаты ---

Навигация

[0] Главная страница сообщений

[#] Следующая страница

[*] Предыдущая страница

Перейти к полной версии