ExeN-321Вариант с шестнадцатиричным числом тоже требует определенной квалификации пользователя.
Этот вариант уже и мне не нравится - 5-балльная система лучше.
Простую 5и бальную систему я считаю непригодной, так как она неинформативна.
А как же школы и институты, работа которых базируется на 5-бальной системе? Для них, значит, достаточно информативна. И попробуйте представить себе работу школы, где вместо оценок ставят набор конкретных формализованных признаков качества.
На мой взгляд необходимо определиться с наибоее важными параметрами качества
Это нереально. Совершенно никак невозможно сделать (в общем случае). Понятно, что в случае наличия сдвоенных разворотов мы можем сказать - да, это один из "наиболее важных параметров качества".
Но есть куча других случаев, когда один и тот же признак для одной книги существенен - а для другой почти неощутим. Например, DPI. Для сканов высокого качества может оказаться практически несущественным то, что они, скажем, на 300 dpi - а не на 600. А для мелкого текста - наоборот - 600 dpi или 300 - уже важно.
Кроме того, если взять поганые сканы на 150 dpi и переделать их в Scan Tailor в 600 dpi - то они лучше от этого практически не станут - хотя формально эти сканы обретут признак "600 dpi". И что, считать DPI после этого серьёзным признаком качества?
Только визуальный осмотр человека способен сказать, на какой из 5 баллов качества "тянет" данная книга.
Естественно, будет опубликована некая табличка, где основные признаки качества будут сведены по баллам - от 1 до 5-ти. Но такая табличка будет носить исключительно рекомендательный характер.
Нельзя всё многообразие мира втиснуть в малый набор формальных признаков.
Мы не в силах ЗАРАНЕЕ предугадать, какой именно признак качества окажется решающим для данной эл. книги. Например, бывает так, что сделана плохая бинаризация - отчего буквы и особенно чёрно-белые картинки выглядят как днище корабля, обросшее ракушками. Вот и попробуйте формализовать этот признак. И таких признаков наберётся много.
есть ли OCR слой 0 и 1
А это я бы вообще не считал как признак. Если OCR-слоя нет - никакой проблемы нет его сделать - практически в автоматическом режиме (под Windows, но, если очень постараться - то можно будет и под Linux). Можно вообще сделать такую программу, которой указываешь некую папку с книгами, и она чтобы автоматически обходила итеративно эту папку и все в неё вложенные, искала в ней DjVu-файлы, проверяла, есть ли там DjVu-файлы без OCR-слоя, и, если нет, делала бы его. И всё это полностью автоматически - на базе FineReader. И тогда пусть там хоть тысячи книг - какая разница - запустил программу и ушёл на работу - а к вечеру все DjVu в папке гарантированно обретут OCR-слой - и всё это полностью автоматически.
Вообще, книги плохого качества нужно переделывать в приемлемое качество. И тут как раз 5-ти бальная система особенно хороша. Она сразу отвечает на вопрос - "надо ли переделывать данную книгу"? и "является ли данная книга адекватной по качеству"? Чтобы получить ответ на эти вопросы, достаточно будет лишь бросить один взгляд на имя файла - чтобы увидеть оценку (от 1 до 5).
Наличие сдвоенных разворотов - это тоже не должно быть признаком качества, потому что такие книги нужно просто переделывать - в разрезанные развороты - и тогда признак "Наличие сдвоенных разворотов" утратит смысл. Сдвоенным разворотам можно просто не заморачиваясь ставить "двойку" - чтобы потом знать, что данную книгу нужно переделать.
То есть, если подразумевать возможность переделки книг низкого качества в приемлемое качество, то тогда и 5-бальной системы оценивания качества хватит за глаза - при всей её "огрублённости", она сразу проранжирует книги по общему качеству и необходимости переделки.
А ещё, даже переделка книги из плохого качества в приемлемое не всегда гарантирует достижение нормального качества данной книги. Хотя, казалось бы, тут и развороты уже порезаны, и DPI уже стало 600, и все прочие нужные манипуляции проделаны (deskew, despeckle) - а качество всё-таки не то. И тогда только человек может интуитивно сказать, какое всё-таки качество получилось в результате переделки - 3, 4 или 5.
Вопрос определения качества - это тонкий и субъективный процесс, его невозможно формализовать.