Пришло мне письмо с таким вопросом:
Привет!
Есть небольшой вопрос по созданию djvu-книг. Надеюсь на вашу помощь.
Для обработки полутоновых изображений я использую метод подклейки фона -
с djvu Imager, описанный в вашей статье. Для добавления ocr-слоя - djvu
ocr. Заметил, что при комбинации этих двух подходов текстовый слой на
страницах с картинками (т.е. там где есть фоновый слой) смещен
относительно текста - точнее, весь текстовый слой располагается вверху
страницы. Мелочь, а неприятно.
Возможно, можно как-то решить эту проблему?
Спасибо заранее за ответ.
Это уже не первый раз спрашивают, так что я решил опубликовать вопрос. Это уже получается как распространённая ошибка.
Ответ прост - проблема происходит из-за смены DPI у обрабатываемого скана. Человек явно распознаёт сканы ДО их прохождения через Scan Tailor (где их DPI меняется с 300 на 600), а надо ПОСЛЕ.
Смена DPI с 300 на 600 в Scan Tailor также сопровождается и соответствующим РЕСЕМПЛИНГОМ. При таком ресемплинге пиксельные размеры скана удваиваются, а площадь скана в пикселях учетверяется.
А OCR-слой привязывается к пиксельным размерам скана - естественно, что раз пиксельные размеры изменились - то OCR-300 dpi при вставке в скан 600 dpi будет простираться лишь над четвертушкой задежавюченного скана - а не над ним всем.
Кстати, в программе DjVuOCR предусмотрена некая обработка такой ситуации - там можно ввести некий коэффициент масштабирования OCR. Но у меня никогда не получалось заставить это работать.
Чтобы избежать таких проблем, OCR надо делать именно над теми сканами, которые НЕПОСРЕДСТВЕННО кодируются в DjVu - а не раньше.