16
В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.
Под влиянием iit512 решился опубликовать собственное решение "всё в одном", на сей раз -- для создания PDF. Утилита называется pdfbeads и написана на Ruby с использованием расширения RMagick. При наличии собственно интерпретатора Ruby и пакетного менеджера RubyGems пакет можно скачать и установить командой
$ gem install pdfbeads
Идея заключалась в том, чтобы по возможности организовать создание PDF-файлов по модели, привычной по формату DJVU: те же двух- и трехслойные страницы, те же методы "подклейки фона" и "раскраски маски". Кроме того, pdfbeads может играть роль оболочки к jbig2enc -- свободному кодировщику формата JBIG2. Среди возможностей скрипта:
-- сжатие маски по технологии JBIG2 (с использованием jbig2enc) или Fax G4;
-- различные форматы сжатия для фоновых изображений (jpeg2000, jpeg, deflate);
-- корректная обработка малоцветных индексированных изображений (создается маска из нескольких слоев, каждый -- со своим цветом);
-- автоматическая сегментация "смешанных" файлов, полученных с помощью ScanTailor, причем для картинок можно задать разрешение, формат сжатия и (при желании) принудительную конвертацию в оттенки серого;
-- разбиение полноцветного изображения на фон и передний план по заданной маске (подобно тому, как это делает djvumake при указании опции PPM);
-- добавление текстового слоя из hOCR;
-- добавление оглавления, метаданных и меток страниц.
Имеется также русская страница руководства http://rubyforge.org/docman/view.php/9752/10692/pdfbeads.ru.html .
Итак, я залил на rubygems.org обновленную версию, в которой исправлена ошибка с чтением TIFF-файлов, содержащих блок EXIF. Кроме того, при попытке обработать многостраничный TIFF теперь выдается предупреждение об отсутствии поддержки таких файлов.
hOCR is a format for representing OCR output, including layout information, character confidences, bounding boxes, and style information. It embeds this information invisibly in standard HTML. By building on standard HTML, it automatically inherits well-defined support for most scripts, languages, and common layout options. Furthermore, unlike previous OCR formats, the recognized text and OCR-related information co-exist in the same file and survives editing and manipulation. hOCR markup is independent of the presentation.
выловил глюк Clearscan, почище чем "инь-янь", пропали целые слова (ПОСЛЕДОВАТЕЛЬНОСТИ, ПРЕ)!!
так что пользоваться им для физмата нельзя...