Замечена новая активность в проекте MuPDF.
Появился новый сайт -
http://www.mupdf.com/ .
Вышли новые версии MuPDF. Последняя - MuPDF 0.8 (2011-03-03) - т.е. всего 10 дней назад.
Появилось новое лого MuPDF. В дистрибутиве под Windows появились готовые скомпилированные консольные утилиты.
Наконец-то, догадались!
Наибольший интерес представляет ИМХО утилита pdfdraw (консольная). Её размер - 6,79 МБ, и она умеет конвертировать PDF в растровые форматы PPM, PGM, PAM и PNG. При этом pdfdraw умеет рендерить предварительно векторные PDF в растр, что немаловажно. Также pdfdraw способна извлекать текст из PDF в виде XML-файла, напоминающего hOCR (каждая буква имеет свои геометрические координаты). pdfdraw умеет декодировать даже JBIG2 и JPEG2000 PDF-файлы.
К сожалению, при пробном декодировании PDF -> PPM pdfdraw меня совершенно разочаровала. Всё дело в том, что pdfdraw поддерживает слишком мало векторных фонтов, заменяя всякие нестандартные фонты своими стандартными. От этого сильно страдает качество - искажается внешний вид текста.
Это ИМХО полностью сводит на "нет" ценность pdfdraw.
Такая же проблема отмечена в последней версии Sumatra PDF (1.4), и также схожая проблема отмечена даже в Foxit Reader 2.2.2129
(хотя там она гораздо слабее выражена).
Для сравнения, программа PDF X-Change Viewer декодировала этот же PDF в TIF гораздо точнее - почти абсолютно верно.
В общем, простого и удобного open-source программного декодировщика PDF-> TIF (на Си или Си++) как не было, так и нет. Разве что попробовать GhostScript?