Главное > Pdf

Конвертирование PDF -> TIF

(1/525) > >>

monday2000:
Я подготовил сравнительный пример декодирования PDF -> TIF:

http://www.djvu-soft.narod.ru/scan/pdf_dec.rar  (48 КБ)

Там внутри:

- Файл Original.pdf - исходный векторный PDF-файл (1-страничный)

и ещё несколько DjVu-файлов, созданных из TIF'ов, декодированных из Original.pdf разными программами, а именно:

- ABBYY FineReader 8.0 Pro (300 dpi)
- GhostScript 9.01 (600 dpi)
- mupdf-0.8  (600 dpi)
- PDF X-Change Viewer 2.0 b54 (600 dpi)
(хотел ещё СканКромсатором декодировать - но он не умеет декодировать чисто векторные PDF).

Вопрос в том, какой DjVu-файл получился лучше, и, следовательно, какой программой лучше всего декодировать из PDF в TIF?

Понятно, что предпочтение следует отдавать свободно-бесплатным программам.

На этом примере каждый желающий может сравнить качество декодирования PDF->TIF, которое предоставляет та или иная программа. Я внимательно сравнил эти результаты и расположил программы-декодировщики по качеству:

1 Место: ИМХО - это PDF X-Change Viewer. Он подобрал максимально близкий фонт (к исходному) при декодировании. А также он довольно быстро работает.

2 Место: ABBYY FineReader 8.0 Pro. Но с существенными оговорками. Во-первых, я не смог настроить программу так, чтобы она выдавала 600-dpi растровое изображение. Получилось только 300-dpi растровое изображение. Во-вторых, потерялась информация о цвете букв. Там в исходном PDF одна запятая - красного цвета - так вот, сразу после открытия этого PDF в программе эта запятая уже была чёрная (а должна была остаться красной). Сказывается всё же назначение программы - OCR, так что для OCR цвет текста вообще не важен - вот он и не сохраняется.

Зато начертание букв почти столь же хорошее получилось, что и у PDF X-Change Viewer. Хотя - на 300 dpi - что весьма плохо.

3 Место: GhostScript 9.01. Начертание фонта оказалось не слишком совпадающим с оригинальным. Местами это очень заметно. Но зато скорость декодирования - высокая.

4 Место: mupdf-0.8. Самый скромный результат. Начертание фонта - наиболее далёкое от оригинального (по сравнению с другими результатами). Скорость декодирования - дикие тормоза (может, потому что я декодировал в PPM?) В общем, совершенно недостойно внимания.

Выводы:

1. Самая рекомендуемая программа для декодирования PDF -> TIF (под Windows) (в настоящий момент) - это PDF X-Change Viewer.

2. При декодировании PDF в TIF следует всегда указывать 600 dpi (а не 300 dpi). Это резко улучшает качество получаемого растрового изображения. При этом количество пикселей по длине и по ширине удваивается (по сравнению с 300 dpi).

3. Возможно, найдётся некая программа, которая превзойдёт PDF X-Change Viewer по качеству декодирования PDF -> TIF. Но будет ли она при этом свободно-бесплатной? Если она будет пиратской - не слишком ли экзотической и малодоступной она окажется?

Я ещё не пробовал Adobe Acrobat Pro и Foxit-программы.

Eugeen1948:
Acrobat сохраняет PDF в Tiff, PNG и JPEG с хорошим набором параметров регулирования качества и размера.
Только я не очень понимаю, зачем эта процедура?
Если это промежуточный этап перевода в DJVU, то такая процедура уступает по эффективности прямой конверсии из PDF в DJVU тем же DEE 5 (или его производными). Я много раз сравнивал оба результата и всегда побеждал DEE.
В последнее время я "оседлал" новую рабочую лошадку - виртуальный принтер от Caminova. Он прекрасно конвертирует PDF (в DJVU) сканы цветных страниц. Такого соотношения размер/качество мне не удается получить любыми другими способами. Интересно, что принтер "ужимает" также и ранее сделанные файлы DJVU простым их "перепечатыванием".
Еще один важный момент.  PDF файлы, как правило, имеют компрессию контента. Это, в случаях растровых файлов, может приводить к ошибкам или даже к потере информации в результирующем DJVU при использовании DEE.
Оказалось, гарантированный способ борьбы с этим "недугом" - перевод PDF в PostScript, с последующим использованием DEE.

monday2000:
Eugeen1948

--- Цитировать ---Только я не очень понимаю, зачем эта процедура?
--- Конец цитаты ---
Иногда требуется прогнать содержимое PDF через Scan Tailor перед дежавючением.

--- Цитировать ---Я много раз сравнивал оба результата и всегда побеждал DEE.
--- Конец цитаты ---
Если говорить о pdftodjvu, встроенном в DEE 5.1, то это довольно проблемная программа. Она способна работать далеко не с каждым PDF. Вот подробные примеры её ошибок: http://www.djvu-soft.narod.ru/scan/bookscan_pdf.htm (пункт "Недостатки конвертера Pdftodjvu").

--- Цитировать ---В последнее время я "оседлал" новую рабочую лошадку - виртуальный принтер от Caminova.
--- Конец цитаты ---
Этот я ещё детально не рассматривал. :)

--- Цитировать ---Интересно, что принтер "ужимает" также и ранее сделанные файлы DJVU простым их "перепечатыванием".
--- Конец цитаты ---

--- Цитировать ---Да, очень интересно.
Еще один важный момент.  PDF файлы, как правило, имеют компрессию контента. Это, в случаях растровых файлов, может приводить к ошибкам или даже к потере информации в результирующем DJVU при использовании DEE.
--- Конец цитаты ---
Это я не понял.

--- Цитировать ---Оказалось, гарантированный способ борьбы с этим "недугом" - перевод PDF в PostScript, с последующим использованием DEE.
--- Конец цитаты ---
Я этот способ пробовал - на pdftodjvu от DEE 5.1. ИМХО это не лучшее - внешний вид PDF немного меняется при переводе в PS - что приводит к хоть и небольшим, но искажениям в получаемом DjVu.

pdftodjvu от DEE 5.1 явно устарел и уже нежелателен. Разве что вот принтер от Caminova окажется лучше. ??? Но его минусы в том, что его надо взламывать, и инсталлировать к тому же.

Eugeen1948:
Все проблемы из http://www.djvu-soft.narod.ru/scan/bookscan_pdf.htm (пункт "Недостатки конвертера Pdftodjvu") я знаю.
Абсолютно радикальный метод борьбы - перепечатка файла PDF -> PDF  виртуальным принтером (напр. Adobe PDF printer, но есть и другие).
Хорошо иметь также современный набор фонтов (у меня их уже более 10000).
Насчет работы с PostScript файлами - в последнем Acrobat Distiller Х появилось новое качество преобразования в PDF практически снимающее проблемы искажения исходного файла.
Кстати, виртуальный принтер от Caminova свободно доступен и не требует пароля. Инсталляция же любого виртуального принтера необходима, не только от Caminova.
Поясняю насчет компрессии PDF. Если перепечатать файл PDF с помощью Adobe PDF printer  с удалением компрессии, то DEE сработает без проблем. Почему так происходит, мне не понятно, но это - многократно проверенный факт.

monday2000:
Eugeen1948
Расскажите, пожалуйста, подробнее - я в формате PDF слабо ориентируюсь.

--- Цитировать ---Абсолютно радикальный метод борьбы - перепечатка файла PDF -> PDF  виртуальным принтером (напр. Adobe PDF printer, но есть и другие).
--- Конец цитаты ---
Есть ли такие сводобно-бесплатные виртуальные PDF-принтеры? Может, PDF Creator подойдёт?

--- Цитировать ---Хорошо иметь также современный набор фонтов (у меня их уже более 10000).
--- Конец цитаты ---
Вот это самый неизвестный мне момент. Что значит иметь их - они как-то инсталлируются или подключаются? Они какие - платные или бесплатные - где их брать? Это же не есть обычные системные фонты Windows  - а некие спец. PS-шрифты?

--- Цитировать ---Насчет работы с PostScript файлами - в последнем Acrobat Distiller Х появилось новое качество преобразования в PDF практически снимающее проблемы искажения исходного файла.
--- Конец цитаты ---

--- Цитировать ---Поясняю насчет компрессии PDF. Если перепечатать файл PDF с помощью Adobe PDF printer  с удалением компрессии, то DEE сработает без проблем. Почему так происходит, мне не понятно, но это - многократно проверенный факт.
--- Конец цитаты ---
Видимо, перепечатывать нужно именно этим Acrobat Distiller Х виртуальным принтером? А какие при этом настройки - некие стандартные или зависят каким-нибудь хитрым образом от конкретного PDF?

Навигация

[0] Главная страница сообщений

[#] Следующая страница

Перейти к полной версии