Автор Тема: Конвертирование PDF -> TIF (Прочитано 41992 раз)

monday2000 · « : 13 јРав 2011, 21:29:35 »

Я подготовил сравнительный пример декодирования PDF -> TIF:

http://www.djvu-soft.narod.ru/scan/pdf_dec.rar (48 КБ)

Там внутри:

- Файл Original.pdf - исходный векторный PDF-файл (1-страничный)

и ещё несколько DjVu-файлов, созданных из TIF'ов, декодированных из Original.pdf разными программами, а именно:

- ABBYY FineReader 8.0 Pro (300 dpi)
- GhostScript 9.01 (600 dpi)
- mupdf-0.8 (600 dpi)
- PDF X-Change Viewer 2.0 b54 (600 dpi)
(хотел ещё СканКромсатором декодировать - но он не умеет декодировать чисто векторные PDF).

Вопрос в том, какой DjVu-файл получился лучше, и, следовательно, какой программой лучше всего декодировать из PDF в TIF?

Понятно, что предпочтение следует отдавать свободно-бесплатным программам.

На этом примере каждый желающий может сравнить качество декодирования PDF->TIF, которое предоставляет та или иная программа. Я внимательно сравнил эти результаты и расположил программы-декодировщики по качеству:

1 Место: ИМХО - это PDF X-Change Viewer. Он подобрал максимально близкий фонт (к исходному) при декодировании. А также он довольно быстро работает.

2 Место: ABBYY FineReader 8.0 Pro. Но с существенными оговорками. Во-первых, я не смог настроить программу так, чтобы она выдавала 600-dpi растровое изображение. Получилось только 300-dpi растровое изображение. Во-вторых, потерялась информация о цвете букв. Там в исходном PDF одна запятая - красного цвета - так вот, сразу после открытия этого PDF в программе эта запятая уже была чёрная (а должна была остаться красной). Сказывается всё же назначение программы - OCR, так что для OCR цвет текста вообще не важен - вот он и не сохраняется.

Зато начертание букв почти столь же хорошее получилось, что и у PDF X-Change Viewer. Хотя - на 300 dpi - что весьма плохо.

3 Место: GhostScript 9.01. Начертание фонта оказалось не слишком совпадающим с оригинальным. Местами это очень заметно. Но зато скорость декодирования - высокая.

4 Место: mupdf-0.8. Самый скромный результат. Начертание фонта - наиболее далёкое от оригинального (по сравнению с другими результатами). Скорость декодирования - дикие тормоза (может, потому что я декодировал в PPM?) В общем, совершенно недостойно внимания.

Выводы:

1. Самая рекомендуемая программа для декодирования PDF -> TIF (под Windows) (в настоящий момент) - это PDF X-Change Viewer.

2. При декодировании PDF в TIF следует всегда указывать 600 dpi (а не 300 dpi). Это резко улучшает качество получаемого растрового изображения. При этом количество пикселей по длине и по ширине удваивается (по сравнению с 300 dpi).

3. Возможно, найдётся некая программа, которая превзойдёт PDF X-Change Viewer по качеству декодирования PDF -> TIF. Но будет ли она при этом свободно-бесплатной? Если она будет пиратской - не слишком ли экзотической и малодоступной она окажется?

Я ещё не пробовал Adobe Acrobat Pro и Foxit-программы.

Eugeen1948 · « **Ответ #1 :** 14 јРав 2011, 08:43:58 »

Acrobat сохраняет PDF в Tiff, PNG и JPEG с хорошим набором параметров регулирования качества и размера.
Только я не очень понимаю, зачем эта процедура?
Если это промежуточный этап перевода в DJVU, то такая процедура уступает по эффективности прямой конверсии из PDF в DJVU тем же DEE 5 (или его производными). Я много раз сравнивал оба результата и всегда побеждал DEE.
В последнее время я "оседлал" новую рабочую лошадку - виртуальный принтер от Caminova. Он прекрасно конвертирует PDF (в DJVU) сканы цветных страниц. Такого соотношения размер/качество мне не удается получить любыми другими способами. Интересно, что принтер "ужимает" также и ранее сделанные файлы DJVU простым их "перепечатыванием".
Еще один важный момент. PDF файлы, как правило, имеют компрессию контента. Это, в случаях растровых файлов, может приводить к ошибкам или даже к потере информации в результирующем DJVU при использовании DEE.
Оказалось, гарантированный способ борьбы с этим "недугом" - перевод PDF в PostScript, с последующим использованием DEE.

monday2000 · « **Ответ #2 :** 14 јРав 2011, 10:58:20 »

Eugeen1948

Цитировать

Только я не очень понимаю, зачем эта процедура?

Иногда требуется прогнать содержимое PDF через Scan Tailor перед дежавючением.

Цитировать

Я много раз сравнивал оба результата и всегда побеждал DEE.

Если говорить о pdftodjvu, встроенном в DEE 5.1, то это довольно проблемная программа. Она способна работать далеко не с каждым PDF. Вот подробные примеры её ошибок: http://www.djvu-soft.narod.ru/scan/bookscan_pdf.htm (пункт "Недостатки конвертера Pdftodjvu").

Цитировать

В последнее время я "оседлал" новую рабочую лошадку - виртуальный принтер от Caminova.

Этот я ещё детально не рассматривал.

Цитировать

Интересно, что принтер "ужимает" также и ранее сделанные файлы DJVU простым их "перепечатыванием".

Цитировать

Да, очень интересно.
Еще один важный момент. PDF файлы, как правило, имеют компрессию контента. Это, в случаях растровых файлов, может приводить к ошибкам или даже к потере информации в результирующем DJVU при использовании DEE.

Это я не понял.

Цитировать

Оказалось, гарантированный способ борьбы с этим "недугом" - перевод PDF в PostScript, с последующим использованием DEE.

Я этот способ пробовал - на pdftodjvu от DEE 5.1. ИМХО это не лучшее - внешний вид PDF немного меняется при переводе в PS - что приводит к хоть и небольшим, но искажениям в получаемом DjVu.

pdftodjvu от DEE 5.1 явно устарел и уже нежелателен. Разве что вот принтер от Caminova окажется лучше.

Но его минусы в том, что его надо взламывать, и инсталлировать к тому же.

Eugeen1948 · « **Ответ #3 :** 14 јРав 2011, 11:30:56 »

Все проблемы из http://www.djvu-soft.narod.ru/scan/bookscan_pdf.htm (пункт "Недостатки конвертера Pdftodjvu") я знаю.
Абсолютно радикальный метод борьбы - перепечатка файла PDF -> PDF виртуальным принтером (напр. Adobe PDF printer, но есть и другие).
Хорошо иметь также современный набор фонтов (у меня их уже более 10000).
Насчет работы с PostScript файлами - в последнем Acrobat Distiller Х появилось новое качество преобразования в PDF практически снимающее проблемы искажения исходного файла.
Кстати, виртуальный принтер от Caminova свободно доступен и не требует пароля. Инсталляция же любого виртуального принтера необходима, не только от Caminova.
Поясняю насчет компрессии PDF. Если перепечатать файл PDF с помощью Adobe PDF printer с удалением компрессии, то DEE сработает без проблем. Почему так происходит, мне не понятно, но это - многократно проверенный факт.

monday2000 · « **Ответ #4 :** 14 јРав 2011, 12:55:56 »

Eugeen1948
Расскажите, пожалуйста, подробнее - я в формате PDF слабо ориентируюсь.

Цитировать

Абсолютно радикальный метод борьбы - перепечатка файла PDF -> PDF виртуальным принтером (напр. Adobe PDF printer, но есть и другие).

Есть ли такие сводобно-бесплатные виртуальные PDF-принтеры? Может, PDF Creator подойдёт?

Цитировать

Хорошо иметь также современный набор фонтов (у меня их уже более 10000).

Вот это самый неизвестный мне момент. Что значит иметь их - они как-то инсталлируются или подключаются? Они какие - платные или бесплатные - где их брать? Это же не есть обычные системные фонты Windows - а некие спец. PS-шрифты?

Цитировать

Насчет работы с PostScript файлами - в последнем Acrobat Distiller Х появилось новое качество преобразования в PDF практически снимающее проблемы искажения исходного файла.

Цитировать

Поясняю насчет компрессии PDF. Если перепечатать файл PDF с помощью Adobe PDF printer с удалением компрессии, то DEE сработает без проблем. Почему так происходит, мне не понятно, но это - многократно проверенный факт.

Видимо, перепечатывать нужно именно этим Acrobat Distiller Х виртуальным принтером? А какие при этом настройки - некие стандартные или зависят каким-нибудь хитрым образом от конкретного PDF?

nbl · « **Ответ #5 :** 14 јРав 2011, 14:27:37 »

Цитата: Eugeen1948 от 14 јРав 2011, 11:30:56

Кстати, виртуальный принтер от Caminova свободно доступен и не требует пароля. Инсталляция же любого виртуального принтера необходима, не только от Caminova.

Подскажите где его можно свободно взять. На сайте Caminova за него $19 просят.

monday2000 · « **Ответ #6 :** 14 јРав 2011, 14:49:00 »

nbl
Он идёт в комплекте любого кодировщика:

Document Express 7.5 Enterprise Evaluation Edition
Document Express 6.5 Desktop Evaluation Edition
Document Express 6.5 Professional Evaluation Edition

Но можно и напрямую скачать - отсюда:

http://dev.caminova.jp/download/vpd/

Eugeen1948 · « **Ответ #7 :** 14 јРав 2011, 20:54:46 »

Вообще виртуальных принтеров более десятка.
Вот бесплатные:
1. BullzipPDFPrinter_4_0_0_463

2. PDF Printer 2009 (http://www.pdfsvg.com) is a free tool for high-quality PDF creation, installed as a "PDF Printer". This enables virtually any Windows applications to create professional quality PDF documents - with just a push of a button!

FREE for commercial and non-commercial use! No watermarks! No Popup Web Ads!
With PDF Printer 2009, it is easy to create PDF documents from Word, Excel, PowerPoint, WordPerfect, Photoshop and other Windows applications. it natively supports over 300 file formats.

3. TotalPDFPrinter

Есть и платные (но крякнутые). они более функциональные. Пожалуй наилучший из таких -
ITEKSOFT eDocPrinter PDF Pro. Думаю что могу поделиться всем что у меня есть для вашего сайта на Narod.ru, где Вы собрали хорошую подборку программ для DJVU & PDF.

Насчет фонтов - они во множестве есть в сети, нужно только поискать. Кто их делает бог знает. Я накачал из разных источников, всего и не упомню. У меня есть спецдиректория фонтов, куда я "сливаю" всё что нашел, к этой директории я делаю ссылки от любой проги, которой нужны какие либо фонты, проги сами знают что взять им для своей работы.
Обычно в Акробате стоит десятка два фонтов (у них расширение *.PFB), у меня (сейчас посмотрел свою директорию Font PFB) - более 7000. Может столько и не требуется, но кто-то же их создал для чего-то?
Я сам не вникал в проблему создания фонтов и только пользуюсь тем что имею. Готов поделиться, чем богат.

На Ваше "Видимо, перепечатывать нужно именно этим Acrobat Distiller Х виртуальным принтером?
А какие при этом настройки - некие стандартные или зависят каким-нибудь хитрым образом от конкретного PDF?"
скажу - настройки делаются в Adobe PDf принтере, в его меню "свойства". По умолчанию там свойства "Стандарт", но можно конфигурить очень много параметров свойств и помнить их под своими именами для последующего использования. Acrobat Distiller пользует те свойства, которые Вы задали для Adobe PDf.

Eugeen1948 · « **Ответ #8 :** 15 јРав 2011, 22:46:11 »

К вышесказанному хочу добавить. что на сайте http://forums.adobe.com/community/acrobat
можно участвовать на форуме по Акробату. Там есть очень знающие спецы, дружелюбная и корректная атмосфера, на любой вопрос можно получить квалифицированный ответ.

monday2000 · « **Ответ #9 :** 18 јРав 2011, 09:37:03 »

Eugeen1948
Особенно интересно было бы научиться программно работать с PDF. В этом отношении ни Acrobat X, ни любой из виртуальных PDF-принтеров не особо интересны.

Пока что я так понял, что наиболее интересен в этом отношении GhostScript. Программно с ним работать довольно просто - там один DLL-файл на 9 МБ и всё. И качество декодирования им http://www.djvu-soft.narod.ru/scan/pdf_dec.rar оказалось весьма приличным - почти то, что нужно.

Видимо, GhostScript'у не хватило шрифтов, чтобы сделать качество декодирования в этом примере идеальным. Вот если бы суметь доставить туда нужные шрифты... Как я понял, их нужно было бы докомпилировать внутрь этой DLL (исходники GS ведь открыты).

P.S. Вот тут: http://forum.ru-board.com/topic.cgi?forum=35&topic=48928#1 Astra55 выложил "Портабельная сборка конвертеров PDF в растровую графику от DigitZone - PDF to BMP/JPG/PNG/TIF". Вот цитата оттуда:

Цитировать

Конвертеры PDF to BMP/JPG/PNG/TIF - PDF в растровую графику от DigitZone являются лучшими по всем статьям среди конкурентов.

Я из интереса опробовал PDF to TIFF Converter и PDF to BMP Converter - на том же примере http://www.djvu-soft.narod.ru/scan/pdf_dec.rar .

Качество получилось просто ужасным.

"Ниже плинтуса", как говорится. Начертание шрифтов - абсолютно далёкое от истинного:

Качество получилось даже гораздо хуже, чем у самого плохого свободно-бесплатного варианта - mupdf!

Сразу видно, что в этих поделках их создатели "сэкономили" на встроенных шрифтах - отсюда и столь низкое качество.

Так что, далеко не всегда то, что стоит денег лучше того, что бесплатно.

57an · « **Ответ #10 :** 08 ёоЭм 2011, 00:19:19 »

Меня убедили, что если нужно преобразовать в изображения именно растровый pdf, то нет лучшей бесплатной программы, чем СК. Основная проблема при таком преобразовании это подбор DPI результата преобразования, и иделально ее решают, похоже. только Adobe Acrobat и Scan Kromsator.
В большинстве остальных программ DPI требуется задавать вручную, что необходимо при преобразовании векторного Pdf. однако при операции "извлечение растровых картинок из контейнера pdf" она только мешает. Более того, зачастую требуемый DPI либо неподдерживается программой, либо экспорт происходит не в пиксель, что приводит к смазыванию результата.

MetaSpirit · « **Ответ #11 :** 03 ёоЫм 2011, 11:50:17 »

Подскажите, чем можно перекодировать PDF -> TIF на Линуксе?
Сам использую gscan2pdf, но на выходе создается многостраничный TIFF-файл, что не удобно для последующей редакции.

monday2000 · « **Ответ #12 :** 30 °ТУгбв 2011, 08:22:59 »

MetaSpirit

Цитировать

Подскажите, чем можно перекодировать PDF -> TIF на Линуксе?

Не могу сказать точно, но, скорее всего, Вам нужен GhostScript http://ru.wikipedia.org/wiki/Ghostscript . Он кросслатформенный и вообще достаточно неплох по качеству конверсии PDF -> TIF.

antabu · « **Ответ #13 :** 04 ПЭТРам 2013, 16:29:40 »

Вчера случайно обнаружил, что для чёрно-белых сканов, оформленных в виде .pdf, при извлечении страниц в .tif с помощью PDF X-Change Viewer на качество влияет настройка сглаживания в программе, причём в худшую сторону и не на всех страницах и даже в пределах одной страницы.

vkr · « **Ответ #14 :** 05 ПЭТРам 2017, 21:55:27 »

Цитата: antabu от 04 ПЭТРам 2013, 16:29:40

на качество

- на что именно?

DjVu-Scan Forum

Новости:

Автор Тема: Конвертирование PDF -> TIF (Прочитано 41992 раз)

monday2000

Конвертирование PDF -> TIF

Eugeen1948

Re: Конвертирование PDF -> TIF

monday2000

Re: Конвертирование PDF -> TIF

Eugeen1948

Re: Конвертирование PDF -> TIF

monday2000

Re: Конвертирование PDF -> TIF

nbl

Re: Конвертирование PDF -> TIF

monday2000

Re: Конвертирование PDF -> TIF

Eugeen1948

Re: Конвертирование PDF -> TIF

Eugeen1948

Re: Конвертирование PDF -> TIF

monday2000

Re: Конвертирование PDF -> TIF

57an

Re: Конвертирование PDF -> TIF

MetaSpirit

Re: Конвертирование PDF -> TIF

monday2000

Re: Конвертирование PDF -> TIF

antabu

Re: Конвертирование PDF -> TIF

vkr

Re: Конвертирование PDF -> TIF