Автор Тема: Проблема с импортом PDF в ScanKromsator  (Прочитано 26784 раз)

Wehrwolf

  • Гость
Проблема с импортом PDF в ScanKromsator
« : 21 ДХТаРЫм 2011, 17:50:18 »
Часто пользуюсь SK (5.92b) для перепаковки PDF в DJVU, но недавно столкнулся с такой проблемой: при попытке импорта PDF-файла с отсканированными в оригинальном виде книгами, какие часто присутствуют на западных сайтах вроде "archive.org", SK зависает или выдаёт ошибку "Acess violation at adress 00403410 in module 'ScanKromasator.exe'. Write of adress 00000000". При этом PDF-файл может быть как небольшой (11 Мб) так и побольше (32 Мб).

Подскажите пожалуйста, в чём причина подобного и как это можно побороть?

Прилагаю одну из подобных книг: http://rapidshare.com/files/449114521/4.pdf

----------------
У меня CPU Athlon X2 Dual Core 2,8 Ггц, 2 Гб RAM, WinXP SP3, свободного места на винте 100 Гб.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #1 : 22 ДХТаРЫм 2011, 09:21:15 »
Wehrwolf
Преобразование PDF в TIF - это вообще проблема в общем случае. К сожалению, многие известные программы для декодирования PDF в TIF умеют корректно декодировать не любой PDF-файл.

У меня был случай, когда даже Adobe Acrobat Professional 9.4 не смог корректно декодировать PDF-файл, а Foxit Reader смог! :o ;D

Помимо правильности декодирования, ИМХО немаловажен такой параметр декодирования, как скорость.

Неплохие результаты во всех отношениях даёт свободно-бесплатный PDF-просмотрщик PDF Xchange Viewer http://www.tracker-software.com/product/downloads .

Он довольно неплохо декодирует и у него высокая скорость. Вот тот мой проблемный PDF-файл он декодировал почти правильно (а Adobe Acrobat некорректно).

ScanKromsator вообще не годится для цели декодирования PDF в TIF. Потому что СК умеет лишь только вытаскивать из PDF растровые картинки - и не умеет рендерить векторный PDF в растровое изображение. То есть, СК умеет декодировать в TIF исключительно растровые PDF (вроде Вашего) - а векторные - нет.

К тому же СК очень медленен - в плане декодирования PDF.

burunduchay

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #2 : 22 ДХТаРЫм 2011, 10:12:45 »
В старых версиях СК насколько я знаю были проблемы с pdf сделанных гуглом и архивом.орг. В последней версии 5.4 это было исправлено. Версия была доступна только тестерам по запросу на форуме СК.
Скорость декодирования в СК хуже только на файлах, сжатых jpg2000. В остальных случаях она ничем не уступает другим утилитам декодирования. так как декодирование это разовый процесс то лишние 3-5 минут декодирования ничто по сравнению со временем которое тратится на обработку.
Кроме того, если pdf страница содержит сложное содержание, например текст и поверх несколько картинок, то СК в отличие от других программ воссоздаст такой же макет в своем задании используя зоны. В других программах вы получите эти файлы по отдельности либо слитые в одно изображение. В первом случае непонятно вообще что делать с этой кучей файлов из-за того что картинки будут по отдельности, во втором случае получите смешение содержимого которое приведет только к ухудшению качества. Еще один плюс - СК сохраняет прозрачность для извлеченных картинок, корректно превращая из в зоны произвольной формы. В других прогах информацию о прозрачности вообще не получишь.
Еще один плюс - при импорте страниц СК высчитывает dpi изображений включая и зоны и заносит их в извлеченные файлы. Другие проги в большинстве своем dpi не сохраняют и не определяют. Некоторые запрашивают его у пользователя, что говорит о том что они не извлекают картинки а тупо рендерят их с заданным разрешением.
СК действительно не импортирует векторные pdf. Непонятно, почему это так важно. СК обрабатывает сканы, но точно не векторные файлы которые и так имеют идеальное качество.
Если исходный pdf содержит только ч/б либо только цветные изображения без зон, то особой разницы чем их извлекать в общем случае нет. Но в СК это делать удобнее так как он сразу формирует задание, именует как надо извлеченные файлы и может импортировать в одно задание сразу несколько пдф файлов за раз. Кроме того, он может импортировать нужный диапазон страниц.
« Последнее редактирование: 22 ДХТаРЫм 2011, 10:20:34 от burunduchay »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #3 : 22 ДХТаРЫм 2011, 11:38:33 »
burunduchay
Цитировать
В последней версии 5.4 это было исправлено.
Наверное, речь идёт о версии 5.94.
Цитировать
Скорость декодирования в СК хуже только на файлах, сжатых jpg2000. В остальных случаях она ничем не уступает другим утилитам декодирования.
А, ну вот данный файл http://rapidshare.com/files/449114521/4.pdf как раз и сжат в JPEG2000 - возможно, поэтому СК и вылетал. По крайней мере, тормозил дико при декодировании.
Цитировать
СК действительно не импортирует векторные pdf. Непонятно, почему это так важно.
Я придерживаюсь такой теории, что мы практически не в состоянии в общем случае постичь логику пользователя. Да мало ли почему он захочет поступить тем или иным образом? Вы предполагаете "здравый смысл" со стороны пользователя - но это ошибка. Человек может сотворить любую глупость - и ему свои мозги не вставишь.

Обычному пользователю "до лампочки" - векторный PDF или растровый. Вот ему нужно переделать PDF в DjVu (по неизвестной причине, пускай даже глупой) - и в случае векторного PDF СК не справится.
Цитировать
то СК в отличие от других программ воссоздаст такой же макет в своем задании используя зоны.
Все эти плюсы, что Вы перечислили - это, конечно, хорошо. Но только вот таких программ вообще-то много - у которых есть тот или иной плюс в деле декодирования PDF в TIF - но при этом у каждой из этих программ имеется хотя бы один досадный "минус" - который сводит на нет универсализм того или иного декодера PDF. Вот и СК оказался одной из таких программ - с ошибкой вылетел у Wehrwolf, и не умеет декодировать векторный PDF.

Просто ИМХО таков уж сам по себе формат PDF - это такая дрянь, которую ни одна программа в мире не умеет правильно декодировать в TIF в общем случае. Даже Adobe Acrobat Pro оказался несостоятельным в этом отношении.

И поэтому напрашивается такой вывод, что необходимо иметь несколько разных декодеров PDF -> TIF - подбирая нужный на каждый сложный случай декодирования PDF -> TIF.

don555

  • Пользователь
  • **
  • Сообщений: 71
    • Просмотр профиля
    • E-mail
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #4 : 22 ДХТаРЫм 2011, 13:28:52 »
Wehrwolf


Неплохие результаты во всех отношениях даёт свободно-бесплатный PDF-просмотрщик PDF Xchange Viewer http://www.tracker-software.com/product/downloads .

Он довольно неплохо декодирует и у него высокая скорость. Вот тот мой проблемный PDF-файл он декодировал почти правильно (а Adobe Acrobat некорректно).


А что значит-"а Adobe Acrobat некорректно"?

Я никогда не обращал на это внимание.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #5 : 22 ДХТаРЫм 2011, 13:52:55 »
don555
Цитировать
А что значит-"а Adobe Acrobat некорректно"?
То есть, у меня был недавно один PDF-файл, который Adobe Acrobat Pro 9.2 декодировал неверно. А именно, там были интерактивные заполняемые поля - и они не попали в TIF.

Тот PDF-файл выложить не могу, к сожалению - т.к. это была карточка из личного дела со всеми данными на человека.

burunduchay

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #6 : 22 ДХТаРЫм 2011, 15:37:33 »
[Обычному пользователю "до лампочки" - векторный PDF или растровый. Вот ему нужно переделать PDF в DjVu (по неизвестной причине, пускай даже глупой)
Ну знаете. Я вот тоже намедни решил конвертнуть cmd.exe в djvu. Все перепробовал. Ни хрена не выходит. А еще говорят, что djvu - лучший формат  :(
Даже doc-файлы не получилось конвертнуть. Сколько ни загружал в djvu small и dee, ничего не вышло. Дурацкие вообщем программы, и никчемные оказались.
« Последнее редактирование: 22 ДХТаРЫм 2011, 15:42:33 от burunduchay »

Wehrwolf

  • Гость
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #7 : 22 ДХТаРЫм 2011, 19:02:07 »
monday2000 Попробовал использовать PDF Xchange Viewer, конвертирует и даёт действительно неплохие результаты, НО тратит на это уж очень много времени, а когда таких файлов хотябы 10 штук...
В более новой версии SK (5.93) конвертация всётаки произошла, но результатом это назвать нельзя, просто мусор. Как я понимаю, даже в новых версиях на корректную распаковку надеяться не стоит?

Пробовал ещё программу PDF to TIFF Converter http://www.digitzone.com/pdftotiff.html, она работает гораздо быстрее PDF Xchange Viewer и результаты даёт аналогичные, но является shareware и без регистрации (может кто поможет ;) )оставляет штампы на изображениях.
В перепаковке векторных PDF никогда небыло необходимости, а вот работа с сжатыми JPEG-2000 очень актуальна.
Хочу попробовать какие-нибудь ещё конвертеры, важна компактность, тоесть собственно конвертация PDF в TIFF, скорость, ну и конечно адекватность результата. Нормальная реализация в SK была бы, лично для меня, идеальна, но увы.

burunduchay

  • Новичок
  • *
  • Сообщений: 4
    • Просмотр профиля
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #8 : 22 ДХТаРЫм 2011, 22:54:17 »
monday2000 В более новой версии SK (5.93) конвертация всётаки произошла, но результатом это назвать нельзя, просто мусор. Как я понимаю, даже в новых версиях на корректную распаковку надеяться не стоит?
Как я уже говорил, нужна версия 5.94.
Вот я импортировал одну страницу http://www.onlinedisk.ru/file/614265/
Очень показательный пример. В задание добавил кроме страницы собственно сам файл зоны, который состоит из двух частей: фона и маски. Таким образом, каждая страница в этом pdf состоит из 3-х изображений: фона 150dpi, и переднего слоя 500dpi, состоящего в свою очередь из фона и маски. Из-за такой сложности наверное и импорт происходит так медленно. Более того, если посмотреть на фон маски, можно увидеть, насколько уродливо сделан pdf, фон представляет собой сплошную мазню, из которого только малая часть в итоге отображается на экране, та, что попадает в маску. Остальная часть мазни просто лежит мертвым грузом внутри pdf.
К сожлению, обрабатывать в СК такой пирог будет проблематично. Это как раз такой случай, когда из pdf нужно не извлекать изображения, а рендерить их. Ту же операцию можно произвести в принципе  и в СК 5.94, но будет медленнее.
То, что ты назвал мусором на самом деле именно то что и содержится в pdf.  Если на этот мусор наложить маску то тогда и получится номальное изображение.
Я вот еще подумал, что эта мазня неспроста. Видимо такая плавная мазня позволяет более сильно сжать jpg2000
« Последнее редактирование: 22 ДХТаРЫм 2011, 23:05:55 от burunduchay »

Wehrwolf

  • Гость
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #9 : 23 ДХТаРЫм 2011, 01:27:55 »
burunduchay посмотрел приложенный файл... Не знаю как насчёт эффективности сжатия, но подобные книги даже читать не совсем комфортно. Притормаживают при прокрутке и масштабировании. Почему собственно и занимаюсь перекодировкой особенно интересующих в DJVU, где подобная книга будет занимать мегабайта 2-3.
Тоесть SK 5.94 как и сторонние конвертеры может рендерить изображения без разбивки на составляющие? А не могли бы Вы выложить SK 5.94? Хочу сам попробовать в нём поработать, хочется универсальности, может он всётаки быстрее обработает чем сторонние бесплатные конверторы.

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #10 : 24 ДХТаРЫм 2011, 16:36:29 »
Wehrwolf
Цитировать
Пробовал ещё программу PDF to TIFF Converter http://www.digitzone.com/pdftotiff.html, она работает гораздо быстрее PDF Xchange Viewer и результаты даёт аналогичные, но является shareware и без регистрации (может кто поможет ;) )оставляет штампы на изображениях.
Да, вот в том-то и дело, что наиболее заманчиво пользоваться как раз свободно-бесплатными программами - а не shareware.

Вообще shareware и просто коммерческих конвертеров PDF в TIF существует довольно немало, но это же не бесплатные продукты. :)

Wehrwolf

  • Гость
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #11 : 24 ДХТаРЫм 2011, 18:00:38 »
Цитировать
Да, вот в том-то и дело, что наиболее заманчиво пользоваться как раз свободно-бесплатными программами - а не shareware.
monday2000 было бы ещё и продуктивно :) Потратил весь вчерашний вечер и часть ночи, пока дождался распаковки этой несчастной книги и перевёл её в более пристойный вид DJVU. Ещё на очереди 20 подобных... :-[

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Проблема с импортом PDF в ScanKromsator
« Ответ #12 : 24 ДХТаРЫм 2011, 18:12:01 »
Wehrwolf
Цитировать
Ещё на очереди 20 подобных...
Попробуйте обратиться с этой проблемой вот сюда:

http://forum.ru-board.com/topic.cgi?forum=93&topic=3172&glp (чтобы увидеть этот форум, сначала надо на нём зарегистрироваться).

Там Вам подскажут хорошие коммерческие конвертеры PDF -> TIF.