Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Сообщения - Eugeen1948

Страницы: [1] 2 3 4
1
Pdf / Re: PDF-технология ClearScan
« : 05 ѕЪвпСам 2014, 15:20:12 »
Заметил и активно пользуюсь одним приемом с ClearScan. Обрабатываю PDF - файл ClearScan-ом и затем конвертирую его в PostScript - файл (*.PS). Затем конвертирую PostScript - файл в DJVU. Размер и качество результирующего DJVU всегда бывает меньше и лучше, чем при конвертации исходного PDF в DJVU! Почему так происходит, объяснить не могу, но это факт.

2
Зачем Вы переводили страницы в TIFF? Да еще с разрешением ~ 8000x14000!
Надо сразу конвертить файл PDF в DJVU используя pdf2djvugui (ищите на http://djvu-soft.narod.ru/soft/#djvu). Поиграйтесь с параметрами, это полезно для понимания их влияния на качество и размер.
Если книга черно-белая, то хорошо конвертнуть ее в монохром, а затем уж в DJVU.
Полезно, также, использовать на финише, когда DJVU-файл получен, утилиту djvu_layers_remove (там же, на народе ищите). За счет удаления паразитного фона можно выиграть раза в 3-4 в размере.
Если файл не конвертится pdf2djvugui (что часто бывает из-за неаккуратной подготовки PDF), сохраните его сначала в PS-формат, а уж потом пускайте в pdf2djvugui. Опыт и чутье к Вам быстро придет когда Вы поупражняетесь с этой схемой конверсии.

3
Вообще-то пакетное конвертирование многих форматов из/в PDF грамотно реализовано в Acrobat 10. Бысто и результат прекрасный.

4
DjVu / Странности с DEE 6
« : 04 ѕЪвпСам 2011, 16:22:32 »
С недавнего времени столкнулся с неприятным эффектом, создающим определенное неудобство. При открытии DJVU-файла простым кликом мыши (файл имеет атрибут окрытия DEE 6) начинается печать файла в PDF-формате. Обычное открытие через Open из меню DEE 6 происходит нормально. Никакие переустановки не помогают. Эффект происходит как в Windows 7 так и в Windows Server 2008. Есть ли у кого-нибудь соображения по этому вопросу?
В системах установлен полный Acrobat 10x, Reader 10x, и виртуальные принтеры Adobe, djvuvpd-en-r21816, ITEKSOFT eDocPrinter PDF Pro v6.68.5772.x64.MULTILINGUAL.

5
Я не распознаю русский текст, т.к.  достаточно хорошо понимаю по-русски и без OCR ;D
OCR мне иногда нужен только для перевода с иностранного языка. Выдергиваю абзацы и кидаю в PRMT. другого применения OCR я для себя не вижу.
DEE, при одинаковом качестве исходного файла, дает ошибок не намного больше ABBYY.
А вот математические выражения, формулы, которые действительно часто нужны в векторном формате, пока никакой OCRщик не тянет :'(

6
Чёт-я не понял. Вы OCR'ете с помощью модуля Readiris :o :o
Могу представить себе качество "сотен тысяч книг"...
Похоже, Вы ничего не поняли. :'(
Еще раз внимательно вчитайтесь в то, что я написал: я вообще не храню DJVU-книг с OCR!
Качество имеющихся у меня книг позволяет "на лету" распознавать и "вытаскивать" только нужные в данный момент страницы . Для этого достаточно DEE 6. (Editor 6)

7
По факту перевода уже сотен тысяч книг из PDF в DJVU PDF я впитал следующие убеждения (заблуждения?):
1. Djvu GUI  v. 2.1 by TrustFm - абсолютно несерьезная програмулька, никак не может конкурировать со старой, проверенной pdf2djvugui;
2. Внедрение OCR лучше делать с помощью Editor 6. При сопоставимом качестве DJVU-файлов (а качество - это главный фактор точности распознавания) я не увидел разницы в точности между Editor 6 и FineReader 11, а скорость в первом случае выше. Кроме того я не храню DJVU-файлов с OCR. В случае надобности я читаю файл с пом. Editor 6 и попутно , если надо, распознаю нужную страницу (это несколько секунд).
3. Заметьте для себя, ведь мы распознаем даже совсем нечитабельный текст и нам это даже не очень трудно. А машине это пока не под силу. Вот когда распознание будет с интеллектом (а не посимвольное, как сейчас), будет распознаваться смысл фраз и предложений целиком (как это делает человек). вот тогда и закончатся наши мучения со сканами. Возможно, к тому времени и устаканится выбор форматов для хранения электронных книг. 

8
Чему? Она не запустилась до загрузки в неё файла, сама по себе.
А  преобразовать pdf в djvu всё равно придётся стандартным способом: в тифф, сканкромсатор и т.д.
Ведь почти все файлы в сети - что djvu,  что pdf - даже неплохие - недоделки какие-то
Если сразу не сработал Pdftodjvu LE v0.1 , то далее есть след. варианты (в порядке сложности):
1. Перепечатать файл pdf виртуальным принтером ADOBE PDF (или другим - их несколько хорошего качества), установив в параметрах (свойствах) принтера опцию без сжатия контента файла PDF, затем снова Pdftodjvu LE v0.1. Помогает в 95% случаев;
2. Сохранить PDF файл в PS  и пропустить через Pdftodjvu LE v0.1 - помогает в 70% случаев;
3. Разделить исходный PDF файл на страницы и пропустить через Pdftodjvu LE v0.1. Страницы, которые не сконвертировались, напечатать DJVu Virtual Printer. Полученные DJVu страницы затем собрать в один файл  DJVu.
4. Всё сразу печатать   DJVu Virtual Printer, но для больших файлов это долго и размер получается больше чем в п.п. 1-3.

Файлы PDF  книг (журналов)  никто не готовит в Акробате. Научные - в Word или в TEX, остальные в Иллюстраторе или более ранних - РМ, Корел и др.
Поэтому никто не соблюдает стандартов PDF, а конверсия разных файлов в PDF  не гарантирует выполнение стандарта. Вот поэтому-то и перегонка PDF  в DJVu не гарантирована автоматически.Я вообще не понимаю, откуда берутся копии книг в PDF  в интернете, явно это не файлы, которые готовят для печати книг в типографии.

9
Я сделал консольную утилиту для облегчения создания DjVu-букмарков. Назвал её "bookm".
Раньше я пользовался для вставки DjVu-букмарков китайской утилитой PdgCntEditor. Но в последний раз она что-то не поняла кодировки моего файла. Пришлось делать свою утилиту.
Я постоянно решаю проблему переноса букмарков из  PDF  в   DJVU. Утилита PdgCntEditor вполне справляется, если только букмарки в простом виде:
"название" - tab- "Число".
Если "число" отрицательное, то есть механизм сдвига за несколько шагов.
Но если если вместо числа стоит некое буквенно-цифровое выражение, то PdgCntEditor уже бесполезна. А это бывает очень часто, и я не понимаю как это происходит в PDF-файле, откуда получаются такие букмарки и как их привести в "каноническую" форму?
Решается ли у Вас эта проблема?

10
Флейм / Re: Впечатления о формате FB2
« : 10 °ЯаХЫм 2011, 23:24:10 »
Уважаемые !
Извините, а как насчёт вот этой фразы:
"...Более всего формат FictionBook подходит для художественной литературы. Специальную литературу: научную, техническую, - описать в терминах формата пока затруднительно..."
    (http://www.fictionbook.org/index.php/FictionBook).
Так что, я не стал бы так категорично высказываться о замене форматом всего и вся.
Я давно использую формат FB2 для текстовых файлов. Действительно удобно и компактно. Но! Но как только встречается какая либо формула (химическая, математическая или физическая и т.п.) этот формат пасует. Переводчики из других форматов несовершенны и делаются энтузиастами формата бессистемно и, зачастую, бездумно. Так что для худлита формат хорош, но не более того!

11
Pdf / Удаление и ли замена текста в PDF
« : 03 °ЯаХЫм 2011, 12:09:30 »
Часто требуется быстро удалить или заменить (отредактировать) текст в файле PDF.
Среди многих полезных программ от A-PDF ( http://www.a-pdf.com/?product-pm ) есть такая :
About A-PDF Text Replace
A-PDF Text Replace is a very simple, lightning-quick desktop utility program that lets
you batch replace\change or delete multiples text in Acrobat PDF files automatically. It
provides complete flexibility text replacing editor to define what words\text will be
replaced and what will be replaced with.
Я часто пользуюсь ей при обнаружении в файлах PDF различных паразитных надписей, напр. , "Этот файл только для чтения, печать запрещена", или "файл взят с такого-то сайта". И если это на каждой странице, то, согласитесь, такая "защита" немного раздражает.

12
Всё там на месте. Немного интерфейс поменялся.

13
Pdf / Re: Конвертирование PDF -> TIF
« : 15 јРав 2011, 22:46:11 »
К вышесказанному хочу добавить. что на сайте http://forums.adobe.com/community/acrobat
можно участвовать на форуме по Акробату. Там есть очень знающие спецы, дружелюбная и корректная атмосфера, на любой вопрос можно получить квалифицированный ответ.

14
Pdf / Re: Конвертирование PDF -> TIF
« : 14 јРав 2011, 20:54:46 »
Вообще виртуальных принтеров более десятка.
Вот бесплатные:
1. BullzipPDFPrinter_4_0_0_463

2. PDF Printer 2009 (http://www.pdfsvg.com) is a free tool for high-quality PDF creation, installed as a "PDF Printer". This enables virtually any Windows applications to create professional quality PDF documents - with just a push of a button!

FREE for commercial and non-commercial use! No watermarks! No Popup Web Ads!
With PDF Printer 2009, it is easy to create PDF documents from Word, Excel, PowerPoint, WordPerfect, Photoshop and other Windows applications. it natively supports over 300 file formats.

3. TotalPDFPrinter

Есть и платные (но крякнутые). они более функциональные. Пожалуй наилучший из таких -
 ITEKSOFT eDocPrinter PDF Pro. Думаю что могу поделиться всем что у меня есть для вашего сайта на Narod.ru, где Вы собрали хорошую подборку программ для DJVU & PDF.


Насчет фонтов - они во множестве есть в сети, нужно только поискать. Кто их делает бог знает. Я накачал из разных источников, всего и не упомню. У меня есть спецдиректория фонтов, куда я "сливаю" всё что нашел, к этой директории я делаю ссылки от любой проги, которой нужны какие либо фонты, проги сами знают что взять им для своей работы.
Обычно в Акробате стоит десятка два фонтов (у них расширение *.PFB), у меня (сейчас посмотрел свою директорию Font PFB) - более 7000. Может столько и не требуется, но кто-то же их создал для чего-то?
Я сам не вникал в проблему создания фонтов и только пользуюсь тем что имею. Готов поделиться, чем богат.

На Ваше "Видимо, перепечатывать нужно именно этим Acrobat Distiller Х виртуальным принтером?
А какие при этом настройки - некие стандартные или зависят каким-нибудь хитрым образом от конкретного PDF?"
скажу - настройки делаются в Adobe PDf принтере, в его меню "свойства". По умолчанию там свойства "Стандарт", но можно конфигурить очень много параметров свойств и помнить их под своими именами для последующего использования. Acrobat Distiller пользует те свойства, которые Вы задали для Adobe PDf.




 

15
Pdf / Re: Конвертирование PDF -> TIF
« : 14 јРав 2011, 11:30:56 »
Все проблемы из http://www.djvu-soft.narod.ru/scan/bookscan_pdf.htm (пункт "Недостатки конвертера Pdftodjvu") я знаю.
Абсолютно радикальный метод борьбы - перепечатка файла PDF -> PDF  виртуальным принтером (напр. Adobe PDF printer, но есть и другие).
Хорошо иметь также современный набор фонтов (у меня их уже более 10000).
Насчет работы с PostScript файлами - в последнем Acrobat Distiller Х появилось новое качество преобразования в PDF практически снимающее проблемы искажения исходного файла.
Кстати, виртуальный принтер от Caminova свободно доступен и не требует пароля. Инсталляция же любого виртуального принтера необходима, не только от Caminova.
Поясняю насчет компрессии PDF. Если перепечатать файл PDF с помощью Adobe PDF printer  с удалением компрессии, то DEE сработает без проблем. Почему так происходит, мне не понятно, но это - многократно проверенный факт.

Страницы: [1] 2 3 4