Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Темы - monday2000

Страницы: 1 2 [3] 4 5
31
Недавно вышла новая версия DjVuLibre - 3.5.23:

Цитировать
NEW IN VERSION 3.5.23
------------------------
- Djview3 has been deprecated by djview4 whose source comes in
  its own tarball. Use configure option --enable-djview to force
  the compilation of djview3.
- Set ddjvuapi_version to 19.
- Added ddjvu_document_create_by_filename_utf8
- Generate icons with rsvg rather than imagemagick.
- djvused: correctly outputs escape characters.
- djvumake: added options to generate foreground colors.
- Various bug fixes.

32
Тема перенесена в Сканобработка, поскольку в ней обсуждается работа СканКромсатора.

http://www.djvu-scan.ru/forum/index.php?topic=93.0

33
57an всё время предлагает мне слить в единую программу мои программы DjVu Small и DjVu Imager. Чтобы получилось средство DjVu-кодирования разделённых сканов по принципу "нажал 1 кнопку и получил DjVu".

Давайте обсудим - нужна ли такая программа, и какой она может быть?

Я пока что не понимаю, что конкретно 57an имеет в виду - какой именно должна быть такая программа, как хоть она должна выглядеть?

И ещё - я сомневаюсь, так ли уж нужна такая программа. Я особо не против уже её сделать - но не знаю, надо ли.

Конечно, я не буду как-либо менять ни DjVu Small, ни DjVu Imager - пусть они уже остаются как есть. Лучше сделать с нуля новую отдельную программу.

Вообще - в чём смысл создания такой "1-кнопочной" программы? Погоня за простотой? Но за счёт чего тут планируется достичь простоты - просто за счёт чисто механического слияния 2-х программ в одну?

Мне кажется, что "1-кнопочная" программа никак не получится. Такая программа всё равно будет, как минимум, "2-кнопочная". Первая кнопка - это создание чёрно-белого DjVu, а следующая кнопка - это создание цветного DjVu. Не представляю, как эти 2 кнопки "втиснуть" в одну.

Кроме того, в DjVu Imager создание цветного DjVu - это интерактивный процесс, а не "1-кнопочный". В DjVu Imager предполагается, что пользователь пробует несколько раз создать один и тот же цветной DjVu - каждый раз интерактивно меняя параметры кодирования (ДЗФ и Background quality) - и наблюдая каждый раз, что получилось (пока не получится добиться оптимума размер/качество). Этот процесс мало похож на тупое "нажатие 1 кнопки".

Может, взять за основу DjVu Imager, и добавить туда фоновое создание чёрно-белого DjVu? Но будет ли это хорошо (удобно, наглядно)?

И в чём сложность использования нынешней связки DjVu Small + DjVu Imager? Сложность есть разве что в соблюдении правильности имён файлов. Это, пожалуй, основная возможная причина создания "1-шаговой" программы.

Зато схема DjVu Small + DjVu Imager даёт наибольшую гибкость. В частности, она позволяет не только кодировать разделённые сканы в DjVu - она даёт ещё, например, возможность взять чужой (скаченный из Интернета) DjVu-файл и вставить туда (а также заменить!) свои цветные картинки. Может, это мало кому нужно - но зато возможно.

Сделать "1-кнопочный" DjVu-кодировщик для кодирования разделённых сканов - можно - но боюсь, что это может быть достигнуто только за счёт ущемления качества получаемого DjVu (т.е. без интерактивного подбора оптимума "размер/качество"). Tulon бы сказал "да всё нормально", "и так пойдёт". :) Но я-то не Tulon, у меня такое, как говорится, "no pasaran". :)

Я не допущу даже и возможной потери качества в угоду простоты интерфейса.

34
Pdf / Чем сделать OCR в PDF?
« : 08 БХЭвпСам 2010, 16:36:03 »
Один из популярных вопросов относительно формата PDF звучит так: "Чем можно сделать OCR в PDF-файле?".

Естественно, что речь идёт о чисто растровом PDF-файле.

Мне известны такие варианты:

1. Открыть растровый PDF в Adobe Acrobat Professional и сделать там над ним OCR. Однако, многие говорят, что полученное качество будет невысоким.

2. ABBYY Finereader. Позволяет открыть PDF-файл (с преобразованием его в обычный графический формат), сделать OCR - и сохранить результат в PDF со встроенным OCR.

3. Есть ещё занятная технология в Adobe Acrobat Professional - называется "ClearScan" http://acrobatusers.com/print/2215 . Принцип действия  - тот же OCR, только векторные шрифты генерируются на основе конкретного текста, а не подбираются из имеющегося набора.

Помимо готовых программ, было бы здорово также и заиметь удобную бесплатную программную библиотеку, способную брать на входе OCR-слой (в виде XML или hOCR) и внедрять его в целевой растровый PDF.

Общий список программных PDF-библиотек можно посмотреть тут:

http://en.wikipedia.org/wiki/List_of_PDF_software

Мне, кстати, недавно Илья Межиров сообщил интересную вещь - цитирую:
Цитировать
Насколько я знаю, в PDF нету специального OCR-слоя. Нужный эффект достигается путем наложения прозрачного текста на видимую картинку.
Вот это да! :o Кто бы мог подумать! :)

Тогда, может быть, с задачей внедрения OCR сможет справиться какая-нибудь обычная PDF-библиотека - например, LibHaru http://en.wikipedia.org/wiki/LibHaru или iText http://en.wikipedia.org/wiki/IText .

iText помощнее, чем LibHaru, но он лишь под Java/C#, а LibHaru зато - на языке СИ (и LibHaru, говорят, быстрей, чем iText).

35
Одна из популярных проблем при работе с PDF - чем можно создать, изменить, удалить дерево-оглавление в PDF-файле?

Пока есть такие варианты:

1. Adobe Acrobat Professional (возможно, и Standart подойдёт).
2. Foxit Reader http://www.foxitsoftware.com/pdf/reader/features_benefits.php - бесплатный PDF-просмотрщик. Но у него есть проблемы:
- Начиная с версии 4.0, Foxit Reader изменил статус с shareware-программы на freeware см. http://www.foxitsoftware.com/announcements/20106295647.html - на это нужно обращать внимание, и не брать версии до 4.0.
- Здесь http://ru.wikipedia.org/wiki/Foxit_Reader сказано, что у программы иногда бывают проблемы с русским шрифтом (т.н. "крякозябры"):
Цитировать
Текущие недостатки (версии 3.0)
....
При создании закладок с помощью инструмента Add Bookmark их содержимое (в некоторых русскоязычных документах) также отображается «кракозябрами», хотя в основном тексте выбранные в качестве заголовков фрагменты текста отображаются правильно.
3. Китайская программа PdgCntEditor_eng http://www.comicer.com/stronghorse/software/exe/PdgCntEditor_eng.zip (вариант от 57an). ИМХО весьма любопытное изделие :), мало весит (685 КБ) и имеет довольно навороченный интерфейс.
Однако, я лично отношусь немного настороженно к китайской программной продукции. Китайцы всегда не особо гнались за качеством - больше за ценой и количеством. :) Да и непонятно - а какая у этой программы лицензия? Написано, что "freeware" - но уж верить китайцам на слово в отношении лицензий - это надо иметь большую смелость. ;D
В общем, ИМХО темноватый и сомнительный вариант. Дока там - на китайском языке. И будет ли всё это правильно работать с русскоязычными PDF?

36
Флейм / Впечатления о формате FB2
« : 07 БХЭвпСам 2010, 16:23:46 »
Сканированные книги идут, в основном, в форматах PDF и DjVu.

А как насчёт OCR-книг? Там вроде бы гораздо больше форматов. И разобраться в них кажется гораздо более трудной задачей. Какой лучше? Какой хуже? И т.п.

Я недавно столкнулся с OCR-книгой в некоем формате FB2. Возник интерес: что за формат такой? Хороший или плохой?

Неожиданным образом формат этот мне понравился. Раньше я лично предпочитал для OCR-книг формат HTML - он казался мне наилучшим для этой цели.

Но, ознакомившись немного с FB2, я пришёл к выводу, что FB2 значительно предпочтительнее, чем HTML.

Преимущества FB2 перед HTML я обнаружил такие:

- Книга запоминает последнюю открытую страницу и при новом открытии авто-позиционируется на ней.
- Весь контент книги содержится в едином файле - например, это картинки. У HTML картинки хранятся отдельными файлами.
- Наличие метаданных у книги.
- Простота и удобство конверсии DOC->FB2. Я на пробу один DOC конвертнул в FB2 - так всё получилось полностью автоматически и с хорошим качеством! А вот конвертация DOC->HTML - это просто мучение - для тех, кто знает. Хотя, может мне просто лёгкий DOC-файл попался - что он без проблем в FB2 конвертнулся?
- Возможность полностью автоматической конверсии FB2 в массу других текстовых форматов - HTML, TXT и т.д. Т.е. те, кому не нравится FB2 - смогут без проблем перегнать его, допустим, в HTML.

Формату FB2 посвящён сайт http://www.fictionbook.org/ . Там можно почерпнуть много информации на тему FB2.

Неплохо ещё заглянуть сюда:

http://ru.wikipedia.org/wiki/FB2

К чему я этот разговор затеял:

Мне кажется, что всё многообразие электронных книг можно свести к простому набору форматов: PDF, DjVu, FB2. Все остальные электронно-книжные форматы могут быть к ним преобразованы (если я правильно понял).

Так что отныне - долой книги в форматах DOC, TXT, HTML и т.п.! Их разумно перегонять в FB2.

А также, если определить FB2 как главный формат мира OCR-книг, то это удобно тем, что, во-первых, можно начать стремиться к единому стандарту метаданных всех 3 форматов, во-вторых, можно воспользоваться наработками FB2-мира в области классификации-каталогизации (но уже применительно к DjVu-PDF).

Да и вообще, я надеюсь, что авторы формата FB2 (русскоязычные, кстати) - это наши естественные союзники в электронно-книжном деле. Мы сможем обмениваться опытом и проводить параллели между двумя мирами электронных книг, ища точки соприкосновения.

37
Существует такая популярная задача, как пакетная конвертация группы DOC-файлов в PDF-файл (один многостраничный или несколько одностраничных).

Существует масса т.н. виртуальных PDF-принтеров, которые умеют "распечатывать" ОДИН вордовский DOC-файл в ОДИН соответствующий ему PDF-файл.

Но что делать, если у нас десятки DOC-файлов, и мы хотим без лишних хлопот создать из них один многостраничный PDF-файл?

Кроме того, хотелось бы ещё, чтобы такой пакетный конвертер был свободно-бесплатным (взломанные коммерческие программы использовать не хотелось бы).

Я пока что нашёл такое решение: свободно-бесплатный (и даже с открытыми исходниками) виртуальный PDF-принтер PDFCreator http://www.pdfforge.org/ . В качестве движка он использует GhostScript.

Этот виртуальный принтер даёт возможность пакетной печати - по крайней мере, для форматов DOC, DOCX. Правда, насколько я понял, минус в том, что необходимо наличие на компьютере установленного MS Office.

Зато имеется такой плюс, как возможность печати не только в PDF - но также и в обычные графические форматы - такие как TIF, BMP, и т.д.

Теперь о том, как выполнить такую пакетную печать:

1. В программной группе (меню "Пуск"-"Программы") "PDFCreator" запускаем приложение "PDFCreator". Откроется т.н. Монитор печати PDF.

2. Выбираем в меню "Принтер" - "Остановить".

3. Выделяем печатаемые DOC-файлы и "бросаем" (через Drag-n-Drop) их в окошко программы.

4. Выбираем в меню "Документ" - "Объединить все".

5. Выбираем в меню "Принтер" - "Остановить" (т.е. чтобы снять остановку принтера). Запустится собственно виртуальная печать - которая завершится созданием нужного многостраничного PDF-файла.

Если нужен не 1 многостраничный PDF, а много одностраничных - то п.4 делать не нужно.

Если нужно создать, скажем, многостраничный TIFF - а не PDF - то в настройках "Автосохранение" указываем формат "TIFF". А можно и множество одностраничных BMP так сделать.

Если кто-то знает другие варианты свободно-бесплатной пакетной PDF-печати - прошу привести их.

39
Общий / Перенесено: Стандарт PDF/X
« : 25 °ТУгбв 2010, 19:59:25 »
Тема перенесена в Pdf.

http://www.djvu-scan.ru/forum/index.php?topic=51.0

43
DjVu / Программа DjVu Tinter
« : 22 ёоЫм 2010, 15:15:47 »
Представляю свою новую программу:

DjVu Tinter v1.0

Скачать:

http://www.djvu-soft.narod.ru/soft/djvu_tinter_v1_0.rar  (69 КБ)

Исходники:

http://www.djvu-soft.narod.ru/soft/djvu_tinter_v1_0_src.rar  (21 КБ)

Описание:

DjVu Tinter - это программа, предназначенная для цветного "подкрашивания" DjVu-файлов под (исключительно) программу WinDjView.

DjVu Tinter имеет лицензию "GPL 2 и выше" и полностью открытые исходные коды.

Программа работает как под Win98, так и под Win2000/XP.

DjVu Tinter считывает размеры страниц указанного DjVu-файла и, используя заданные значения прозрачности и цвета заливки, генерирует XML-файл закладок для WinDjView.

Пользователь открывает подкрашиваемый DjVu-файл в WinDjView и делает импорт закладок - указывая сгенерированный DjVu Tinter файл закладок (XML-файл с расширением *.bookmarks).

При этом открытый DjVu-файл тут же "закрасится" (заданным ранее цветом с заданной прозрачностью). Фактически, на каждой странице DjVu-файла установятся т.н. "пользовательские" аннотации - каждая размером во всю (текущую) страницу.

Такая подкраска может оказаться удобной, если кому-то чёрный текст на белом фоне (в DjVu-файле) слишком "режет" глаза.

Данные о пользовательских аннотациях хранятся в реестре компьютера - поэтому подкраска не сохранится при переносе подкрашенного файла на другой компьютер (потребуется там снова делать импорт закладок, чтобы воспроизвести подкраску).

Естественно, в любом ином DjVu-просмотрщике (не-WinDjView) данная подкраска будет не видна.

44
Я выпросил у Рамиза Зейналова исходные коды его алгоритма Dewarping.

Вот они:

http://www.djvu-soft.narod.ru/soft/ramiz_zeynalov_dewarping_src.rar  (447 КБ)

Рамиз поставил мне такое условие: при использовании этих исходников обязательно указывать их источник: http://graphics.cs.msu.ru/ .

Описание алгоритма здесь:

http://www.graphicon.ru/proceedings/2009/conference/se9/121/121_Paper.pdf 

(316 КБ, формат: PDF, язык: русский).

45
Предлагаю собирать ссылки на интересные программные библиотеки (или просто проекты) по работе с растровой графикой.

По возможности, желательно собирать реально значимые проекты (а ведь есть много малоинтересных проектов-"пустышек", которые не представляют интереса).

Я перенёс в эту новую тему парочку постов из темы http://www.djvu-scan.ru/forum/index.php?topic=58.0.

m7876
Цитировать
Советую обратить внимание на фильтр Wavelet Sharpen в GIMP.
Спасибо, я вот именно про такой плагин ещё не слышал. Вот нашёл несколько интересных ссылок на эту тему:

http://www.swaj.net/zametki/gimp-wavelets/gimp-wavelets.html
http://nvitr.narod.ru/rasshireniya_plagini_i_skripti_gimp/wavelet
http://gimp4stockers.blogspot.com/2010/01/10.html
http://wiki.linuxformat.ru/index.php/LXF112:GIMP

Выглядит весьма впечатляюще. Очень интересно.

Wavelet decompose   http://registry.gimp.org/node/11742
Wavelet denoise   http://registry.gimp.org/node/4235
Wavelet sharpen   http://registry.gimp.org/node/9836

Страницы: 1 2 [3] 4 5