Автор Тема: Программа MiniDjVu Plus  (Прочитано 12066 раз)

m7876

  • Новичок
  • *
  • Сообщений: 38
    • Просмотр профиля
Re: Программа MiniDjVu Plus
« Ответ #15 : 20 ёоЫм 2010, 08:35:57 »
Судя по всему, нет. Вот что написано в спецификации JFIF (так должен называться формат, но укоренилось ошибочное название JPEG):
===
Standard color space
The color space to be used is YCbCr as defined by CCIR 601 (256 levels).  The RGB
components calculated by linear conversion from YCbCr shall not be gamma corrected
(gamma = 1.0).  If only one component is used, that component shall be Y.
===
http://www.w3.org/Graphics/JPEG/
То есть если в цветовом пространстве один компонент Y (luma, грубо говоря, светимость), то все равно должно быть 256 уровней (так называемые greyscale JPG, которые не очень поддерживаются).

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #16 : 30 ёоЫм 2010, 09:46:48 »
Я написал письмо Илье Межирову о проблемах minidjvu. Вот его ответ:
Цитировать
> Как Вы думаете, miniDjVu уступает коммерчерческим аналогам?
Уступает.

> В чём именно он им уступает? Понятно, что в скорости и весе получаемого DjVu. Но мне лично кажется, что от miniDjVu получаются буквы в DjVu более зазубренные. Как Вы думаете, это так и есть, или мне просто так кажется?
Наверно. В minidjvu весьма тупой алгоритм сглаживания - попиксельное усреднение. Кроме того, коммерческие аналоги отлавливают больше букв перед усреднением. Но в коммерческих программах есть распознавалка, например, Jim Riley как-то заявил, что у него там (насколько я помню) Iris. Причем распознавалка не просто добавляет скрытый текст, а непосредственно участвует в сжатии, например, говорит, где буквы. Домашним поделкам типа minidjvu до этого далековато.

> - Может, у Вас есть какие-нибудь идеи - где бы поискать человека, кто смог бы улучшить minidjvu?
Во-первых, minidjvu находится в GPL-ной яме. Тот, кто улучшает minidjvu, не может продать комерческую лицензию на свой код. Это многим (в т.ч. мне) неприятно.
Во-вторых, имеются несколько проектов, которые могут разбивать страницу на буквы и группировать их - тот же minidjvu, наш iUPR'ский decapod, любая OCR типа ocropus, ну и у меня будет еще одна похожая штука. Кроме того, имеются несколько проектов, которые могут использовать это представление - minidjvu, pdfrecompressor/jbig2enc, decapod опять же (только там буквы зачем-то трассируются в векторный шрифт). Товарищи, занимающиеся PDF'ами, фактически выполняют ту же самую работу, потому что jbig2 и djvu очень похожи.

Поэтому хорошо бы выработать промежуточный формат, описывающий многостраничный документ, разбитый на спрайты, но еще не сжатый (в minidjvu это называется split image). Затем надо сделать так, чтобы minidjvu мог читать файлы этого формата и тупо сжимать их в djvu. Наверное, и к jbig2enc будет это не так уж сложно прикрутить. Да и в cjb2 неплохо бы.
После этого задачу можно поставить так: улучшить или написать с нуля разбиение страниц на спрайты и группировку этих спрайтов. Это улучшит одновременно djvu- и pdf-сжатие, а может и decapod'ные векторные прибамбасы.


> - Может, Вы могли бы дать какие-то конкретные "наводки" - на тему, в каком направлении следует совершенствовать minidjvu - для Вашего возможного последователя? Наверное, эти "наводки" должны быть в свете чёткого понимания, чем же именно minidjvu хуже коммерческих аналогов (а такого чёткого понимания пока нет - у меня то есть).

У меня есть мнение (с которым Алексей не согласен), что перво-наперво надо наладить автоматическое тестирование на большой базе. Надо взять, скажем, базу ISRI-OCRtk и после каждого изменения алгоритма гонять по ней minidjvu, чтобы узнать, не отождествили ли мы ненароком какие-нибудь разные буквы. Потому что калибровать алгоритм на коленке (на трех страничках) - это детский сад.

Потом надо озаботиться поиском букв. Сейчас связные компоненты берутся в качестве букв и никаких попыток их разбить не делается. Это безобразие. Можно, например, пытаться приложить известные буквы к началу длинных связных компонент, и если найдется что-то похожее, то длинную компоненту можно разбить.

> - Кто такой Александр Шень, который Вас "introducing me to DjVu and inspiring me to do all this"? Можно ли с ним связаться?
Это мой (бывший) научный руководитель. Он сам не программирует, но иногда кого-нибудь уговаривает. Связаться-то с ним можно (shen собака mccme точка ru), только что Вы ему скажете, чего он не знает?


> - Какие могут быть пути поиска желающих улучшить minidjvu среди студентов мехмата МГУ (через Интернет как-то?)

Не знаю. Но форум мехмата - не graphicon.ru, а mmonline.ru.

Успехов Вам в поисках!

Илья
Это я на днях написал на форуме graphicon.ru обращение по поводу поиска желающих заняться улучшением minidjvu:

http://forum.graphicon.ru/viewtopic.php?f=8&t=4712
« Последнее редактирование: 30 ёоЫм 2010, 09:54:36 от monday2000 »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #17 : 02 °ТУгбв 2010, 18:00:20 »
Ещё один ответ от Ильи Межирова:
Цитировать
> Илья, у меня к Вам такая просьба:
Вообще-то minidjvu - не самый интересный для меня проект на сегодня, даже не в топ 3.

>Да, вот такой важный вопрос: в какой мере нужно обладать знаниями уровня  мехматовского - чтобы быть способным что-то понять в minidjvu? А простым смертным - никак не вариант?
Не, ну вот истфак МГУ тоже годится :)

>Можете ли оценить на пальцах уровень сложности по усовершенствованию minidjvu? Каковы требования к умениям такого разработчика, на что он обязан быть способен?

Во-первых, понимать и писать по-английски.
Во-вторых, уметь программировать - например, сейчас попиксельное расстояние между картинками считается медленно через распаковку; если сможете переписать с использованием побитового сдвига и bitcount, то lossless сжатие (по идее) станет ощутимо быстрее.
В-третьих, знать про binary morphology, что такое erosion, dilation, opening, closing, thinning, hit-or-miss transform. Надо сказать, что я ничего этого не знал, когда начинал, поэтому в minidjvu skeleton называется pith, а thinning называется framework extraction.
В-четвертых, хорошо бы уметь применять какие-нибудь алгоритмы ускоренного поиска по образцу. У меня есть кое-какие мысли насчет bumptrees и balltrees, придуманных Omohundro, но там посмотрим.

Илья

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #18 : 09 °ТУгбв 2010, 10:12:12 »
Новая подверсия:

MiniDjVu Plus v1.3

Скачать:

http://www.djvu-soft.narod.ru/soft/minidjvu_plus_v1_3.rar  (893 КБ)

Исходники:

http://www.djvu-soft.narod.ru/soft/minidjvu_plus_v1_3_src.rar  (82 КБ)

Что нового:

- Исправлен глюк режима Decode DjVu, когда он не мог работать с DjVu-файлами, имеющими русские имена. Для этого обновлена консольная утилита fi_ddjvu.exe с версии 1.1 до 1.2. Изменён файл ByteStream.cpp:

http://djvu.cvs.sourceforge.net/viewvc/djvu/djvulibre-3.5/libdjvu/ByteStream.cpp?revision=1.24&view=markup

строка 670 заменена с:
Цитировать
return retval?retval:fopen((const char *)url.NativeFilename(),mode);
на
Цитировать
return retval?retval:fopen((const char *)url.fname(),mode);
- Формат PNG разрешено использовать также и в режиме BW -> DjVu (а не только в режиме Photo -> DjVu).

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #19 : 09 °ТУгбв 2010, 14:15:53 »
SorokaSV
Опробовал программу на нескольких обширных примерах BW->DjVu (несколько сотен страниц за раз).

Никаких иных глюков больше не обнаружил.

Если что-то проблемное ещё будет - дайте знать.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #20 : 10 °ТУгбв 2010, 19:04:32 »
monday2000
Да, согласен, программа сейчас вполне рабочая.
Но некоторые глюки у меня проглядывали.
Pages per dict у меня работает только до 100. Если установить 125 и больше, программа не кодирует.
И ещё. Мне кажется, или нет - при кодировании буквы делаются хорошо и правильно, а линии (подчёркивания, таблиц) - разрываются, првращаются в пунктир. Это конечно не недостаток, а особенность...
« Последнее редактирование: 10 °ТУгбв 2010, 19:07:08 от SorokaSV »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #21 : 11 °ТУгбв 2010, 12:14:09 »
SorokaSV
Цитировать
Если установить 125 и больше, программа не кодирует.
Давайте образец сканов (через файлообменник).

Вообще подозрение падает на переполнение оперативной памяти. У меня на пробу 271 чб страниц закодировались со словарём=125 без каких-либо проблем. Но оперативная память при этом расходовалась немерянно - раза в 3 больше, чем при обычном использовании fi_minidjvu.exe. У меня расход достигал 450 МБ оперативной памяти (в Диспетчере Задач у процесса fi_minidjvu.exe).

Известен некий похожий глюк "minidjvu: segfaults if virtual memory is limited": http://osdir.com/ml/debian-bugs-dist/2010-02/msg02639.html
Цитировать
И ещё. Мне кажется, или нет - при кодировании буквы делаются хорошо и правильно, а линии (подчёркивания, таблиц) - разрываются, првращаются в пунктир.
Аналогичные приходы свойственены и documenttodjvu - только в немного более мягкой форме.

И ещё я вообще заметил, что fi_minidjvu.exe работает ОЧЕНЬ медленно - по сравнению с documenttodjvu.exe.
« Последнее редактирование: 11 °ТУгбв 2010, 12:45:06 от monday2000 »

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #22 : 30 °ТУгбв 2010, 21:16:41 »
После долгого перерыва сделал 2 книги с помощью minidjvu 1.3.
Могу констатировать, что при словаре 125 и 165 страниц (и книгах соответственно 239 и 327 страниц) всё нормально работает.
Надеюсь, продолжение следует.
Если бы ещё поменьше разрывались линии при больших dpi (правда, пробовал только в версии 1.2) и, конечно, побыстрее бы.
А остальное не хуже smoll (имхо, конечно) и, уж не знаю почему, меньше файл размером.
И ещё три копейки. Имхо, сейчас без кромсатора невозможно готовить приличные сканы.

SorokaSV

  • Пользователь
  • **
  • Сообщений: 56
    • Просмотр профиля
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #23 : 02 БХЭвпСам 2010, 18:30:36 »
При величине словаря 256 страниц (книга 511 страниц) кодировать отказался.
Отказалась она кодироваться и при 128 стр. в словаре, и при 103, и при 100. закодировалась при 86.
« Последнее редактирование: 03 БХЭвпСам 2010, 17:37:09 от SorokaSV »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #24 : 06 БХЭвпСам 2010, 09:24:01 »
SorokaSV
Закодируйте проблемные сканы в DjVu при помощи DjVu Small и присылайте через файлообменник. Буду разбираться с ними.

contrarassizm

  • Новичок
  • *
  • Сообщений: 1
    • Просмотр профиля
    • E-mail
Re: Программа MiniDjVu Plus
« Ответ #25 : 15 ПЭТРам 2011, 14:46:30 »

 8) :) ;)
Программа для открытия файла .DJVU
, русская , лецензионная версия программы
+сrack(Таблетка) , Вирусов нет ,
проверенно drweb
CКАЧАТЬ МОЖНА ПО ССЫЛКЕ НИЖЕ

Запрещено публиковать ссылки на пиратские программы (monday2000).
- нада проста убрать пробелы

Program to open the file. DJVU,
Russian, letsenzionnaya version
+ srack (tablets), viruses are not
screened drweb

Programm zum Offnen der Datei. DJVU,
Russisch, letsenzionnaya Version + srack
(Tabletten), Viren sind nicht drweb

Для наших БРАТЬЕВ Украинсов
Програма для відкриття файлу. DJVU,
російська, лецензіонная версія програми
+ сrack (Пігулка), Вірусів немає, перевірено drweb

download using the links BELOW
Download uber die Links unten abgeschirmt
Cкачать можна за посиланням НИЖЧЕ


Запрещено публиковать ссылки на пиратские программы (monday2000).
 - нада проста убрать пробелы

Спасибо за ваша внимание !!!
Spasibo for your attention !!!
Spasibo für Ihre Aufmerksamkeit !!!
Спасибі за увагу !!!

 :D ::)
« Последнее редактирование: 15 ПЭТРам 2011, 16:43:13 от monday2000 »


veala

  • Ветеран
  • *****
  • Сообщений: 1173
    • Просмотр профиля
Re: Программа MiniDjVu Plus
« Ответ #27 : 25 ѕЪвпСам 2018, 19:26:23 »
audiobookkeeper.rucottagenet.rueyesvision.rueyesvisions.comkinozones.rulaserlens.rumedinfobooks.rump3lists.ruspicetrade.ruspysale.rustungun.rulargeheart.ru
lasercalibration.rulaserpulse.rulaterevent.rulatrinesergeant.rulayabout.ruleadcoating.ruleadingfirm.rulearningcurve.ruleaveword.rumachinesensible.rumagneticequator.rumagnetotelluricfield.ru
mailinghouse.rumajorconcern.rumammasdarling.rumanagerialstaff.rumanipulatinghand.rumanualchoke.runameresolution.runaphtheneseries.runarrowmouthed.runationalcensus.runaturalfunctor.runavelseed.ru
neatplaster.runecroticcaries.runegativefibration.runeighbouringrights.ruobjectmodule.ruobservationballoon.ruobstructivepatent.ruoceanmining.ruoctupolephonon.ruofflinesystem.ruoffsetholder.ruolibanumresinoid.ru
onesticket.rupackedspheres.rupagingterminal.rupalatinebones.rupalmberry.rupapercoating.ruparaconvexgroup.ruparasolmonoplane.ruparkingbrake.rupartfamily.rupartialmajorant.ruquadrupleworm.ru
qualitybooster.ruquasimoney.ruquenchedspark.ruquodrecuperet.rurabbetledge.ruradialchaser.ruradiationestimator.rurailwaybridge.rurandomcoloration.rurapidgrowth.rurattlesnakemaster.rureachthroughregion.ru
readingmagnifier.rurearchain.rurecessioncone.rurecordedassignment.rurectifiersubstation.ruredemptionvalue.rureducingflange.rureferenceantigen.ruregeneratedprotein.rureinvestmentplan.rusafedrilling.rusagprofile.ru
salestypelease.rusamplinginterval.rusatellitehydrology.ruscarcecommodity.ruscrapermat.ruscrewingunit.ruseawaterpump.rusecondaryblock.rusecularclergy.ruseismicefficiency.ruselectivediffuser.rusemiasphalticflux.ru
semifinishmachining.rutacticaldiameter.rutailstockcenter.rutamecurve.rutapecorrection.rutappingchuck.rutaskreasoning.rutechnicalgrade.rutelangiectaticlipoma.rutelescopicdamper.rutemperateclimate.rutemperedmeasure.ru
tenementbuilding.ruultramaficrock.ruultraviolettesting.rujobstress.rujogformation.rujointcapsule.rujointsealingmaterial.rujournallubricator.rujuicecatcher.rujunctionofchannels.rujusticiablehomicide.rujuxtapositiontwin.ru
kaposidisease.rukeepagoodoffing.rukeepsmthinhand.rukentishglory.rukerbweight.rukerrrotation.rukeymanassurance.rukeyserum.rukickplate.rukillthefattedcalf.rukilowattsecond.rukingweakfish.ru
kleinbottle.rukneejoint.ruknifesethouse.ruknockonatom.ruknowledgestate.rukondoferromagnet.rulabeledgraph.rulaborracket.rulabourearnings.rulabourleasing.rulaburnumtree.rulacingcourse.ru
lacrimalpoint.rulactogenicfactor.rulacunarycoefficient.ruladletreatediron.rulaggingload.rulaissezaller.rulambdatransition.rulaminatedmaterial.rulammasshoot.rulamphouse.rulancecorporal.rulancingdie.ru
landingdoor.rulandmarksensor.rulandreform.rulanduseratio.rulanguagelaboratory.rufactoringfee.rufilmzones.rugadwall.rugaffertape.rugageboard.rugagrule.rugallduct.ru
galvanometric.rugangforeman.rugangwayplatform.rugarbagechute.rugardeningleave.rugascautery.rugashbucket.rugasreturn.rugatedsweep.rugaugemodel.rugaussianfilter.rugearpitchdiameter.ru
geartreating.rugeneralizedanalysis.rugeneralprovisions.rugeophysicalprobe.rugeriatricnurse.rugetintoaflap.rugetthebounce.ruhabeascorpus.ruhabituate.ruhackedbolt.ruhackworker.ruhadronicannihilation.ru
haemagglutinin.ruhailsquall.ruhairysphere.ruhalforderfringe.ruhalfsiblings.ruhallofresidence.ruhaltstate.ruhandcoding.ruhandportedhead.ruhandradar.ruhandsfreetelephone.ruhangonpart.ru
haphazardwinding.ruhardalloyteeth.ruhardasiron.ruhardenedconcrete.ruharmonicinteraction.ruhartlaubgoose.ruhatchholddown.ruhaveafinetime.ruhazardousatmosphere.ruheadregulator.ruheartofgold.ruheatageingresistance.ru
heatinggas.ruheavydutymetalcutting.rujacketedwall.rujapanesecedar.rujibtypecrane.rujobabandonment.ru

veala

  • Ветеран
  • *****
  • Сообщений: 1173
    • Просмотр профиля
Re: Программа MiniDjVu Plus
« Ответ #28 : 25 ѕЪвпСам 2018, 19:27:36 »
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо

veala

  • Ветеран
  • *****
  • Сообщений: 1173
    • Просмотр профиля
Re: Программа MiniDjVu Plus
« Ответ #29 : 25 ѕЪвпСам 2018, 19:28:49 »
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт