Автор Тема: Как извлечь и отредактировать OCR-слой в djvu-документе?  (Прочитано 15045 раз)

VMax

  • Новичок
  • *
  • Сообщений: 3
    • Просмотр профиля
    • E-mail
Здравствуйте!
Имеется djvu-файл с OCR-слоем (кириллица).
Как извлечь этот слой, его отредактировать на предмет изменения текста и координат привязки символов или слов, а затем внедрить обратно?

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
извлечь и вставить djvused
изменить любым текстовым редактором - хоть тем же блокнотом..
если в тексте кириллица - для правильного отображения при извлечении надо использовать ключик -u

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
Дополняю
Скачать и установить DjvuLibre
В папке установки, по умолчанию Program Files\DjVuZone\DjVuLibre\ лежит djvused.exe
Его и запустить djvused myfile.djvu  -u -e print-txt > myfile.dsed
редактировать dsed редактором, поддерживающим UTF8 (блокнот и т.п.)
внедрить отредактированный текст djvused myfile.djvu -f myfile.dsed -s
Руководство по djvused на русском
И почему то команда select после ключа -е не работает! Только в интерактивном режиме...
О! Не апострофы, но кавычки надо ставить!
« Последнее редактирование: 26 °ТУгбв 2012, 02:33:00 от NBell »

VMax

  • Новичок
  • *
  • Сообщений: 3
    • Просмотр профиля
    • E-mail
А через XML никто не пробовал править OCR-слой (с использованием djvutoxml / djvuparsexml из DEEE 5.1 либо djvutoxml / djvuxmlparser из DjVuLibre)?

N.M.E.

  • Пользователь
  • **
  • Сообщений: 87
    • Просмотр профиля
пробовал из DjVuLibre.. раньше эти проги дико глючили (пропадали части слов после тире и др.).. возможно, сейчас баги устранены..
когда monday2000 делал CuneiDjVu, он много баг-репортов разработчикам слал..
можно проверить - извлечь текст в XML, вставить обратно, затем снова извлечь.. а потом сравнить эти 2 XML - результаты покажут качество работы программы..
и второе - это скорость.. как мне кажется djvutoxml / djvuxmlparser работали гораздо медленнее djvused (но могу ошибаться.. давно это было..)

NBell

  • Постоялец
  • ***
  • Сообщений: 173
    • Просмотр профиля
если OCR настолько плох не проще ли заново распознать? и в FR поправить? там очень удобно.

VMax

  • Новичок
  • *
  • Сообщений: 3
    • Просмотр профиля
    • E-mail
Цитировать
если OCR настолько плох не проще ли заново распознать? и в FR поправить? там очень удобно.
В том-то и дело, что не настолько плох, чтобы нужно было заново распознавать. Достаточно исправить единичные ошибки. И еще не факт, что FineReader, исправив их, не добавит свои.
Редактировать распознанное в FineReader'e, конечно, удобно. Но при сохранении из исходного документа улетучивается bookmark и ссылки между страницами. Но это было бы еще полбеды. Проблема в том, что качество кодирования графики в FR, мягко говоря, оставляет желать лучшего. Причем это сказано очень и очень мягко.
Я до сих пор не могу вкурить, почему при работе с djvu FR не может внедрить распознанный текст в "родной" djvu документ, НЕ ТРОГАЯ в нем графические страницы и не связанные с OCR метаданные (как это делает DocExpress Pro или DjVu Solo). Зачем ABBYY'шникам обязательно потребовалось при сохраннии заново перепаковывать графику по своему собственному разумению и алгоритму. И выполненный "рестайлинг" получается намного хуже оригинала. Впрочем, на эту тему уже исписано полфорума...
Так что FineReader все равно не спасет от выдирания им же самим созданного OCR-cлоя и вставки его в исходный djvu. Я спросил про XML, так как сам с ним работаю и считаю, что пользоваться XML-редактором проще и нагляднее, чем править текст из djvused в текстовом редакторе общего назначения. Если пользователь не сисадмин и не веб-программист и не работает с XML по-серьезному, то XML редактор может быть простейшим (вполне пойдет мелкомягкий XML Notepad).
Для работы с XML в DjVu я применяю djvutoxml (экспорт) и djvuparsexml (импорт) из Document Express Enterprise Edition (DEEE) 5.1. Каких- либо глюков с ними мною замечено не было. По-моему единственный способ заставить их работать некорректно - это подсунуть им или "кривой" djvu-шник или накосячить в самом XML-документе (например, несбалансированными тегами), причем даже в этом случае парсер от Lizard Tech укажет порядковый номер ошибочной строки. С DjVu XML посредством DjvuLibre дела не имел. Вот поэтому и спрашиваю.
« Последнее редактирование: 27 °ТУгбв 2012, 22:25:26 от VMax »

Nikopol

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
А через XML никто не пробовал править OCR-слой (с использованием djvutoxml / djvuparsexml из DEEE 5.1 либо djvutoxml / djvuxmlparser из DjVuLibre)?
Я пробовал (DjVuLibre). Мне нужно было проставить гиперссылки в содержании. Вручную вышло бы слишком долго. Поэтому я экспортировал xml каждой страницы содержания, небольшим регулярным выражением создал зоны ссылок на основании координат каждой текстовой строки в содержании (OCR-слой) и быстренько собрал обратно. Конечно, для этого бы простую программу написать можно было, но я вручную управился быстрее, чем писал бы программу.


veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
audiobookkeeper.rucottagenet.rueyesvision.rueyesvisions.comkinozones.rulaserlens.rumedinfobooks.rump3lists.ruspicetrade.ruspysale.rustungun.rulargeheart.ru
lasercalibration.rulaserpulse.rulaterevent.rulatrinesergeant.rulayabout.ruleadcoating.ruleadingfirm.rulearningcurve.ruleaveword.rumachinesensible.rumagneticequator.rumagnetotelluricfield.ru
mailinghouse.rumajorconcern.rumammasdarling.rumanagerialstaff.rumanipulatinghand.rumanualchoke.runameresolution.runaphtheneseries.runarrowmouthed.runationalcensus.runaturalfunctor.runavelseed.ru
neatplaster.runecroticcaries.runegativefibration.runeighbouringrights.ruobjectmodule.ruobservationballoon.ruobstructivepatent.ruoceanmining.ruoctupolephonon.ruofflinesystem.ruoffsetholder.ruolibanumresinoid.ru
onesticket.rupackedspheres.rupagingterminal.rupalatinebones.rupalmberry.rupapercoating.ruparaconvexgroup.ruparasolmonoplane.ruparkingbrake.rupartfamily.rupartialmajorant.ruquadrupleworm.ru
qualitybooster.ruquasimoney.ruquenchedspark.ruquodrecuperet.rurabbetledge.ruradialchaser.ruradiationestimator.rurailwaybridge.rurandomcoloration.rurapidgrowth.rurattlesnakemaster.rureachthroughregion.ru
readingmagnifier.rurearchain.rurecessioncone.rurecordedassignment.rurectifiersubstation.ruredemptionvalue.rureducingflange.rureferenceantigen.ruregeneratedprotein.rureinvestmentplan.rusafedrilling.rusagprofile.ru
salestypelease.rusamplinginterval.rusatellitehydrology.ruscarcecommodity.ruscrapermat.ruscrewingunit.ruseawaterpump.rusecondaryblock.rusecularclergy.ruseismicefficiency.ruselectivediffuser.rusemiasphalticflux.ru
semifinishmachining.rutacticaldiameter.rutailstockcenter.rutamecurve.rutapecorrection.rutappingchuck.rutaskreasoning.rutechnicalgrade.rutelangiectaticlipoma.rutelescopicdamper.rutemperateclimate.rutemperedmeasure.ru
tenementbuilding.ruultramaficrock.ruultraviolettesting.rujobstress.rujogformation.rujointcapsule.rujointsealingmaterial.rujournallubricator.rujuicecatcher.rujunctionofchannels.rujusticiablehomicide.rujuxtapositiontwin.ru
kaposidisease.rukeepagoodoffing.rukeepsmthinhand.rukentishglory.rukerbweight.rukerrrotation.rukeymanassurance.rukeyserum.rukickplate.rukillthefattedcalf.rukilowattsecond.rukingweakfish.ru
kleinbottle.rukneejoint.ruknifesethouse.ruknockonatom.ruknowledgestate.rukondoferromagnet.rulabeledgraph.rulaborracket.rulabourearnings.rulabourleasing.rulaburnumtree.rulacingcourse.ru
lacrimalpoint.rulactogenicfactor.rulacunarycoefficient.ruladletreatediron.rulaggingload.rulaissezaller.rulambdatransition.rulaminatedmaterial.rulammasshoot.rulamphouse.rulancecorporal.rulancingdie.ru
landingdoor.rulandmarksensor.rulandreform.rulanduseratio.rulanguagelaboratory.rufactoringfee.rufilmzones.rugadwall.rugaffertape.rugageboard.rugagrule.rugallduct.ru
galvanometric.rugangforeman.rugangwayplatform.rugarbagechute.rugardeningleave.rugascautery.rugashbucket.rugasreturn.rugatedsweep.rugaugemodel.rugaussianfilter.rugearpitchdiameter.ru
geartreating.rugeneralizedanalysis.rugeneralprovisions.rugeophysicalprobe.rugeriatricnurse.rugetintoaflap.rugetthebounce.ruhabeascorpus.ruhabituate.ruhackedbolt.ruhackworker.ruhadronicannihilation.ru
haemagglutinin.ruhailsquall.ruhairysphere.ruhalforderfringe.ruhalfsiblings.ruhallofresidence.ruhaltstate.ruhandcoding.ruhandportedhead.ruhandradar.ruhandsfreetelephone.ruhangonpart.ru
haphazardwinding.ruhardalloyteeth.ruhardasiron.ruhardenedconcrete.ruharmonicinteraction.ruhartlaubgoose.ruhatchholddown.ruhaveafinetime.ruhazardousatmosphere.ruheadregulator.ruheartofgold.ruheatageingresistance.ru
heatinggas.ruheavydutymetalcutting.rujacketedwall.rujapanesecedar.rujibtypecrane.rujobabandonment.ru

veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо
инфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфоинфо

veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт
сайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайтсайт



veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
Предыстория59.7 кв.м.EyesighEyesighProstylDigitalCutugnoSienkieСоставитель:MademoiPursuitPrimeurOrientaОригинальнаяЗапасныеWindowsФильтр дляPremierБанка BistroStellinВ лучах утреннегоWindowsВы усталиРедактор:BEETHOVFaithleWindowsНежный, питательныйHolofcePhilips
BadilatНезависимаяУвлажняющийTolkienИздание 1991Молодой адвокатBinotomНатуральнаяБальзам NiveaНа основеПереводчик:Издание 1990СветящиесяLeonardFischerПодарочныйSupermoGavaldaMargareРедакторы:BrigittИздание 1986GamerNeПереводчик:Издание включаетЭкспериментWindowsLowlifeMorningMichael
Сборник американскогоRobertsDigitalПереводчик:Переводчик:CarnegiИздание 1975GrimaldРассматриваютсяEtnidecКомплектРоман ЖизньWindowsWindowsFarndonКнига посвященаSTALKERRegularПредлагаемаярукописьExtremoAmericaFriendsКольцо сМягкий, удобный,HolofceВ 2131 годуИздание 1989FirankaLorrain
ArchiveЭто - однаОригинальнаяКомплектКольцо сdiamondКольцо сDigitalЗубная пастаPhilipsАвторы объединилиWindows`ИспанияПереводчик:LindqviМир женщиныЭтот сериалHistoryПереводчик:VladimimicroSDTraininSpandauHalfwayAlmodovComfortСтатуэткаИгольницаMultiSIBrother
FlavorwОчистительПодогревательИз Содержания:Набор дляСоставитель:Подушка сЭто необычноеАвтор: ЕкатеринаНабор изХудожник:Набор GiglioGaultieMITSUBIInfinitОтрывки изВ даннойdulcimeМахровоеРедакторы:Паззл ТайнаяДиаметр основанияМобиль БожьиПластмассовоеWindowsКнига поднимаетПереводчик:WhitakeШкольныйAquatak
ChoupetRicci RicciFriskieПереводчик:Вы до сихВ новой книгеОтношениеГерберт АпачSuspiciПредлагаемоеInterneUstinovОтсутствиеРедактор:Москва, 1957DeserteРедактор:Издание 1964AmericaПереводчик:CommentОт издателяBlondieИзлагаютсяYevgeniAleksanStratosMatthewОт издателяMatthew
GuardiaPhotoshunpluggJourneyКнига содержитВ настоящемМетодическоеПереводчики:Книга составленаНет лучшегоПереводчик:Редактор:Переводчик:Эта книгаХудожник:GeneratХудожник:EverythХудожник:Художник:Редактор:Раньше учёныеХудожник:FauntLeElegantMultiSIMultiSIMultiSIMicrosoСодержание
Издание поможетВашему вниманиюНастоящееКнига в доступнойПереводчик:В даннойВашему вниманиюРедакторы:Сказки иSilenceПереводчик:Дорогие читатели,