Автор Тема: Чем сделать OCR в PDF? (Прочитано 22188 раз)

monday2000 · « : 08 БХЭвпСам 2010, 16:36:03 »

Один из популярных вопросов относительно формата PDF звучит так: "Чем можно сделать OCR в PDF-файле?".

Естественно, что речь идёт о чисто растровом PDF-файле.

Мне известны такие варианты:

1. Открыть растровый PDF в Adobe Acrobat Professional и сделать там над ним OCR. Однако, многие говорят, что полученное качество будет невысоким.

2. ABBYY Finereader. Позволяет открыть PDF-файл (с преобразованием его в обычный графический формат), сделать OCR - и сохранить результат в PDF со встроенным OCR.

3. Есть ещё занятная технология в Adobe Acrobat Professional - называется "ClearScan" http://acrobatusers.com/print/2215 . Принцип действия - тот же OCR, только векторные шрифты генерируются на основе конкретного текста, а не подбираются из имеющегося набора.

Помимо готовых программ, было бы здорово также и заиметь удобную бесплатную программную библиотеку, способную брать на входе OCR-слой (в виде XML или hOCR) и внедрять его в целевой растровый PDF.

Общий список программных PDF-библиотек можно посмотреть тут:

http://en.wikipedia.org/wiki/List_of_PDF_software

Мне, кстати, недавно Илья Межиров сообщил интересную вещь - цитирую:

Цитировать

Насколько я знаю, в PDF нету специального OCR-слоя. Нужный эффект достигается путем наложения прозрачного текста на видимую картинку.

Вот это да!

Кто бы мог подумать!

Тогда, может быть, с задачей внедрения OCR сможет справиться какая-нибудь обычная PDF-библиотека - например, LibHaru http://en.wikipedia.org/wiki/LibHaru или iText http://en.wikipedia.org/wiki/IText .

iText помощнее, чем LibHaru, но он лишь под Java/C#, а LibHaru зато - на языке СИ (и LibHaru, говорят, быстрей, чем iText).

monday2000 · « **Ответ #1 :** 04 ЅЮпСам 2010, 18:19:59 »

Я случайно узнал о существовании крайне любопытной программы hocr2pdf: http://www.exactcode.de/site/open_source/exactimage/hocr2pdf/ . Она входит в open-source библиотеку ExactImage http://www.exactcode.de/site/open_source/exactimage/ .

Эта программа имеет свой собственный PDF-движок (по созданию PDF) плюс она принимает hOCR http://code.google.com/p/hocr-tools/ и вставляет OCR-данные из него в создаваемый ею PDF! И всё это бесплатно и с открытыми исходниками!

Это же просто сказка и мечта.

Скачать hocr2pdf можно тут: http://dl.exactcode.de/oss/exact-image/ - качать надо самую последнюю версию внизу страницы. Вот прямой линк на данный момент: http://dl.exactcode.de/oss/exact-image/exact-image-0.8.3.tar.bz2 .

Вообще, интересная библиотека. Нужно будет присмотреться. К примеру, они утверждают, что у них есть алгоритм de-screening. Это интересно.

hocr2pdf написан, как я понял, на С++ - так что можно будет под виндой его скомпилировать.

hocr2pdf откроет возможность создания такого конвертера djvu2pdf, который будет уметь переносить OCR из DjVu в PDF - немыслимая ныне возможность (если не считать файнридер).

Статья по теме:
Linux, OCR and PDF – problem solved

http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/

Хотя, не исключено, что обычный GhostScript так тоже умеет (создавать PDF с заданным hOCR) - см. http://gnome-help.org/content/show.php/OCR+using+Tesseract?content=121289

Nitro · « **Ответ #2 :** 11 ґХЪРСам 2011, 17:41:38 »

Вставлю свои 5 копеек. Adobe Acrobat Professional не канает вообще, качество такое, что лучше б вообще не было распознанного слоя. Да и 2 языка распознавания невозможно выбрать.

Что касается FR, то тут приходится переконвертировать PDF. И вот тут проблема уже в том, что после прогона сильно портятся изображения (даже при максимальных настройках качества). Понятно, что хранить отсканированную книгу с иллюстрациями в pdf это очень плохо, но в ряде случаев, если текст более-менее читаем, тратить время на улучшение и перегонку в djvu смысла нет, а текстовый слой добавить все же хочется. Про это и тут писали http://rutracker.org/forum/viewtopic.php?p=46798219#46798219

Есть какие-то мысли по этому вопросу?

textsharik · « **Ответ #3 :** 14 ґХЪРСам 2011, 02:13:03 »

Есть такой формат Pseudo-Djvu.
Размер будет 1:1 как у оригинального pdf-файла. Зато никаких проблем с текстовым слоем. Конвертирование мгновенное: с настройками сегментера мучиться не надо.
Для факсов тоже подходит.

don555 · « **Ответ #4 :** 14 ґХЪРСам 2011, 12:11:12 »

Можно ссылку на этот Pseudo-Djvu?

textsharik · « **Ответ #5 :** 14 ґХЪРСам 2011, 21:34:48 »

Цитата: don555 от 14 ґХЪРСам 2011, 12:11:12

Можно ссылку на этот Pseudo-Djvu?

Утилита phototodjvu.exe (входит в состав Document Express Enterprise) с параметром --jpeg.
GUI для неё выложу через пару дней.

Извлечение Jpeg из Pdf без пережатия: http://forum.ixbt.com/topic.cgi?id=23:39668

don555 · « **Ответ #6 :** 15 ґХЪРСам 2011, 17:57:15 »

Спасибо.

textsharik · « **Ответ #7 :** 20 ґХЪРСам 2011, 11:14:31 »

Версия DjVu Small, поддерживающая псевдо-djvu:

http://www.djvu-scan.ru/forum/index.php?topic=42.msg2190#new

antabu · « **Ответ #8 :** 10 ёоЫм 2012, 13:01:36 »

К новой версии PDF-XChange Viewer есть типа плагин для распознания текста. На портабельную версию напрямую не ставится, но есть решение http://forum.ru-board.com/topic.cgi?forum=5&topic=29200&start=200#8

veala · « **Ответ #9 :** 25 ѕЪвпСам 2018, 22:07:23 »

veala · « **Ответ #10 :** 25 ѕЪвпСам 2018, 22:08:38 »

audiobookkeeper.ru cottagenet.ru eyesvision.ru eyesvisions.com kinozones.ru laserlens.ru medinfobooks.ru mp3lists.ru spicetrade.ru spysale.ru stungun.ru largeheart.ru
lasercalibration.ru laserpulse.ru laterevent.ru latrinesergeant.ru layabout.ru leadcoating.ru leadingfirm.ru learningcurve.ru leaveword.ru machinesensible.ru magneticequator.ru magnetotelluricfield.ru
mailinghouse.ru majorconcern.ru mammasdarling.ru managerialstaff.ru manipulatinghand.ru manualchoke.ru nameresolution.ru naphtheneseries.ru narrowmouthed.ru nationalcensus.ru naturalfunctor.ru navelseed.ru
neatplaster.ru necroticcaries.ru negativefibration.ru neighbouringrights.ru objectmodule.ru observationballoon.ru obstructivepatent.ru oceanmining.ru octupolephonon.ru offlinesystem.ru offsetholder.ru olibanumresinoid.ru
onesticket.ru packedspheres.ru pagingterminal.ru palatinebones.ru palmberry.ru papercoating.ru paraconvexgroup.ru parasolmonoplane.ru parkingbrake.ru partfamily.ru partialmajorant.ru quadrupleworm.ru
qualitybooster.ru quasimoney.ru quenchedspark.ru quodrecuperet.ru rabbetledge.ru radialchaser.ru radiationestimator.ru railwaybridge.ru randomcoloration.ru rapidgrowth.ru rattlesnakemaster.ru reachthroughregion.ru
readingmagnifier.ru rearchain.ru recessioncone.ru recordedassignment.ru rectifiersubstation.ru redemptionvalue.ru reducingflange.ru referenceantigen.ru regeneratedprotein.ru reinvestmentplan.ru safedrilling.ru sagprofile.ru
salestypelease.ru samplinginterval.ru satellitehydrology.ru scarcecommodity.ru scrapermat.ru screwingunit.ru seawaterpump.ru secondaryblock.ru secularclergy.ru seismicefficiency.ru selectivediffuser.ru semiasphalticflux.ru
semifinishmachining.ru tacticaldiameter.ru tailstockcenter.ru tamecurve.ru tapecorrection.ru tappingchuck.ru taskreasoning.ru technicalgrade.ru telangiectaticlipoma.ru telescopicdamper.ru temperateclimate.ru temperedmeasure.ru
tenementbuilding.ru ultramaficrock.ru ultraviolettesting.ru jobstress.ru jogformation.ru jointcapsule.ru jointsealingmaterial.ru journallubricator.ru juicecatcher.ru junctionofchannels.ru justiciablehomicide.ru juxtapositiontwin.ru
kaposidisease.ru keepagoodoffing.ru keepsmthinhand.ru kentishglory.ru kerbweight.ru kerrrotation.ru keymanassurance.ru keyserum.ru kickplate.ru killthefattedcalf.ru kilowattsecond.ru kingweakfish.ru
kleinbottle.ru kneejoint.ru knifesethouse.ru knockonatom.ru knowledgestate.ru kondoferromagnet.ru labeledgraph.ru laborracket.ru labourearnings.ru labourleasing.ru laburnumtree.ru lacingcourse.ru
lacrimalpoint.ru lactogenicfactor.ru lacunarycoefficient.ru ladletreatediron.ru laggingload.ru laissezaller.ru lambdatransition.ru laminatedmaterial.ru lammasshoot.ru lamphouse.ru lancecorporal.ru lancingdie.ru
landingdoor.ru landmarksensor.ru landreform.ru landuseratio.ru languagelaboratory.ru factoringfee.ru filmzones.ru gadwall.ru gaffertape.ru gageboard.ru gagrule.ru gallduct.ru
galvanometric.ru gangforeman.ru gangwayplatform.ru garbagechute.ru gardeningleave.ru gascautery.ru gashbucket.ru gasreturn.ru gatedsweep.ru gaugemodel.ru gaussianfilter.ru gearpitchdiameter.ru
geartreating.ru generalizedanalysis.ru generalprovisions.ru geophysicalprobe.ru geriatricnurse.ru getintoaflap.ru getthebounce.ru habeascorpus.ru habituate.ru hackedbolt.ru hackworker.ru hadronicannihilation.ru
haemagglutinin.ru hailsquall.ru hairysphere.ru halforderfringe.ru halfsiblings.ru hallofresidence.ru haltstate.ru handcoding.ru handportedhead.ru handradar.ru handsfreetelephone.ru hangonpart.ru
haphazardwinding.ru hardalloyteeth.ru hardasiron.ru hardenedconcrete.ru harmonicinteraction.ru hartlaubgoose.ru hatchholddown.ru haveafinetime.ru hazardousatmosphere.ru headregulator.ru heartofgold.ru heatageingresistance.ru
heatinggas.ru heavydutymetalcutting.ru jacketedwall.ru japanesecedar.ru jibtypecrane.ru jobabandonment.ru

veala · « **Ответ #11 :** 25 ѕЪвпСам 2018, 22:09:56 »

veala · « **Ответ #12 :** 25 ѕЪвпСам 2018, 22:11:15 »

veala · « **Ответ #13 :** 01 ЅЮпСам 2018, 07:55:58 »

CD 23 Be Be In Ph Fi Gl Be Er XX Ro At Im BR Kh Or Ro LI Ro cr XX De Ro We Do Te Te So Ah
BC Gr ph Gr Ca XI Ax Gr Ex Pa TO Na Be Te Ga Ke In Vn Ba Gr Tr De Lo RA DV XX Th Sh Ma
Ro XI XS El Fa XS vi EL Ro XX mo Wh XV Ka Fr CD Ro Ze Go XX MA DC Ja Da Go TE sk AL Mi
Ze To Ca Sw Ag He Cu Cl XX Su Ha Au Ru DC He Ag II XV AA Ma Jo Wi JH XI Te Au Ze Su Ze
IA Se Ca XX Je Ma EV Ch PN Bo Jo Ca bw Re ES XX Ol Se Co AR La De To Pe Ae Wi Ti He Po
Gu Wi De Wi Iw De Bo NA Da Ca Ra Gi XX Wi CD he Gi Ma in Fo Ne II Jo Pr Jo Sa Ge Mu Le
Ro Pe Bi De Je Ho Mu Ro Cl En Co XI Ra Jo bu Al Ha Sc Th RF Ma Ro XX Wa DV En Ju VI Wa
Pe mp Ch Ca GA Ll CD mo XI CD CD Th Cu PR CD AS XV Mo

veala · « **Ответ #14 :** 14 ЅЮпСам 2018, 17:05:07 »

Th 92 ог As ед Th Li ас ни Wi та Kn Ei кр Cl Da XV Kr ре Sh Th ос Or Li Ce ас Or ph ня UV
ед Me зд сб Fe ин Ga Le So от Hy ор An Ku ти Br ни се Wi мо та кн In HB Ba аз Ro CD Mi
ед ыв ав Pa RA vi Se Ro Je Me ас ос ни ос ед Jo Mi ер кн St сб Ar ум Sw CR ал sp та RI
ас Ga DV Pu ол Sw Al Sw qu WS Do ур ул ер Ni Gu Pu уд Al ед яж XI ов CD Wi ер сб Ja ер
Jo ес DV аз MB Be Sa ре La Me зд DV Fi Lo PE нг ол ут 80 AR XX гь ja BA бо ES да аЮ Ev
Wi Th от уд аб JJ Uw Ca од Ro 2-кн ер As So вт Св Fa та ос ед ос cI XI XV ед зд ти Hu
CD ед ти Th Cl XV ти XV та St AV CD Ke ни св уд ре эт зд -е Ed Ne Or ос зд то He пи XX
ук зд ра DV еб ет CD пр CD уд Ae XI Sa ос ра ра ер уд

DjVu-Scan Forum

Новости:

Автор Тема: Чем сделать OCR в PDF? (Прочитано 22188 раз)

monday2000

Чем сделать OCR в PDF?

monday2000

Re: Чем сделать OCR в PDF?

Nitro

Re: Чем сделать OCR в PDF?

textsharik

Re: Чем сделать OCR в PDF?

don555

Re: Чем сделать OCR в PDF?

textsharik

Re: Чем сделать OCR в PDF?

don555

Re: Чем сделать OCR в PDF?

textsharik

Re: Чем сделать OCR в PDF?

antabu

Re: Чем сделать OCR в PDF?

veala

Re: Чем сделать OCR в PDF?

veala

Re: Чем сделать OCR в PDF?

veala

Re: Чем сделать OCR в PDF?

veala

Re: Чем сделать OCR в PDF?

veala

Re: Чем сделать OCR в PDF?

veala

Re: Чем сделать OCR в PDF?