Автор Тема: Метод впечатывания OCR (идея) (Прочитано 19856 раз)

monday2000 · « : 16 ДХТаРЫм 2011, 12:49:45 »

Исходя из недавних обсуждений на форуме, мне пришла на ум новая идея, связанная с OCR: впечатывать распознанные OCR-буквы (с их растеризацией) вместо имеющихся изображений букв на скане.

При этом, естественно, необходимо автоматически затирать замещаемые изображения букв на скане.

Я назвал этот подход условно "Метод впечатывания OCR".

Думаю, что такой функционал уместно было бы внедрить в FineReader (разработчкиам ABBYY). В настоящее время FineReader так не умеет. FineReader придерживается парадигмы максимальной векторизации растрового изображения, я же предлагаю частичную - только в отношении букв.

Сейчас FineReader пытается распознать макет страницы - колонки, абзацы, межстрочные интервалы, таблицы и их структуры - немилосердно косяча при этом. Собственно говоря, это уже даже не OCR в чистом виде - а распознавание макета страницы.

Конечно, FineReader вынужден так поступать - если не делать распознавание макета страницы, а делать только предлагаемое мною впечатывание OCR - то результирующий вордовский doc-файл будет и огромных размеров, и на печати будет выглядеть не лучшим образом.

Но FineReader не учитывает существование формата DjVu - для которого применение впечатывания OCR было бы как раз весьма разумным и приемлемым. Это, с одной стороны, позволило бы заменить некачественные изображения букв на поганых сканах на высококачественные OCR-буквы, а с другой стороны, сократило бы время обработки за счёт исключения необходимости править косячное распознавание макета страницы в FineReader.

То есть, мозги разработчиков ABBYY совершенно отвёрнуты в сторону от идеологии формата DjVu - они пока что не видят такой гипотетический подход.

Предлагаемый метод впечатывания OCR мог бы стать своего рода "русским ответом ClearScan'у". Конечно, метод впечатывания OCR предполагает ручной труд (ручная проверка OCR) - в отличие от чисто автоматического ClearScan, но зато метод даёт минимум ручного труда - при использовании всех преимущеcтв OCR.

Метод впечатывания OCR мог бы стать хорошим способом реставрации некачественных DjVu-книг. Ведь, как известно, самое главное в DjVu-книге - это качество читабельности букв (а не красота картинок и макета страницы).

monday2000 · « **Ответ #1 :** 16 ДХТаРЫм 2011, 17:09:55 »

Для сканов с достаточно простым макетом страницы сейчас можно сымитировать метод впечатывания OCR прямо в FineReader. Для этого достаточно, чтобы блоки анализа содержимого в окне FineReader не пересекались друг с другом. На сканах со сложным макетом страницы это будет трудно обеспечить.

Я сделал небольшой наипростейший пример - обычный скан 300 dpi и он же распознанный-сохранённый на 600 dpi (через PDF) - оба сохранены в DjVu:

http://www.djvu-soft.narod.ru/scan/print_in_ocr.rar (58 КБ)

Интересно, что размер DjVu-файла "ocr600" довольно велик. А ведь, по идее, его можно было бы радикально заоптимизировать - через словарь разделённых символов - вплоть до уникальности общих шейпов. Но тогда, наверное, такой DjVu-файл очень сильно тормозил бы.

Mandor · « **Ответ #2 :** 22 ДХТаРЫм 2011, 09:50:48 »

Думаю, не получиться.
У нас уже попробовали етот метод, при етом — безотговорно пропуская етап правки текста, иногда получалось что-то вроде етого.
Даже если сделать хорошей OCR, очень редко шрифт будет как в оригинале, и при етом междусимвольное расстояние будет разное — ефект очень неприятен.

veala · « **Ответ #3 :** 01 ЅЮпСам 2018, 04:33:23 »

Jo 29 CH BA Ge Je Gl Ja Sa XI Ag Do Fi Me XV Te MP Cr Ma Ro XX An Th Fl Te Cl Ec Re Ju Th
We Sh Ku Wh Ad ZZ Bo Ag Al Gu We Jo Di XI Fa Er Ri An XI He An Pa Am St Da IM So Se Ma
De CD Ni RA FE Ci Ci La Ea La Ar Or Jo Ma BH Ek Bo Pa Do Ru Wi Pa Mi Ho Fu Ze Ze Hi Ze
Ze Ze So Ma Sw Cl Ca Ho Ro FP Ge XI La In XV Ho OZ Sh CD Re SM Ro XX Li Ma Si XI Ha St
XX XX So Kr SN Be Sa Se Ma Ra AS So Fi bl RR FB XV VW My AR XX Ne Ha Ne Ed mo mI Ja He
Wi DV Re Bo XX Si Ch Co qM II Be Wi IN Do Su II Pl Wi Te XI EK XI XV XV wa mp XV DV Le
Pa XV Vi Le Va Wi SP Ch La Ni LF Da Le Ni II Ju Ge Cr Ev Sk Li XV Sk Ha Je Al Ro Am Er
mp SM ds So Ho Ha As As Wi Fo No Lo Wo Gr Re CD DV CD

veala · « **Ответ #4 :** 01 ЅЮпСам 2018, 04:45:50 »

XI 36 ca No Be CD XX EJ Do II Ra Si Fi Bi XX Br RA La XV Lo XX GG Fr As VS St Te Cl Ye Ga
mp Lu Kl An An Th Ci Ko Na Ga Or Ho Ni Er Su Pr El Wh II Mi Fu Ni Br Ge Fr St Am La He
XV To Ni RA PS JT Ma Es CD Ad Ar In mp Au Pi Ju Um St Am Re Je BC XV Sw CP sk Ze Wo Ze
Ag sp KO St CP VI XV HW Wi DS Ra XV Ge Di CD VI Pe St To Ma Kn Fr Am CD LP Lu DR XV VI
XX XX KO XI No Be St Da Mi Ol Ar KO Po BA Wo Zo XI CE Ke fr XX XX Ja Te Ha XV Th Wi La
ww ma ww Bo CD Mo Mo Di Wh UA Ro ww XX Ke Ag CW PL Fr Se No Da Ka Ha XV Th Co XX so Le
CD Me Da Th In XI DV Bi DV ww Ba CD En Ad SN II Bl De Di Wi Mo XV AB WI Ja XX We Ch Pl
XX Un SM KO Sa CD As Ba Fr Th Fo XI Di Mi XV St Fa Al

veala · « **Ответ #5 :** 14 ЅЮпСам 2018, 13:52:20 »

MP 13 Be Be Gr бл Je XV ер сл Pr ос Sn Or Br Ma Th ка Se CD кн XX XI Al то зд Em Ki Ti Ha
XI Pa NM XI кн ра Ol Mo ед че Fy ед ни Al Al PQ Br Ad LG ог вт Sp sc RG RA Ro Ва DA Sn
зд XV ас XI Re XV он Ch XX XX Ha Wi ос ос ле ет Гр Fa ос Wi La Th аш Ar на ра ас ач ер
об ом VD SC RU DE ет Fu ер Mi Em кн ед уч сл De Kr In ds Al TA кн DV Cr кн ек Wi LP Hy
ед Bo VD XX An Li MI Co Sa Re Di VD Pr ве ку ак ер Pi TR He ол по Bl ах II Ed вт He аг
мя Dr Wi Fr LE Un Bo ла Ce ау кн се ом Vl CD ни но ир зд XI ед кн ед че Ja Vi зд зд Jo
Do DV аш че Li Un ур Jo ти ля уд та на ос ир CD сб ед ся ос кн Ad сб ер та уд Is уч ре
Ca ро по VD уд уд Ca уд Pa сл уд тн ос уд Mi зл ер по

veala · « **Ответ #6 :** 30 ЅЮпСам 2018, 20:11:48 »

veala · « **Ответ #7 :** 17 ПЭТРам 2019, 14:04:01 »

фан 210 зре CHA Мас Win XII Яко Fel Ily ред Mas Win Her Ern The Ann XIX Дет Tes Fra Жуч Rob hig Cas The Nob сер Lut Pur
Jew Ele Yog Hea Dre Var Cre Hug Alw Wel Cre Mex Lab Jen Rex Dia Ing мик АЛА Joh The Фор нач Ере сбо илл Син руб Har Ков
Vol зат вод FEL Cir Nik Col Jew Joh Хри Sah Jac Cla Рад Joe отс Ste Str Jer III мон зап Hot Б50 Zen Zen дем Miy ksp Раз
сбо зак XVI Дын осв Бер XVI нем Kid Mah Roy Ива XVI XVI нап Rob Ren вяз Илл Rol Box Kar Лаг Bar Wil Lor эле XIX Epl кле
Пбм Sel Sie Win Dir Mif Кит Dav Pol Бур kin XII AIR AVT ARA ССС спе Blu Peg паз The тем игр игр Pro WIN Haw Row кар Pan
Zel сер Whi Win WIN эпо Лит Мыс Age Доб Веч Лит Мал III XVI Мер Лаа Alb Илл Бон Куп Цве кур Пом Leo Сод име Дон How Sar
BBC WIN Рыб Hil XIX Dax Tim авт Wak Ano Ста Вол Вор Gen Ана ноч Ste XIX Rai Azi Шал опу Loo чем Tam Epl Epl Epl Люб уча
Тих Пер Анд нео Ник Mau Шку при авт Дро Har Лих

veala · « **Ответ #8 :** 05 јРав 2019, 19:26:20 »

Здо

veala · « **Ответ #9 :** 05 јРав 2019, 19:27:30 »

veala · « **Ответ #10 :** 05 јРав 2019, 19:28:38 »

зал

veala · « **Ответ #11 :** 05 јРав 2019, 19:29:47 »

veala · « **Ответ #12 :** 05 јРав 2019, 19:30:56 »

дру

veala · « **Ответ #13 :** 05 јРав 2019, 19:32:07 »

veala · « **Ответ #14 :** 05 јРав 2019, 19:33:15 »

DjVu-Scan Forum

Новости:

Автор Тема: Метод впечатывания OCR (идея) (Прочитано 19856 раз)

monday2000

Метод впечатывания OCR (идея)

monday2000

Re: Метод впечатывания OCR (идея)

Mandor

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)

veala

Re: Метод впечатывания OCR (идея)