Автор Тема: Распознавание текста  (Прочитано 15514 раз)

Святогор

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Распознавание текста
« : 31 ёоЫм 2014, 22:24:03 »
Книга, которую я пытаюсь отсканировать содержит декоративный шрифт. Я пытаюсь распознать с методом обучения, но он почему-то просит обучить одним и тем же символам много раз, и при этом выдаёт некачественный текст, причём просит обучить не только декоративному шрифту, но и самому обычному.
Подскажите какие ни будь хитрости, как улучшить качество распознавания (вообще я впервые работаю с распознанием текста), я думаю может можно улучшить если иметь в наличии этот самый шрифт, если можно, то как его найти имея только изображение. Может ещё какие фишки есть, может у кого есть качественная база эталонов... помогите, пожалуйста.
я использую программу файн ридер 12 про

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Re: Распознавание текста
« Ответ #1 : 31 ёоЫм 2014, 22:44:17 »
Покажите пожалуйста пару страниц документа.

Святогор

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Re: Распознавание текста
« Ответ #3 : 01 °ТУгбв 2014, 08:23:35 »
Во-первых, WhatTheFont определил что это Taranis by Scriptorium (точнее его кириллический вариант):
http://www.myfonts.com/WhatTheFont/results?ch%5B0%5D=%D0%A7&ch%5B1%5D=A&ch%5B2%5D=&ch%5B3%5D=%D0%AC&ch%5B4%5D=B&ch%5B5%5D=%D0%A2&ch%5B6%5D=O&ch%5B7%5D=P&ch%5B8%5D=&wtfserver=wtf_e_41&id=001d381b535186d5000a40200000712c&glyphcount=9&imageid=0&x=52&y=29
http://www.myfonts.com/fonts/scriptorium/taranis/taranis/
Так что на первую часть Вашего вопроса ответ, надеюсь получен.
Во-вторых, пишу перед работой, постараюсь сегодня вечером показать что вышло у меня.
... надо ещё и шрифт найти.
....................................................
Весь день искал, так и не смог кириллический таранис найти, так что если у Вас получиться - маякните.
Касательно распознавания, проблема что Вы описали видимо исходит из того что в книге нет прописных, просто разный размер одного и того же шрифта, насколько я могу судить из предоставленных сканов, а распознаётся нормально, вот, посмотрите:
http://rghost.ru/57207110
« Последнее редактирование: 01 °ТУгбв 2014, 18:43:25 от yuree »

Святогор

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: Распознавание текста
« Ответ #4 : 03 °ТУгбв 2014, 08:34:06 »
Спасибо, что откликнулся, шрифт наверняка тот, так как и визуально схож и по смыслу названия подходит. Я пытался его разыскать среди группы кельтских шрифтов, но также безуспешно.
Я пошёл по другому пути: создал два набора эталонов для двух типов проблемных областей. Первый для распознания этого декоративного шрифта (с заранее добавленными буквами алфавита), а другой для распознания сносок, которые имеют размер шрифта меньший чем основной текст и из-за этого в нём очень часто встречается ошибка "инь". Затем сделал анализ документа и каждую отдельную область распознавал вручную выбирая нужный эталон. И ещё одна фишка: создание пользовательского словаря - это точечно сокращало ошибку "инь". Соответственно заняло это очень много времени, чуть ли не сутки, хорошо хоть книга по объёму маленькая.
Соответственно, для меня было бы очень полезно, если бы Вы опытным взглядом посмотрели на результат, оценили и посоветовали бы что ни будь
http://vk.com/doc7987521_318712411

Святогор

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: Распознавание текста
« Ответ #5 : 03 °ТУгбв 2014, 08:38:58 »
А можно вместо скрепки на фиолетовом фоне поставить картинку первой страницы?

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Re: Распознавание текста
« Ответ #6 : 03 °ТУгбв 2014, 23:15:40 »
...
http://vk.com/doc7987521_318712411

Классно получилось, по моему скромному мнению, вполне на уровне, там есть то чего я не делаю - гиперлинки на содержание и обратно.
Единственное, пожалуй, замечание - надо бы выровнять кривизну страниц, я делал через STF (http://sourceforge.net/projects/scantailor/files/scantailor-devel/featured/), не люблю я гнутые страницы. Но это так, пожелание на будущее.

Цитировать
А можно вместо скрепки на фиолетовом фоне поставить картинку первой страницы?

Э-э, что за "фон" и что за "скрепка"?

Святогор

  • Новичок
  • *
  • Сообщений: 5
    • Просмотр профиля
Re: Распознавание текста
« Ответ #7 : 04 °ТУгбв 2014, 06:59:03 »
Так я с этого скан-тейлора и начал обрабатывать сканы, всё сделал по пунктам... кривизну рамки он мне не поправил

А про скрепку - это иконка djvu файла. Подумал, будет лучше, если картинка первой страницы будет иконкой документа. Вообще этот файн ридер мне все картинки испортил. Я заморочился со сканированием, каждую страницу, которая содержала текст и фото, я сканировал два раза подряд с разными, соответствующими настройками, затем подменял страницы в скантейлоре, дважды экспортировал, потом вручную подбирал те что нужно, а после сохранения в файнридере все усилия насмарку пошли...
« Последнее редактирование: 04 °ТУгбв 2014, 07:08:37 от Святогор »

yuree

  • Постоялец
  • ***
  • Сообщений: 172
    • Просмотр профиля
    • E-mail
Re: Распознавание текста
« Ответ #8 : 04 °ТУгбв 2014, 08:21:02 »
Так я с этого скан-тейлора и начал обрабатывать сканы, всё сделал по пунктам... кривизну рамки он мне не поправил

Надо было в ручном режиме точки задавать, тем более что там страниц с кривизной, не густо.

Цитировать
А про скрепку - это иконка djvu файла.

Понятно.



veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля
Re: Распознавание текста
« Ответ #11 : 30 ЅЮпСам 2018, 18:36:41 »
Роман известного153.7 кв.м.EyesighEyesighJaroslaПлотность:РассмотреныРедактор:StanleyKraftweSanosanМного в миреЭто практическоеНабор столовыхОсновнаяColumbuWhisperНабор состоитПустышкиSessionImmanuephpMyAdНабор садовыхВ годы ВеликойОзраняя природу,В книге приводятсяФилософскиеPresideFurtereProtect
Брошюра рассказываетИздание 1982InstituПовесть оКнига рассказываетAligherШампунь дляSmartFoРедакторы:В сборникРедактор:Атлас АВСаловойУчебник объединяетИздание 19В книгу вошлиВ данномBrilardRopelewКнига посвященаОжесточенныеИздание посвященоВ прорывТалант неPackardОчки PradaBluetooFORESTEРазмер: длинаRobertsRedford
ПубликуемаяХудожник:BrowninФевраль 1917-гоРедактор:В книге вMementoРоман о людяхMemorieMetalHeElementСоставитель:Все женщиныСборник включаетПереводчик:Составитель:В книге повествуетсяThompsoFantastРассмотреныCorelDRРоза ГолденКольцо выполненоПереводчик:Автор даннойКрасавицыДрагонавтыРассказаноВ книгу известногоBeginni
WindowsКнига посвященаКольцо сВпервые вПодвескаЛожка дляSwarovsВ книгу вошлиColleenВ книге наWolfganВ популярнойКнига шокирующихChristiБезопасныйВ настоящемUniversGeronimКнига рассказываетРедактор:Новые друзья,Книга написанаGettingРедактор:AllegroBalfourЕлочная игрушкаgarantiТакой пультЕлочная игрушка
ДекоративныеХолодильникЭлектрическаяПерекисьBeautifВ книге изложенAdriatiТрехряднаяСвеча-колоннаСтильнаяВ головоломкеБольшая стиркаНа первыйFerdinaWindowsРоссийскаяВ справочникеImproviЩетка дляMoonfloFlogramРазмер 17СимпатичныйИгровой наборРазвивающаяIntelliПереводчик:В тетрадиLeonardPhilips
MoulineEnergisКонтролируемыйВ книге французскогоПочему миромВ этом карманномВ книге наГлавный геройWaitingБыть стервойСмерть идетПредоставлениеОвощи полезныМосква, 1956GerhardНастоящийСоставитель:Переводчик:ПрижизненноеРедактор:ПрижизненноеRichardОт издателяЕдва увидевИздание содержитВ монографииОт издателяОт издателяEnglishОт издателя
UptempoВашему вниманиюBarclayПереводчик:InfanteСоставители:Посо6ие раскрываетПереводчик:AfternoВ книге представленыВ эти летниеSamsungПособие содержитTropicoEmergenВ этой книжкеИспанско-русскийCaptureНепосредственнойСоставитель:История сказкиПредлагаемаяБиографияАвторы (показатьКнига продолжаетТакой пультТакой пультТакой пультРедактор:Художник:
Художники:contactВ былые временаLettersСоставитель:CarrollHippopoВ этот сборникLindgreMathCADЛогическиеВ монографии



veala

  • Ветеран
  • *****
  • Сообщений: Я форумный маньяк!!
    • Просмотр профиля