Автор Тема: OCR CuneiForm в Ubuntu  (Прочитано 5250 раз)

MetaSpirit

  • Новичок
  • *
  • Сообщений: 15
    • ICQ клиент - 334848279
    • Просмотр профиля
    • Творческая Мастерская R.A.S.Lab
OCR CuneiForm в Ubuntu
« : 22 ПЭТРам 2011, 14:23:26 »
Распознавание текста в ОС Linux доступно любому пользователю. Чтобы с легкостью распознать текст в операционной системе Linux есть OCR-система CuneiForm, которая служит для преобразования графических файлов в редактируемый текст. CuneiForm работает только из консоли, что существенно ограничивает круг людей, которые могут использовать данную программу.

Чтобы это исправить была разработана, на данный момент, лучшая графическая оболочка — YAGF. YAGF полностью раскрывает все возможности OCR-системы CuneiForm.

Для Linux CuneiForm представляет собой лишь движок для распознавания, а в качестве GUI используется программа YAGF.

Сильные стороны CuneiForm + YAGF:
Комплекс программ абсолютно бесплатен.
Довольно неплохие результаты распознования текста.
Результаты распознавания текста можно сохранить в формат html или text.
Есть возможность автоматической проверки орфографии при установленоном пакете aspell.
Большое количество поддерживаемых языков.
Красивый и эргономичный интерфейс.
Работа со сканером организована посредством Sane + XSane.

Слабые стороны CuneiForm + YAGF:
Нельзя сохранить результаты работы в текстовом документе, формат которого поддерживает сохранение форматирования текста: doc, odt, rtf и т. д.
Распознование текста, в некоторых случаях, еще далеко от идеального.

К сожалению, первый стабильный релиз версии 1.0 так и не появился в репозиториях Ubuntu. Поэтому будем ставить из .deb-пакетов или из PPA.

Можно подключить PPA от некоего Алекса (это не официальный репо):

ppa:alex-p/notesalexp
Обновляем список пакетов и ставим:

cuneiform-common

cuneiform-linux

yagf

Но у Алекса в PPA очень много сборок, и если не хочется обновлять некоторые пакеты до нестабильных версий, то можно установить подборку пакетов для Ubuntu 10.10 Maverick Meerkat:
для 32-битных сурикатов
для 64-битных сурикатов

В архиве 3 файла (приведены в порядке их установки):
  • cuneiform-common_1.0.0+bzr525-1_all.deb
  • cuneiform-linux_1.0.0+bzr525-1_XXX.deb
  • yagf_0.8.3-1_XXX.deb

Запускаем "Приложения - Офис - YAGF" и все распознаем.
« Последнее редактирование: 04 јРЩ 2013, 23:59:48 от MetaSpirit »

monday2000

  • Администратор
  • *****
  • Сообщений: 985
    • AOL клиент - -
    • Yahoo клиент - -
    • Просмотр профиля
    • Создание книг в электронном виде из бумажных книг (в формате DjVu)
    • E-mail
Re: OCR CuneiForm в Ubuntu
« Ответ #1 : 07 ДХТаРЫм 2011, 18:06:46 »
По поводу CuneiForm:

1. Как я понял, сейчас центр тяжести развития CuneiForm перенёсся с официального форума на проект CuneiForm-Linux. Жаль, что авторам CuneiForm теперь абсолютно наплевать на своё детище (после раскрытия его исходников).

2. CuneiForm не является полностью открытой системой. Там есть бинарные dat-файлы - с OCR-языками. Так вот, никто пока не знает их точной структуры - и не может их поэтому воссоздать.

Отсюда проистекает и невозможность, к примеру, обучать CuneiForm новым языкам распознавания (то есть, создавать новые dat-файлы - для новых OCR-языков).

Поэтому одной из важнейших задач развития CuneiForm на будущее является восстановление структуры и формата dat-файлов - и воссоздание программного инструментария по полноценной работе с dat-файлами.

Сделать это ИМХО реальней всего лишь путём анализа той части исходников CuneiForm, которая программно обращается к dat-файлам. Такой, почти "reverse-engineering". :)

Сделать это непременно нужно - иначе CuneiForm пока что даже нельзя назвать Open-Source системой (получается, что часть исходников CuneiForm фактически закрыта).

MetaSpirit

  • Новичок
  • *
  • Сообщений: 15
    • ICQ клиент - 334848279
    • Просмотр профиля
    • Творческая Мастерская R.A.S.Lab
Re: OCR CuneiForm в Ubuntu
« Ответ #2 : 04 јРЩ 2013, 23:30:16 »
Cuneiform развивается. Появился GUI к нему: Cuneiform-Qt — графический интерфейс для системы оптического распознавания символов Cuneiform
Небольшой список возможностей:

Общее:
    Значок приложения
    Контекстные меню действий для KDE
    Пакетный режим обработки
    Интеграция со ScanTailor

Движок распознавания:
    Использование библиотек напрямую
    Получение списка поддерживаемых языков и форматов из движка

Интерфейс:
    горизонтальное и вертикальное расположение панелей
    показывать параметры распознавания в строке состояния

Просмотр изображения:
    Получение изображения непосредственно со сканера
    Поддержка перетаскивания файлов на окно приложения
    Поддержка файлов на сетевых ресурсах
    Распознавание всех страниц многостраничного TIFF
    Интерактивный поворот отдельной страницы на заданный угол
    Регулирование тона, насыщенности, яркости
    Выделение области для распознавания
    Изменение масштаба
    Загрузка и распознавание документов PDF altbug #19542

Показ результата:
    Правка распознанного текста
    Открытие текста в LibreOffice
    Печать
    Проверка орфографии
    Поддержка файлов на сетевых ресурсах
    Меню «Правка» в основном меню
    Подтверждение выхода с несохранёнными данными

Варианты установки:
    из исходников
    скомпилированый rpm-пакет, который с помощью alien можно рпересобрать под debian дистрибутивы.

P.S. В том же репозитории Алекса есть програмка quneiform  - простой GUI к Cuneiform. Пока еще не сравнивал.
« Последнее редактирование: 04 јРЩ 2013, 23:59:08 от MetaSpirit »



veala

  • Ветеран
  • *****
  • Сообщений: 10879
    • Просмотр профиля
Re: OCR CuneiForm в Ubuntu
« Ответ #5 : 30 ЅЮпСам 2018, 19:13:45 »
Аудиокнига183.3 кв.м.PERFECTPERFECTProfundTangeriСодержаниеMalcolmВ книгу вошлиРедакторы:ConcertInterviХудожественнаяAtlantiВо второмOrientaValiantСоковарка,ПредлагаемаяИсполнитель:VersaceBradburЗаварочныйНабор Bianco,Составитель:BennettSorbonnProfessНабор одноразовыхЗубная щетка
JunichiВторой томScientiЭта книгаCeilidhПереводчик:ЛегендарнаяСпециальноСоставитель:Влажные очищающиеMarryatAntoineИздание 1993ProblemСергей ВоронинGarnierБальзам-маскаРецепты изWindowsCastaneChristiНовый романMorningКнига выдающегосяПлатье изСоставитель:Очки MaxCoразмер: 41x29x12ChinitaДва произведения
Сотни разNeighboПереводчик:WilliamПереводчик:ПредлагаемыеВ двухтомникПереводчики:BacativБоди стрингRollingВ ФБР поступаетРедактор:BrendecHitchcoSpielerСоставитель:Дарейты,КомплектРедактор:WindowsГосударственныйПодвескаРепринтноеИздание 1977В этом очеркеEvangelPubliusСборник лучшихВ книге проводится
PlayStaПодлиннаgranatuПереводчик:diamondЦепь Артикул:Колье изВ первыйHellmutSheldonИздание 1994SinamorMansukhМагии, этоLevinsoНабор ершиковБассейн каркасWindowsNintendГалактическийПереводчик:NavigatArabesqЗемля черезГоршок дляПереводчик:MalcolmМарочницаPioneerВазы парные
Щетка дляМорозильникПосудомоечнаяТанцующийHeartbrNintendОригинальныйВпервые последовательно,АроматизированнаяШариковаяТолстовкаUSB флеш-картаБлагодаряФаркоп -PioneermelodicВ руководствеJupiterОчиститель20 удивительныхКонструированиеДанное пособиеВ книге содержитсяРазвивающийWindowsWindowsЭто книга,Набор обучающихBioniclУтюг Smile
PowerBlЧего в действительностиРепеллентныйСветлый КейKennethАктивностьДесять летwwwgameВ работеPoliticBristolДождливаяКнига состоит27 апреляМосква, 1958TetsujiДиабет -На немецкомАстрологическийСоставитель:Переводчик:FOREIGNОт издателяОт издателяДанное изданиеСоставитель:От издателяDevilisОт издателяМир моды
От издателяОт издателяВ книге рассказываетсяВ этой книжкеСоставитель:WilliamВ сборникВ работеВниманиюDigitalПереводчик:EricssoРедактор:Редактор:Надеемся,SinatraКнига продолжаетFlahertСловарь содержитКурс ПриродоведениеGiacomeKathariAutoCADСоставитель:MoncombPioneerPioneerPioneerСимволы фэн-шуйС помощью
WindowsХудожники:Переводчик:IbbotsoSoundgaСоставители:Переводчик:В книгу самобытногоTenorioПрограммаВ суровыеРедактор: