Распознавание текста в ОС Linux доступно любому пользователю. Чтобы с легкостью распознать текст в операционной системе Linux есть OCR-система
CuneiForm, которая служит для преобразования графических файлов в редактируемый текст. CuneiForm работает только из консоли, что существенно ограничивает круг людей, которые могут использовать данную программу.
Чтобы это исправить была разработана, на данный момент, лучшая графическая оболочка — YAGF. YAGF полностью раскрывает все возможности OCR-системы CuneiForm.
Для Linux CuneiForm представляет собой лишь движок для распознавания, а в качестве GUI используется программа YAGF.
Сильные стороны CuneiForm + YAGF: Комплекс программ абсолютно бесплатен.
Довольно неплохие результаты распознования текста.
Результаты распознавания текста можно сохранить в формат html или text.
Есть возможность автоматической проверки орфографии при установленоном пакете aspell.
Большое количество поддерживаемых языков.
Красивый и эргономичный интерфейс.
Работа со сканером организована посредством Sane + XSane.
Слабые стороны CuneiForm + YAGF:Нельзя сохранить результаты работы в текстовом документе, формат которого поддерживает сохранение форматирования текста: doc, odt, rtf и т. д.
Распознование текста, в некоторых случаях, еще далеко от идеального.
К сожалению, первый стабильный релиз версии 1.0 так и не появился в репозиториях Ubuntu. Поэтому будем ставить из .deb-пакетов или из PPA.
Можно подключить PPA от некоего Алекса (это не официальный репо):
ppa:alex-p/notesalexp
Обновляем список пакетов и ставим:
cuneiform-common
cuneiform-linux
yagf
Но у Алекса в PPA очень много сборок, и если не хочется обновлять некоторые пакеты до нестабильных версий, то можно установить подборку пакетов для Ubuntu 10.10 Maverick Meerkat:
для 32-битных сурикатовдля 64-битных сурикатовВ архиве 3 файла (приведены в порядке их установки):
- cuneiform-common_1.0.0+bzr525-1_all.deb
- cuneiform-linux_1.0.0+bzr525-1_XXX.deb
- yagf_0.8.3-1_XXX.deb
Запускаем "Приложения - Офис - YAGF" и все распознаем.