Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Темы - gomde

Страницы: [1]
1
Программирование / Open Source OCR System
« : 30 ёоЫм 2010, 14:37:58 »
Добрый день l
В течение нескольких лет наша группа занимается разработкой системы OCR (Оптического компьютерного распознавания)
с открытым кодом. Теперь у нас есть первые ощутимые результаты, и будем рады поделиться этой системой и нашими
знаниями с Вами. Ключевые характеристики системы распознавания включают в себя:

1. Потоковая обработка OCR
На первом этапе этого проекта, мы распознали 300 000 страниц
Тибетского Канона для цифровой библиотеки TBRC (www.tbrc.org). Мы
использовали MAcPro сервер, который обработал все 280 томов в 1
OCR поток.

2. Программ проверки орфографии, онлайн-словарь на 250000 слов и частотный словарь на 6,5
млн. слов.

3. Многоязычная поддержка
В настоящее время ключевым направлением проекта является тибетский и санскрит
OCR. Однако основной алгоритм можно изучать один язык за 2
месяца. Русский и английский нужен и мы ищем для этого партнеров.

4. Высокая точность
Система использует словарный контроль на всех этапах обработки OCR.
Грамматический корректор может использовать статистический словарь, содержащий 20-30
млн. фраз (словарь тибетского теперь включает 8,5 млн). Для тибетского языка
текущие результаты распознавания 1 ошибка на 1000
символов. Здесь вы можете увидеть скриншот:
http://www.buddism.ru///ocrlib/OCRLib21_07_2010.png

Мы считаем, что мы можем помочь вам в ваших исследованиях и проектах. И
Вы, вероятно, может помочь нам продолжить развитие системы OCR
и программы перевода. Будем рады ответить на Ваши вопросы!

С уважением,
Александр Строганов,
Московский Центр Риме
Интернет страницы OCR Project:
http://sourceforge.net/projects/ocrlib/
www.buddism.ru/ocrlib

Страницы: [1]