Добрый день l
В течение нескольких лет наша группа занимается разработкой системы OCR (Оптического компьютерного распознавания)
с открытым кодом. Теперь у нас есть первые ощутимые результаты, и будем рады поделиться этой системой и нашими
знаниями с Вами. Ключевые характеристики системы распознавания включают в себя:
1. Потоковая обработка OCR
На первом этапе этого проекта, мы распознали 300 000 страниц
Тибетского Канона для цифровой библиотеки TBRC (
www.tbrc.org). Мы
использовали MAcPro сервер, который обработал все 280 томов в 1
OCR поток.
2. Программ проверки орфографии, онлайн-словарь на 250000 слов и частотный словарь на 6,5
млн. слов.
3. Многоязычная поддержка
В настоящее время ключевым направлением проекта является тибетский и санскрит
OCR. Однако основной алгоритм можно изучать один язык за 2
месяца. Русский и английский нужен и мы ищем для этого партнеров.
4. Высокая точность
Система использует словарный контроль на всех этапах обработки OCR.
Грамматический корректор может использовать статистический словарь, содержащий 20-30
млн. фраз (словарь тибетского теперь включает 8,5 млн). Для тибетского языка
текущие результаты распознавания 1 ошибка на 1000
символов. Здесь вы можете увидеть скриншот:
http://www.buddism.ru///ocrlib/OCRLib21_07_2010.png Мы считаем, что мы можем помочь вам в ваших исследованиях и проектах. И
Вы, вероятно, может помочь нам продолжить развитие системы OCR
и программы перевода. Будем рады ответить на Ваши вопросы!
С уважением,
Александр Строганов,
Московский Центр Риме
Интернет страницы OCR Project:
http://sourceforge.net/projects/ocrlib/ www.buddism.ru/ocrlib