Автор Тема: Open Source OCR System (Прочитано 22566 раз)

gomde · « : 30 ёоЫм 2010, 14:37:58 »

Добрый день l
В течение нескольких лет наша группа занимается разработкой системы OCR (Оптического компьютерного распознавания)
с открытым кодом. Теперь у нас есть первые ощутимые результаты, и будем рады поделиться этой системой и нашими
знаниями с Вами. Ключевые характеристики системы распознавания включают в себя:

1. Потоковая обработка OCR
На первом этапе этого проекта, мы распознали 300 000 страниц
Тибетского Канона для цифровой библиотеки TBRC (www.tbrc.org). Мы
использовали MAcPro сервер, который обработал все 280 томов в 1
OCR поток.

2. Программ проверки орфографии, онлайн-словарь на 250000 слов и частотный словарь на 6,5
млн. слов.

3. Многоязычная поддержка
В настоящее время ключевым направлением проекта является тибетский и санскрит
OCR. Однако основной алгоритм можно изучать один язык за 2
месяца. Русский и английский нужен и мы ищем для этого партнеров.

4. Высокая точность
Система использует словарный контроль на всех этапах обработки OCR.
Грамматический корректор может использовать статистический словарь, содержащий 20-30
млн. фраз (словарь тибетского теперь включает 8,5 млн). Для тибетского языка
текущие результаты распознавания 1 ошибка на 1000
символов. Здесь вы можете увидеть скриншот:
http://www.buddism.ru///ocrlib/OCRLib21_07_2010.png

Мы считаем, что мы можем помочь вам в ваших исследованиях и проектах. И
Вы, вероятно, может помочь нам продолжить развитие системы OCR
и программы перевода. Будем рады ответить на Ваши вопросы!

С уважением,
Александр Строганов,
Московский Центр Риме
Интернет страницы OCR Project:
http://sourceforge.net/projects/ocrlib/
www.buddism.ru/ocrlib

monday2000 · « **Ответ #1 :** 30 ёоЫм 2010, 14:56:30 »

gomde
Добро пожаловать!

Действительно, у DjVu и OCR есть кое-что общее - в плане алгоритмов.

Не могли бы Вы объяснить как-то попроще, какого рода помощь Вам конкретно требуется. Просто на тот случай, что, быть может, кто-то из посетителей форума заинтересуется Вашими задачами.

На мой взгляд, Вам сложно будет искать единомышленников в такой экзотической тематике, как тибетский язык. В плане русского и английских языков было бы проще, возможно.