yuree
Очень рад, что для Вас тема актуальна. Было бы жаль, если совсем уж никому она не была интересна. Хотелось бы выработать общий алгоритм действий по оцифровке таких текстов, потому что вычитывать ~600 страниц очень долго. Ну или хотя бы найти единомышленников).
Конечно долго. Вот поэтому я и решил хоть немного облегчить себе вычитку, создав словарь к FR'у.
...
http://mirknig.com/user/charoplet/news/ Вот тут книги, которые я оцифровал, используя материалы с http://www.djvu-scan.ru. (Лично мои сканы Институциональная экономика для чайников и История СССР, учебное пособие для 7 класса, а другие книги - это почищенные сканы с гуглбукс). Причем, я не внедрял OCR слой в дореволюционные книги, а внедрял лишь в современные, и было бы неплохо получить Ваши советы и наработки).
...
В том архиве, который будет приведён ниже находятся, кроме всего прочего, два txt'шных файла. Это набор слов в дореформенном формате. Один сделан мной из словаря представленном на сайте
www.dorev.ru , другой — драфтовый, в который включено все-что можно было включить
Технология правильного извлечения и перекодировки мне представляется следующей:1. Запихиваем книгу или скан в FR ("тогда я использовал 10-ю версию, сейчас перешёл на 11-ю").
Предварительно, в FR'е создаём свою группу или словарь ("или как он там-бишь") вообщем подключаем к нему словарь(-и) представленные ниже в архиве. Создаём проект и распознаём нашу книгу, попутно внося новые слова в наш словарь. Можно распознавать и с обучением конечно. Итак, книга распознана. Сохраняем её в необходимом формате. В данном случае я-бы сохранял в нескольких. Кроме DjVu или PDF/A, кому как нравиться, ещё и в fb2 а то и в txt, на всякий случай
Не забываем про кодировку. Должен быть Юникод.
2.Итак, у нас есть текст с "фитами" и "ятями". Загружаем его Иероглиф, предварительно подключив Ваш oldrus.txt. Далее действуем по Вашей схеме.
Кстати, все хотел спросить про очерёдность действий в Иероглифе.
Ваш файл я подключил, сделал все по описанию, дошёл до F8 и тут меня смутил один момент. В самом Иероглифе, в "OCR Чистка" есть две последние функции которые позволяют делать то-же что и Ваш подключенный файл-словарь. Или я заблуждаюсь? В чём отличие и каков механизм работы с программой после копирования в неё текста в д.р. формате?
3. После перевода, копируем в ОРФО 2010 и правим его дальше. Сохраняем.
Хочу ещё добавить, что при распознавании не следует брать во внимание колонтитулы, нумерацию. А то даже и сноски. Или отделять их надо, в ручном режиме в одном из текстовых редакторов дабы примечания не сливались с основным текстом.
Теперь о файлах представленных в архиве.
Залил на Narod и несколько других файлообменников два словаря, те которые можно пихать в FR, EmEditor — текстовый редактор, о нём ниже, и книгу в DjVu формате с OCR слоем.
Дабы опробовать технологию представленную выше надо
правильно извлечь OCR слой из DjVu файла. Для этого я использовал DjVu OCR v. 2.4b Rus, можно версию и пониже взять.
После извлечения у нас есть два файла. Берём HTML'ку и копируем текст из неё в EmEditor (или ещё какой который поддерживает "регулярные выражения"). Так-как в тексте есть переносы, то нам необходимо их удалить, "сшить" текст в удобочитаемый, т.е. такой в котором-бы не было "- ", разрывов в слове. Потом можно заменить два пропуска " " на один " ". В моей тексте такое тоже попадается.
Итак. Копируем текст из HTML'ки в EmEditor. Далее выделяем "- ", Ctrl+H, устанавливаем галочки в "Только слово целиком" и в "Использовать esc-последовательность". В "Найти" пишем "- \n" — "тире пробел слэш эн" ("регикс \n означает перевод каретки"), а в "Заменить на" ничего не пишем. Или можете поставить в том поле курсор и нажать "Delete". Потом меняем два пропуска на один, о чём я говорил выше. Далее, по обычному курсу, Hieroglyph 3.7 —> ОРФО 2010 —> правка, если то надо.
И напоследок. По поводу словаря для FR'а.
Вы знаете, как вариант, дикость конечно, хотя. А можно большую группу слов, словарь по сути, например тот который используется для проверки написания, у меня в Опере такая фича стои'т, не верно написанные слова он подчёркивает, и перегнать их в старую орфографию? Хоть какое а будет начало. Так-как словари мои немного худосочны. В первом — 47094 а в другом 60724 (47094+13630) слов.
Да, если не затруднит, можете книгу скинуть мне на почту или выложить на обменник типа рапиды или народа? Не сложилось у меня (и моего провайдера) с рутрекером.
Сочувствую.
Лично я-бы поменял провайдера. Если есть такая возможность конечно.
Архив с словарями+EmEditor+ ... невесёлая книга в DjVu http://www.multiupload.com/TISD1JTEN6http://narod.ru/disk/36700373001/060112.RAR.htmlORFO 2010 Maximum:http://www.multiupload.com/JZV4XFIV6Whttp://narod.ru/disk/36701337001/ORFO2010max.rar.html