Просмотр сообщений

В этом разделе можно просмотреть все сообщения, сделанные этим пользователем.


Темы - charoplet

Страницы: [1]
1
Извиняюсь, если не в тот раздел. Первоначально опубликовал статью на сайте миркниг, она прошла незамеченной. Специально зарегистрировался у Вас.

Оцифровка и OCR-обработка дореформенных текстов, расстановка Ё и ударений.
Автор: Черников Павел.
charoplet@gmail.com
Статья рассчитана на уверенных пользователей ПК, которые могут самостоятельно читать справку в описываемых программах. Здесь представлен лишь общий алгоритм действий и основные программы для этой статьи - FineReader 11 и Hieroglyph 3.7

Да, можно было сделать обстоятельнее и лучше, но тогда бы я не закончил статью вовсе =).
Суть - старые тексты из графического файла переводим в файл текстовый, в современную орфографию. Как бонус - расставляем Ё (ёфикация) и ударения.
http://mirknig.com/jurnaly/gumanitarnye_jurnaly/1181454359-istoricheskiy-vestnik-inostrannaya-pechat-o-russkoy-revolyucii.html Вот пример публикации текста, обработанного таким образом.

1.   Первое, нам нужны отсканированные страницы с текстом. Сканируем с оригинала или скачиваем нужную книгу.
2.   Подготовка FineReader 11 (можно и ниже). Для этого нужно  указать язык документа. Заходим язык документа -> выбор языков -> здесь отмечаем 1) Русский и английский; 2) Русский (старая орфография).
Дополнительно можно настроить эталон распознавания, чтобы научить программу должным образом определять спорные символы. Для этого заходим сервис -> опции -> вкладка «распознать», выбираем «использовать встроенные и пользовательские эталоны» и ставим галочку «распознавание с обучением». Подробнее об эталонах читайте в справке самой программы.
Отдельно взятые фразы на немецком, французском и других языках можно потом распознать с помощью ScreenshotReader
3.   Собственно, распознавание текста. Затем, для улучшения результата, рекомендую вычитать все ошибки в самом FineReader. Добиваемся создания копии текста без ошибок. Старые буквы удобно вводить при помощи типографской раскладки Ильи Бирмана.
4.   Полученный текст копируем в программу Hieroglyph 3.7. Нажимаем (ctrl+H) или поиск -> замена по списку. Тут нужно выбрать словарик oldrus, созданный Черниковым Павлом (ака Чароплёт) на основе деятификатора с Викитеки (так как чтобы им пользоваться, нужно быть на ней зарегистрированным и быть онлайн, данный offline способ лучше). Жмём «заменить все».
5.   Далее желательно в этой же программе нажать F8 и согласиться со стандартным вариантом переформатирования.
6.   Правим текст с использованием автоматической проверки текста в WORD, Орфо, иных программ, или вручную.
7.   Можно расставить Ё в тексте, используем программу yo. Есть два варианта расстановки – слова, где Ё бесспорно и слова, где нужно выбрать вроде все-всё. Читайте справку к программе, написано доступно.
8.   Можно расставить ударения (для TTS-читалок или для себя). Используем RussAcc.
Здесь также есть выбор – автоматическая расстановка, или вручную (для идеального результата, так как по средАм (о дне недели) или по срЕдам
(щелочным) программа не разберет. Читайте справку, тоже все легко. 
<- образные ударения можно привести к любому виду с помощью словаря замен в  Hieroglyph 3.7.



Для иллюстрации:

Текст до преобразований, орфография дореформенная и Текст после преобразований, с расставленными ударениями (для создания аудиокниги)

---



Уважаемые читатели!
1. Если статья была полезна, распространяйте ее по рунету (желательно авторство мое сохранить). Покажите ее друзьям, которым она могла бы пригодится, если не пригодилась Вам.

2. Критика и замечания приветствуются. Я для Вас старался, напишите хоть пару слов, не поленитесь.

3. Уважаемые модераторы, пожалуйста закрепите эту тему, а файлы, прилагаемые к ней, залейте на свои сервера (по крайней мере, текстовый файл словаря).

http://narod.ru/disk/36634043001/oldrus.rar.html


Страницы: [1]