Сканированные книги идут, в основном, в форматах PDF и DjVu.
А как насчёт OCR-книг? Там вроде бы гораздо больше форматов. И разобраться в них кажется гораздо более трудной задачей. Какой лучше? Какой хуже? И т.п.
Я недавно столкнулся с OCR-книгой в некоем формате
FB2. Возник интерес: что за формат такой? Хороший или плохой?
Неожиданным образом формат этот мне понравился. Раньше я лично предпочитал для OCR-книг формат HTML - он казался мне наилучшим для этой цели.
Но, ознакомившись немного с FB2, я пришёл к выводу, что FB2 значительно предпочтительнее, чем HTML.
Преимущества FB2 перед HTML я обнаружил такие:
- Книга запоминает последнюю открытую страницу и при новом открытии авто-позиционируется на ней.
- Весь контент книги содержится в едином файле - например, это картинки. У HTML картинки хранятся отдельными файлами.
- Наличие метаданных у книги.
- Простота и удобство конверсии DOC->FB2. Я на пробу один DOC конвертнул в FB2 - так всё получилось полностью автоматически и с хорошим качеством! А вот конвертация DOC->HTML - это просто мучение - для тех, кто знает. Хотя, может мне просто лёгкий DOC-файл попался - что он без проблем в FB2 конвертнулся?
- Возможность полностью автоматической конверсии FB2 в массу других текстовых форматов - HTML, TXT и т.д. Т.е. те, кому не нравится FB2 - смогут без проблем перегнать его, допустим, в HTML.
Формату FB2 посвящён сайт
http://www.fictionbook.org/ . Там можно почерпнуть много информации на тему FB2.
Неплохо ещё заглянуть сюда:
http://ru.wikipedia.org/wiki/FB2К чему я этот разговор затеял:
Мне кажется, что всё многообразие электронных книг можно свести к простому набору форматов: PDF, DjVu, FB2. Все остальные электронно-книжные форматы могут быть к ним преобразованы (если я правильно понял).
Так что отныне - долой книги в форматах DOC, TXT, HTML и т.п.! Их разумно перегонять в FB2.
А также, если определить FB2 как главный формат мира OCR-книг, то это удобно тем, что, во-первых, можно начать стремиться к единому стандарту метаданных всех 3 форматов, во-вторых, можно воспользоваться наработками FB2-мира в области классификации-каталогизации (но уже применительно к DjVu-PDF).
Да и вообще, я надеюсь, что авторы формата FB2 (русскоязычные, кстати) - это наши естественные союзники в электронно-книжном деле. Мы сможем обмениваться опытом и проводить параллели между двумя мирами электронных книг, ища точки соприкосновения.