[d | an-b-bro-fr-gf-hr-l-m-maid-med-mi-mu-ne-o-old_o-p-ph-r-s-sci-sp-t-tran-tv-w-x | bg-vg | au-mo-tr | a-aa-abe-azu-c-dn-fi-hau-jp-ls-ma-me-rm-sos-tan-to-vn | misc-tenma-vndev | dev-stat]
[Burichan] [Futaba] [Gurochan] [Tomorrow] [Архив-Каталог-RSS] [Главная]

Файл: 3050-52-55-3390-3392-86.jpg -(27 KB, 502x330, 3050-52-55-3390-3392-86.jpg)
27 No.16309  

Прошу советов.
Появилось желание оцифровать книжку (сборник статей Фейерабенда - издание, правда, полное говно, но осуществленный г-дином Никифоровым буквально в прошлом году перевод основных работ автора, включая и перевод этой книги вполне себе приличный, насколько я могу судить), до этого имел дело разве что со слайдовой пленкой. Ознакомился с доступной по этому поводу информацией, представленной здесь: http://ru.wikibooks.org/wiki/%CE%F6%E8%F4%F0%EE%E2%EA%E0_%EF%E5%F7%E0%F2%ED%FB%F5_%F2%E5%EA%F1%F2%EE%E2 ; и, например, здесь: http://www.scagletti.ru/tbooks.html
Решил делать pdf: во-первых, потому что ленив и довольно безграмотен, а нормальная вычитка требует прямо противоположных качеств и отнимает массу времени (более того, сама книга полна ошибок, механизм OCR, насколько я понял, все еще далеко не идеален, да и то состояние, в котором пребывают тексты разномастных "свободных библиотек" редко можно назвать удовлетворительным); во-вторых, по моему скромному мнению почти любая, даже самая отвратительная верстка вкупе с самым блевотным оформлением много лучше того, во что превращает текст большинство программ для чтения fb2, epub и прочих.
Вопросов после прочтения вышеприведенных материалов стало меньше, но они, тем не менее, есть. Во-первых, об OCR. Имеет ли вообще смысл проводить распознавание текста без последующей вычитки? Если имеет, то какими средствами следует воспользоваться для распознавания и наложения OCR-слоя? Может быть, Acrobat уже всему научился? Во-вторых, о ссылках. Хотелось бы сделать ссылки на примечания, а может и на библиографию тоже, но всю информацию об этом, я, видимо, пропустил. В-третьих, о страницах. Вопрос к вашим представлениям об удобстве чтения. Допустим, для меня все было бы очевидно - работать, конечно, удобней с каждой страницей отдельно -, если бы не великое множество энтузиастов, так и оставляющих скан в виде книжного разворота. Разумеется, для обладателей планшетных компьютеров и больших мониторов все едино, а вот устройства с экранами e-ink, пусть даже самыми большими, могут доставить некоторые неудобства в связи с этим. Или может быть я ошибаюсь, и вам по какой-то причине удобней работать именно с разворотом? Короче, мне было бы интересно ваше мнение по этому вопросу.
Вот вроде и все. Если вы можете дать совет, не затрагивающий заданные вопросы, то я так же буду рад. Ах да, в данный момент доступен вот этот сканер: http://market.yandex.ru/model-spec.xml?modelid=1555647&hid=138608
Потянет?

>> No.16310  

>>16309
Заебёшься сканировать вручную.

Пару лет назад в отдел нам прикупили эпсон тысяч за 35 для служебного пользования, протяжной и двухсторонний. Вот им одно удовольствие макулатуру сканировать: корешок отрезаешь, всю пачку суёшь, и он странику за страничкой проглатывает с двухсторонним сканированием, а выводит сразу в .pdf. Минут по 10 на среднюю книгу всего дел.

>> No.16320  

>>16310

>Заебёшься сканировать вручную.

Так я уже. Заняло восемь часов в целом, и это очень не торопясь. Не скажу, что получил удовольствие, но и слишком заебаться тоже не успел.

>странику за страничкой проглатывает с двухсторонним сканированием, а выводит сразу в .pdf

Удобно конечно, вот только зачем из сырого скана, и сразу pdf? Как материал для дальнейшего распознавания текста разве что. Хотя любителей прямо так в сеть выбросить очень много, это да.

>> No.16321  

>>16320

>Удобно конечно, вот только зачем из сырого скана, и сразу pdf?

А что ты с ним дальше делать собрался, если у тебя искаропки есть постраничный .pdf? Главы проставлять?

>> No.16322  

>>16321
Ну так, скан-то еще и обработать было бы неплохо - сам по себе софт сканера выдает достаточно убогий результат. Ну и главы тоже конечно, примечания и все остальное.

>> No.16346  
Файл: Pages from Прощай, разум — Пол Фейер(...).jpg -(1024 KB, 2800x4384, Pages from Прощай, разум — Пол Фейер(...).jpg)
1024

Закончил с файлом. Сделал оглавление (без подглав, с переходом из закладок, либо с соответствующей страницы), сделал ссылки на примечания/библиографию из текста (но не из примечаний на библиографию - уж больно дохуя там этого). С OCR не стал баловаться и накосячил с искажением в левом вернем углу большинства нечетных страниц (в сканкромсаторе не нашел опцию, с фотошопом тоже не сложилось). Думаю, что читать файл будет удобно даже на относительно небольших устройствах с e-ink дисплеями (пикрелейтед - пример страницы). Залил на libgen; если интересно, называется "Прощай, разум" (хотя перед этим лучше бы "Против метода" прочитать).
Заебался я в одиночку, надо сказать, очень знатно, поэтому хочу предложить следующее. У всех ведь дома (в ближайшем магазине/букинистическом/на соседней помойке) есть что-то, чем можно было бы поделиться с миром, но в то же время всем в лом заниматься тем, с чем в этом треде проебался я. В такой ситуации было бы здорово, как мне кажется, организовать на базе отдельного треда в /l уютный, неторопливый "издательский дом" с разделением труда. Кто-то, например, вносит в тред предложение сделать такой-то файл из такой-то книги. Отзывается нужное количество желающих - один делает сканы, отсылает второму; второй обрабатывает их, отсылает третьему; третий делает файл, проставляет главы, примечания, проводит распознавание текста и отсылает четвертому; четвертый редактирует текст, вставляет ocr-слой и выкладывает куда-нибудь. Пропустив обработку сканов и создание pdf, можно уделить больше внимания редактуре и сделать fb2/epub/mobi. Файл готов, группа отписывается в треде, всем похуй. Как-то так.
Может и доска оживится маленько, не знаю. Напишите пожалуйста, что об этом думаете.

>> No.16348  
Файл: test.jpg -(922 KB, 1504x1991, test.jpg)
922

>>16346
Получилось хорошо. Особенно для e-ink'ов. Сейчас всякая спец. литература обычно попадается в виде пикрелейтеда, или ещё хуже. С монитора это читать ещё можно, а на e-ink'е текст выглядит белёсым, его плохо видно. Часто контрастность страдает ещё больше, текст на устройстве не разглядеть даже при увеличении, фон не является белым, зачастую страницы лежат криво и чтение по колонкам невозможно, иногда страницы просвечивают, видно, что написано/нарисовано на обратной стороне и т.д. и т.п.
Так что у тебя очень даже неплохо получилось.

>> No.16351  
Файл: ts_scan1.jpg -(1082 KB, 2269x1625, ts_scan1.jpg)
1082
>> No.16352  

>>16348
Ну и ладненько. Кстати, можно будет и существующие уже файлы вроде твоего пикрелейтеда до ума доводить, ну или попробовать по крайней мере.
>>16349
Тебе не обязательно именно сканированием заниматься - можешь уже готовый скан обрабатывать, или текст редактировать. В крайнем случае, если у тебя есть какая-та книжка, которую ты непременно хотел бы отсканировать, то можно и как-нибудь передать её обладателю сканера (можно по почте до востребования посылать, можно в условленном месте оставлять - кажется, для таких целей в Москве есть шкаф в каком-то лесопарке, через который люди книжками обмениваются; ну, а если вам похуй, то можно и лично встретиться). В самом крайнем случае можно отдать на сканирование за деньги, но это очень дорого.
В любом случае, я только с сентября смогу начать, так что если энтузиастов до того времени не найдется, попробую создать тред в первых числах.

>> No.16354  

>>16353
Здорово. Я и сам таким не занимался до недавнего момента (в оп-посте написано), но вроде бы читабельно получилось. Сканкромсатор, правда, программа сама по себе довольно сложноустроенная, но вместе, опять же, разбираться будет легче и приятнее.

>> No.16357  

>>16352

>можно будет и существующие уже файлы вроде твоего пикрелейтеда до ума доводить, ну или попробовать по крайней мере.

Чем это можно сделать? Хотя бы контраст выровнять, чтобы фон был белый, а всё, что темнее серого стало чёрным.
Если придётся обрабатывать постранично, без автоманизации, то это будет мягко говоря не продуктивно.

>> No.16358  

>>16357
Акробатом можно извлечь ряд .tif изображений из файла, после чего обработать их пакетно в сканкромсаторе (http://ru.wikipedia.org/wiki/ScanKromsator): развороты разделить, контраст поправить, фон почистить.

>> No.16363  

>>16358
Всё в программе хорошо: она и djvu вскрыла, и картинки выровняла, обрезала и обесцветила, но как теперь всё это обратно в djvu собрать?

>> No.16364  

>>16363

>Второй, рекомендованный способ, это использовать Document Express Enterprise 5.1 (доступна облегченная версия этого пакета, объемом около 20 мегабайт). Вначале создаем профиль для кодирования (делается это не часто, можно один раз), для этого запускаем Document Express Enterprise Configuration Manager из этого же пакета, из списка выбираем профиль Bitonal(600), нажимаем на кнопку Advanced Settings…, в диалоговом окне Advanced Settings выбираем закладку Text и ставим Pages Per Dictionary равным 1000 (конечно, это небольшой экстремизм, можно ограничиться значением 100-200). Сохраняем этот профиль под новым именем. Увеличение размера страниц на словарь, приводит к заметному уменьшению размера файла, до 25%. Профиль Bitonal используется только для черно-белых сканов, если у Вас есть страницы с иллюстрациями, то в этом случае лучше использовать профиль на основе Scanned.
>Запускаем Document Express Enterprise Workflow Manager, загружаем все страницы зараз, в поле Job Name пишем название книги, из списка Raster Profile выбираем, подготовленный ранее профиль, переключаемся на закладку Output и из списка Separate Document(s) by выбираем One document only. Ставим галочку (с самого левого края под Enable) и ждем конца кодирования, следим или пока эта галка исчезнет или по закладке Log.

Прямая ссылка со статьи про сканкромсатор, если что.




[d | an-b-bro-fr-gf-hr-l-m-maid-med-mi-mu-ne-o-old_o-p-ph-r-s-sci-sp-t-tran-tv-w-x | bg-vg | au-mo-tr | a-aa-abe-azu-c-dn-fi-hau-jp-ls-ma-me-rm-sos-tan-to-vn | misc-tenma-vndev | dev-stat]
[Burichan] [Futaba] [Gurochan] [Tomorrow] [Архив-Каталог-RSS] [Главная]