Предыдущая тема :: Следующая тема |
Автор |
Сообщение |
metagamer Новенький участник форума
Зарегистрирован: 27.12.2005 Сообщения: 4
|
Добавлено: Вт Дек 27, 2005 13:17 Заголовок сообщения: Как отучить FB Designer от распознавания номеров страниц... |
|
|
...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц. |
|
Вернуться к началу |
|
|
Mice Зрелый участник форума
Зарегистрирован: 18.10.2005 Сообщения: 104 Откуда: Москва
|
Добавлено: Ср Дек 28, 2005 11:43 Заголовок сообщения: |
|
|
а в каком исходнике у вас номера страниц идут прямо в тексте?? Если я сканирую и распознаю - то номера страниц не включаю в зону распознавания, если текст в формате msword - FBD не экспортирует номера, а в большинстве библиотечных TXT номеров страниц нет... |
|
Вернуться к началу |
|
|
Ustas Автор OCR-библиотеки Ustas SmartLib
Зарегистрирован: 16.03.2005 Сообщения: 320 Откуда: SPb
|
Добавлено: Ср Дек 28, 2005 16:30 Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц |
|
|
metagamer писал(а): | ...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц. |
Может отключить автоопределение заголовков по количеству символов?
2Mice
а номеров страниц полно в текстах Мошкова (с Миллером сейчас мучаюсь, - руками чищу),
в специфической литературе (от Ихтика, например) |
|
Вернуться к началу |
|
|
Bailo Координатор проекта «Испр@влено»
Зарегистрирован: 22.10.2004 Сообщения: 810 Откуда: Москва
|
Добавлено: Ср Дек 28, 2005 18:24 Заголовок сообщения: |
|
|
Mice писал(а): | в каком исходнике у вас номера страниц идут прямо в тексте?? Если я сканирую и распознаю - то номера страниц не включаю в зону распознавания, если текст в формате msword - FBD не экспортирует номера, а в большинстве библиотечных TXT номеров страниц нет... |
Ustas писал(а): | а номеров страниц полно в текстах Мошкова (с Миллером сейчас мучаюсь, - руками чищу),
в специфической литературе (от Ихтика, например) |
Иногда, кстати, номера страниц бывают весьма полезны. Например, в научной литературе. Иначе нельзя сделать ссылку на данное произведение, которая бы соответствовала ГОСТу.
Недаром же некоторые пользователи предлагали даже отдельный тэг <page></page>. Я до сих пор эту идею внутренне поддерживаю, но не высказываюсь, потому что ее в прошлый так агрессивно отвергли. |
|
Вернуться к началу |
|
|
Mice Зрелый участник форума
Зарегистрирован: 18.10.2005 Сообщения: 104 Откуда: Москва
|
Добавлено: Ср Дек 28, 2005 19:40 Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц |
|
|
Ustas писал(а): | Может отключить автоопределение заголовков по количеству символов?
|
Я сегодня опциями игрался - не удалось. Может, конечно, просто не нашёл, но при разных вариантах настроек цифры по центру строки стабильно titl'ами отбивались... |
|
Вернуться к началу |
|
|
metagamer Новенький участник форума
Зарегистрирован: 27.12.2005 Сообщения: 4
|
Добавлено: Ср Дек 28, 2005 20:46 Заголовок сообщения: |
|
|
Mice писал(а): | а в каком исходнике у вас номера страниц идут прямо в тексте?? Если я сканирую и распознаю - то номера страниц не включаю в зону распознавания, если текст в формате msword - FBD не экспортирует номера, а в большинстве библиотечных TXT номеров страниц нет... |
Скачал книжку из инета в виде word-файла...
Добавлено спустя 1 минуту 36 секунд:
Bailo писал(а): | Иногда, кстати, номера страниц бывают весьма полезны. Например, в научной литературе. Иначе нельзя сделать ссылку на данное произведение, которая бы соответствовала ГОСТу.
Недаром же некоторые пользователи предлагали даже отдельный тэг <page></page>. Я до сих пор эту идею внутренне поддерживаю, но не высказываюсь, потому что ее в прошлый так агрессивно отвергли. |
Я тоже с этим столкнулся и поддерживаю эту замечательную идею.
Тогда эл. вариант будет максимально близок к оригиналу. |
|
Вернуться к началу |
|
|
Bailo Координатор проекта «Испр@влено»
Зарегистрирован: 22.10.2004 Сообщения: 810 Откуда: Москва
|
Добавлено: Ср Дек 28, 2005 23:32 Заголовок сообщения: |
|
|
metagamer писал(а): | Скачал книжку из инета в виде word-файла... |
Так зачем пользоваться FBD - doc2fb не проще?
metagamer писал(а): | Я тоже с этим столкнулся и поддерживаю эту замечательную идею.
Тогда эл. вариант будет максимально близок к оригиналу. |
Спасибо, хоть кто-то это поддерживает. _________________ If things go wrong you don't have to go with them |
|
Вернуться к началу |
|
|
Mice Зрелый участник форума
Зарегистрирован: 18.10.2005 Сообщения: 104 Откуда: Москва
|
Добавлено: Чт Дек 29, 2005 9:11 Заголовок сообщения: |
|
|
Немного отступив от основной темы:
номера страниц, вероятно нужны, но только для тех электронных книг, для первоисточников которых существует единственное издание. То есть, по определению, не для худлита, который переиздаётся в любом формате, как издательствам на душу ляжет. Если мы готовы поддерживать fb2, как общий формат для всех видов электронных книг, в том числе, и научных, то почему бы и не ввести дополнительный необязательный тэг <page>...</page>, который не будет отображаться читалками в обычном случае? Просто моё скромное личное мнение заключается в том, что fb2 однозначно удобен и подходит только для худлита. Так, всё, что выходит за его рамки - я готовлю в формате pdf или djvu (в этом случае, я опять таки не распознаю цифру страницы, т.к. номер отсканированной страницы в файле у меня соответствует таковому в книге).
А касательно FBD - я так и не смог получить доступ к настройкам распознавания элементов текста. Возможно, они зашиты в теле программы? В ClearTXT - всё это можно было настроить совершенно точно...
Ну, а если FBD из "ворда" берёт страницы, то это только в том случае, если они там стоЯт прямо в тексте, неправильно оформленные (как обычный текст). |
|
Вернуться к началу |
|
|
Bailo Координатор проекта «Испр@влено»
Зарегистрирован: 22.10.2004 Сообщения: 810 Откуда: Москва
|
Добавлено: Чт Дек 29, 2005 12:40 Заголовок сообщения: |
|
|
Mice писал(а): | Просто моё скромное личное мнение заключается в том, что fb2 однозначно удобен и подходит только для худлита. |
Почему fb2 не подходит для книг по гуманитарным наукам: праву, социологии, философии и т. д.? Я так думаю, что идельно подходит.
А здесь уже весьма полезны будут страницы, естественно, при точном указании используемого при сканировании издания. _________________ If things go wrong you don't have to go with them |
|
Вернуться к началу |
|
|
Mice Зрелый участник форума
Зарегистрирован: 18.10.2005 Сообщения: 104 Откуда: Москва
|
Добавлено: Чт Дек 29, 2005 14:07 Заголовок сообщения: |
|
|
Хорошо, при точном указании. В случае, когда сканируешь книгу сам, всё это вполне реально. Если скачал с инета - уже во много раз сложнее. А ещё, такие книги часто переиздаются с изменениями и дополнениями, что фатально сказывается на нумерации страниц. Но это уже полный оффтоп.
Таким образом, я готов поддержать введение данного тега в качестве необязательного. (если конечно, мой голос в данном случае что-либо значит...)
Очень жаль, что мы так и не услышали, можно ли отключить распознавание цифр, как заголовков... |
|
Вернуться к началу |
|
|
metagamer Новенький участник форума
Зарегистрирован: 27.12.2005 Сообщения: 4
|
Добавлено: Чт Дек 29, 2005 20:24 Заголовок сообщения: |
|
|
Bailo писал(а): | metagamer писал(а): | Скачал книжку из инета в виде word-файла... |
Так зачем пользоваться FBD - doc2fb не проще? |
Раньше её не было на сайте, а захожу я на него редко. |
|
Вернуться к началу |
|
|
vvv Автор редактора BookDesigner
Зарегистрирован: 06.10.2004 Сообщения: 349
|
Добавлено: Пт Янв 06, 2006 20:25 Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц |
|
|
metagamer писал(а): | ...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц. |
1. Если грубо, то двумя кликами: Format -> more transformations -> "titles -> subtitles"
2. Eсли только для того, чтобы скорректировать fb2-содержание, то Tools -> Fiction Book Section Editor. Отметить в нем все заголовки, которые не должны войти в содержание, затем remove.
3. Если же нужен полный контроль - то через BookCleaner: Tools -> Book Cleaner. Но сначала написав в нем соответствующий RegExp скрипт, который будет преобразовывать заголовки, состоящие из цифр, в подзаголовки. Если по-простому, то что-нибудь типа:
find what: <SPAN id=title><DIV align=center><FONT color=#001950>(<B>[1-9])...
replace by: <SPAN id=subtitle><DIV align=center><FONT color=#007373>$1
clean: after book formatting
P.S. На-днях планирую доделать новую программу: OCR Pad. OCR Pad - это редактор с набором прибамбасок, ориентированных на чистку OCR.
Shaman, надеюсь, что OCR Pad тебе понравится: в нем есть ряд характерных примеров использования RegExp. И он юникодный . |
|
Вернуться к началу |
|
|
Ustas Автор OCR-библиотеки Ustas SmartLib
Зарегистрирован: 16.03.2005 Сообщения: 320 Откуда: SPb
|
Добавлено: Пт Янв 06, 2006 22:28 Заголовок сообщения: |
|
|
Ура!
еще бы хелп по регекспам или хотя бы базовые регекспы в комплекте. |
|
Вернуться к началу |
|
|
metagamer Новенький участник форума
Зарегистрирован: 27.12.2005 Сообщения: 4
|
Добавлено: Пт Янв 06, 2006 23:12 Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц |
|
|
vvv писал(а): | metagamer писал(а): | ...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц. |
1. Если грубо, то двумя кликами: Format -> more transformations -> "titles -> subtitles"
2. Eсли только для того, чтобы скорректировать fb2-содержание, то Tools -> Fiction Book Section Editor. Отметить в нем все заголовки, которые не должны войти в содержание, затем remove.
3. Если же нужен полный контроль - то через BookCleaner: Tools -> Book Cleaner. Но сначала написав в нем соответствующий RegExp скрипт, который будет преобразовывать заголовки, состоящие из цифр, в подзаголовки. Если по-простому, то что-нибудь типа:
find what: <SPAN id=title><DIV align=center><FONT color=#001950>(<B>[1-9])...
replace by: <SPAN id=subtitle><DIV align=center><FONT color=#007373>$1
clean: after book formatting
P.S. На-днях планирую доделать новую программу: OCR Pad. OCR Pad - это редактор с набором прибамбасок, ориентированных на чистку OCR.
Shaman, надеюсь, что OCR Pad тебе понравится: в нем есть ряд характерных примеров использования RegExp. И он юникодный . |
Спасибо за ценный ответ! |
|
Вернуться к началу |
|
|
vvv Автор редактора BookDesigner
Зарегистрирован: 06.10.2004 Сообщения: 349
|
|
Вернуться к началу |
|
|
|
|
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете голосовать в опросах
|
Powered by phpBB © 2001, 2005 phpBB Group
|