Информационный портал
pocket versionPOCKET  wikiWIKI  FAQFAQ  ПоискПоиск  ПользователиПользователи  ГруппыГруппы  РегистрацияРегистрация  ПрофильПрофиль  Войти и проверить личные сообщенияВойти и проверить личные сообщения  ВходВход

Как отучить FB Designer от распознавания номеров страниц...

 
Найти сообщения без ответов
Начать новую тему   Ответить на тему    Список форумов www.fictionbook.org -> Основы формата FB
Предыдущая тема :: Следующая тема  
Автор Сообщение


metagamer
Новенький участник форума

Новенький участник форума

Зарегистрирован: 27.12.2005
Сообщения: 4

СообщениеДобавлено: Вт Дек 27, 2005 13:17    Заголовок сообщения: Как отучить FB Designer от распознавания номеров страниц... Ответить с цитатой

...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


Mice
Зрелый участник форума

Зрелый участник форума

Зарегистрирован: 18.10.2005
Сообщения: 104
Откуда: Москва

СообщениеДобавлено: Ср Дек 28, 2005 11:43    Заголовок сообщения: Ответить с цитатой

а в каком исходнике у вас номера страниц идут прямо в тексте?? Если я сканирую и распознаю - то номера страниц не включаю в зону распознавания, если текст в формате msword - FBD не экспортирует номера, а в большинстве библиотечных TXT номеров страниц нет...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


Ustas
Автор OCR-библиотеки Ustas SmartLib

Автор OCR-библиотеки Ustas SmartLib

Зарегистрирован: 16.03.2005
Сообщения: 320
Откуда: SPb

СообщениеДобавлено: Ср Дек 28, 2005 16:30    Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц Ответить с цитатой

metagamer писал(а):
...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц.


Может отключить автоопределение заголовков по количеству символов?

2Mice
а номеров страниц полно в текстах Мошкова (с Миллером сейчас мучаюсь, - руками чищу),
в специфической литературе (от Ихтика, например)
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора


Bailo
Координатор проекта «Испр@влено»

Координатор проекта «Испр@влено»

Зарегистрирован: 22.10.2004
Сообщения: 810
Откуда: Москва

СообщениеДобавлено: Ср Дек 28, 2005 18:24    Заголовок сообщения: Ответить с цитатой

Mice писал(а):
в каком исходнике у вас номера страниц идут прямо в тексте?? Если я сканирую и распознаю - то номера страниц не включаю в зону распознавания, если текст в формате msword - FBD не экспортирует номера, а в большинстве библиотечных TXT номеров страниц нет...


Ustas писал(а):
а номеров страниц полно в текстах Мошкова (с Миллером сейчас мучаюсь, - руками чищу),
в специфической литературе (от Ихтика, например)


Иногда, кстати, номера страниц бывают весьма полезны. Например, в научной литературе. Иначе нельзя сделать ссылку на данное произведение, которая бы соответствовала ГОСТу.

Недаром же некоторые пользователи предлагали даже отдельный тэг <page></page>. Я до сих пор эту идею внутренне поддерживаю, но не высказываюсь, потому что ее в прошлый так агрессивно отвергли.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail


Mice
Зрелый участник форума

Зрелый участник форума

Зарегистрирован: 18.10.2005
Сообщения: 104
Откуда: Москва

СообщениеДобавлено: Ср Дек 28, 2005 19:40    Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц Ответить с цитатой

Ustas писал(а):
Может отключить автоопределение заголовков по количеству символов?

Я сегодня опциями игрался - не удалось. Может, конечно, просто не нашёл, но при разных вариантах настроек цифры по центру строки стабильно titl'ами отбивались...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


metagamer
Новенький участник форума

Новенький участник форума

Зарегистрирован: 27.12.2005
Сообщения: 4

СообщениеДобавлено: Ср Дек 28, 2005 20:46    Заголовок сообщения: Ответить с цитатой

Mice писал(а):
а в каком исходнике у вас номера страниц идут прямо в тексте?? Если я сканирую и распознаю - то номера страниц не включаю в зону распознавания, если текст в формате msword - FBD не экспортирует номера, а в большинстве библиотечных TXT номеров страниц нет...

Скачал книжку из инета в виде word-файла...

Добавлено спустя 1 минуту 36 секунд:

Bailo писал(а):
Иногда, кстати, номера страниц бывают весьма полезны. Например, в научной литературе. Иначе нельзя сделать ссылку на данное произведение, которая бы соответствовала ГОСТу.

Недаром же некоторые пользователи предлагали даже отдельный тэг <page></page>. Я до сих пор эту идею внутренне поддерживаю, но не высказываюсь, потому что ее в прошлый так агрессивно отвергли.


Я тоже с этим столкнулся и поддерживаю эту замечательную идею.
Тогда эл. вариант будет максимально близок к оригиналу.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


Bailo
Координатор проекта «Испр@влено»

Координатор проекта «Испр@влено»

Зарегистрирован: 22.10.2004
Сообщения: 810
Откуда: Москва

СообщениеДобавлено: Ср Дек 28, 2005 23:32    Заголовок сообщения: Ответить с цитатой

metagamer писал(а):
Скачал книжку из инета в виде word-файла...

Так зачем пользоваться FBD - doc2fb не проще?

metagamer писал(а):
Я тоже с этим столкнулся и поддерживаю эту замечательную идею.
Тогда эл. вариант будет максимально близок к оригиналу.

Спасибо, хоть кто-то это поддерживает.
_________________
If things go wrong you don't have to go with them
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail


Mice
Зрелый участник форума

Зрелый участник форума

Зарегистрирован: 18.10.2005
Сообщения: 104
Откуда: Москва

СообщениеДобавлено: Чт Дек 29, 2005 9:11    Заголовок сообщения: Ответить с цитатой

Немного отступив от основной темы:
номера страниц, вероятно нужны, но только для тех электронных книг, для первоисточников которых существует единственное издание. То есть, по определению, не для худлита, который переиздаётся в любом формате, как издательствам на душу ляжет. Если мы готовы поддерживать fb2, как общий формат для всех видов электронных книг, в том числе, и научных, то почему бы и не ввести дополнительный необязательный тэг <page>...</page>, который не будет отображаться читалками в обычном случае? Просто моё скромное личное мнение заключается в том, что fb2 однозначно удобен и подходит только для худлита. Так, всё, что выходит за его рамки - я готовлю в формате pdf или djvu (в этом случае, я опять таки не распознаю цифру страницы, т.к. номер отсканированной страницы в файле у меня соответствует таковому в книге).

А касательно FBD - я так и не смог получить доступ к настройкам распознавания элементов текста. Возможно, они зашиты в теле программы? В ClearTXT - всё это можно было настроить совершенно точно...
Ну, а если FBD из "ворда" берёт страницы, то это только в том случае, если они там стоЯт прямо в тексте, неправильно оформленные (как обычный текст).
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


Bailo
Координатор проекта «Испр@влено»

Координатор проекта «Испр@влено»

Зарегистрирован: 22.10.2004
Сообщения: 810
Откуда: Москва

СообщениеДобавлено: Чт Дек 29, 2005 12:40    Заголовок сообщения: Ответить с цитатой

Mice писал(а):
Просто моё скромное личное мнение заключается в том, что fb2 однозначно удобен и подходит только для худлита.

Почему fb2 не подходит для книг по гуманитарным наукам: праву, социологии, философии и т. д.? Я так думаю, что идельно подходит.

А здесь уже весьма полезны будут страницы, естественно, при точном указании используемого при сканировании издания. Idea
_________________
If things go wrong you don't have to go with them
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail


Mice
Зрелый участник форума

Зрелый участник форума

Зарегистрирован: 18.10.2005
Сообщения: 104
Откуда: Москва

СообщениеДобавлено: Чт Дек 29, 2005 14:07    Заголовок сообщения: Ответить с цитатой

Хорошо, при точном указании. В случае, когда сканируешь книгу сам, всё это вполне реально. Если скачал с инета - уже во много раз сложнее. А ещё, такие книги часто переиздаются с изменениями и дополнениями, что фатально сказывается на нумерации страниц. Но это уже полный оффтоп.

Таким образом, я готов поддержать введение данного тега в качестве необязательного. (если конечно, мой голос в данном случае что-либо значит...)

Очень жаль, что мы так и не услышали, можно ли отключить распознавание цифр, как заголовков...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


metagamer
Новенький участник форума

Новенький участник форума

Зарегистрирован: 27.12.2005
Сообщения: 4

СообщениеДобавлено: Чт Дек 29, 2005 20:24    Заголовок сообщения: Ответить с цитатой

Bailo писал(а):
metagamer писал(а):
Скачал книжку из инета в виде word-файла...

Так зачем пользоваться FBD - doc2fb не проще?

Раньше её не было на сайте, а захожу я на него редко.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


vvv
Автор редактора BookDesigner

Автор редактора BookDesigner

Зарегистрирован: 06.10.2004
Сообщения: 349

СообщениеДобавлено: Пт Янв 06, 2006 20:25    Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц Ответить с цитатой

metagamer писал(а):
...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц.

1. Если грубо, то двумя кликами: Format -> more transformations -> "titles -> subtitles"

2. Eсли только для того, чтобы скорректировать fb2-содержание, то Tools -> Fiction Book Section Editor. Отметить в нем все заголовки, которые не должны войти в содержание, затем remove.

3. Если же нужен полный контроль - то через BookCleaner: Tools -> Book Cleaner. Но сначала написав в нем соответствующий RegExp скрипт, который будет преобразовывать заголовки, состоящие из цифр, в подзаголовки. Если по-простому, то что-нибудь типа:
find what: <SPAN id=title><DIV align=center><FONT color=#001950>(<B>[1-9])...
replace by: <SPAN id=subtitle><DIV align=center><FONT color=#007373>$1
clean: after book formatting

P.S. На-днях планирую доделать новую программу: OCR Pad. OCR Pad - это редактор с набором прибамбасок, ориентированных на чистку OCR.
Shaman, надеюсь, что OCR Pad тебе понравится: в нем есть ряд характерных примеров использования RegExp. И он юникодный Very Happy.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


Ustas
Автор OCR-библиотеки Ustas SmartLib

Автор OCR-библиотеки Ustas SmartLib

Зарегистрирован: 16.03.2005
Сообщения: 320
Откуда: SPb

СообщениеДобавлено: Пт Янв 06, 2006 22:28    Заголовок сообщения: Ответить с цитатой

Ура!
еще бы хелп по регекспам или хотя бы базовые регекспы в комплекте.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора


metagamer
Новенький участник форума

Новенький участник форума

Зарегистрирован: 27.12.2005
Сообщения: 4

СообщениеДобавлено: Пт Янв 06, 2006 23:12    Заголовок сообщения: Re: Как отучить FB Designer от распознавания номеров страниц Ответить с цитатой

vvv писал(а):
metagamer писал(а):
...как элементов title/subtitle?
Ужасно неудобно, когда содержание книги - перечень всех её страниц.

1. Если грубо, то двумя кликами: Format -> more transformations -> "titles -> subtitles"

2. Eсли только для того, чтобы скорректировать fb2-содержание, то Tools -> Fiction Book Section Editor. Отметить в нем все заголовки, которые не должны войти в содержание, затем remove.

3. Если же нужен полный контроль - то через BookCleaner: Tools -> Book Cleaner. Но сначала написав в нем соответствующий RegExp скрипт, который будет преобразовывать заголовки, состоящие из цифр, в подзаголовки. Если по-простому, то что-нибудь типа:
find what: <SPAN id=title><DIV align=center><FONT color=#001950>(<B>[1-9])...
replace by: <SPAN id=subtitle><DIV align=center><FONT color=#007373>$1
clean: after book formatting

P.S. На-днях планирую доделать новую программу: OCR Pad. OCR Pad - это редактор с набором прибамбасок, ориентированных на чистку OCR.
Shaman, надеюсь, что OCR Pad тебе понравится: в нем есть ряд характерных примеров использования RegExp. И он юникодный Very Happy.


Спасибо за ценный ответ!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


vvv
Автор редактора BookDesigner

Автор редактора BookDesigner

Зарегистрирован: 06.10.2004
Сообщения: 349

СообщениеДобавлено: Сб Янв 07, 2006 2:31    Заголовок сообщения: Ответить с цитатой

Ustas писал(а):
Ура!
еще бы хелп по регекспам или хотя бы базовые регекспы в комплекте.

Уже есть и то, и другое. Но пока только в OCR Pad: он для твоих нужд намного лучше подходит, чем FBD. Да и простой он, как валенок (пардон, как WordPad Very Happy ).
http://www.the-ebook.org/forum/viewtopic.php?p=38456&sid=6ebd127f21cd0f4ac0eb74793d664444#38456
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов www.fictionbook.org -> Основы формата FB Часовой пояс: GMT + 3
Страница 1 из 1

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB © 2001, 2005 phpBB Group