Информационный портал
pocket versionPOCKET  wikiWIKI  FAQFAQ  ПоискПоиск  ПользователиПользователи  ГруппыГруппы  РегистрацияРегистрация  ПрофильПрофиль  Войти и проверить личные сообщенияВойти и проверить личные сообщения  ВходВход

О кодировке FictionBook
На страницу 1, 2  След.
 
Найти сообщения без ответов
Начать новую тему   Ответить на тему    Список форумов www.fictionbook.org -> Перспективы формата FB
Предыдущая тема :: Следующая тема  
Автор Сообщение


Balancer
Гость





СообщениеДобавлено: Ср Окт 13, 2004 20:31    Заголовок сообщения: О кодировке FictionBook Ответить с цитатой

Я категорически за переход в будущем на UTF-8.

О плюсах этой кодировки, наверное, говорить не стоит. Поэтому, ИМХО, было бы полезно, во избежание вавилонских столпотворических проблем, в будущем утвердить её в формате как официальную.

Всё же, во-первых, литература не только русской ограничивается, во-вторых, даже в русском нередко встречаются иноязычные вставки, а пихать их картинками - изврат.

Кстати, и вопрос небольших табличек решается в этом случае автоматически - просто моноширинный шрифт и псевдографика Smile

Ну а с UTF-8 нынче и Windows, и Linux и даже КПК прекрасно работают. Так что с точки зрения будущего софта проблем быть не должно.
Вернуться к началу


0ff
Автор программы doc2fb

Автор программы doc2fb

Зарегистрирован: 30.09.2004
Сообщения: 202

СообщениеДобавлено: Чт Окт 14, 2004 1:18    Заголовок сообщения: Ответить с цитатой

А мне кажется лучше оставить, как есть. В чем прок привязывать формат к какой-то опредленной кодировке?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Посетить сайт автора


GribUser
Автор формата FB2 - Автор библиотеки FB

Автор формата FB2 - Автор библиотеки FB

Зарегистрирован: 30.09.2004
Сообщения: 2475
Откуда: Москва

СообщениеДобавлено: Чт Окт 14, 2004 1:26    Заголовок сообщения: Re: О кодировке FictionBook Ответить с цитатой

Balancer писал(а):
Я категорически за переход в будущем на UTF-8.
Не вижу решительно смысла. Любая мало-мальски приличная библиотека по работе с XML поддерживает уйму кодировок без каких-либо усилий с чьей-либо стороны. К чему лишние ограничения?

ps. имеются в виду С++ библиотеки и т.п., а не книжные Smile
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора


shad
Гость





СообщениеДобавлено: Чт Окт 14, 2004 9:47    Заголовок сообщения: Ответить с цитатой

Добавлю свои 5копеек: еще мы категорически против автоматического перекодирования документов в cp1251.
Вернуться к началу


Zenzen
Зрелый участник форума

Зрелый участник форума

Зарегистрирован: 14.10.2004
Сообщения: 143
Откуда: Токио

СообщениеДобавлено: Чт Окт 14, 2004 16:22    Заголовок сообщения: Ответить с цитатой

Господа, извините за грубость, но это пустая тема. Зачем кастрировать формат. Сейчас можно практически создать или сохранить документ в любой кодировке и это замечательно. Сохранение кириллического текста в UTF-8 только увеличивает размер файла в два раза. Если же вам по какой-либо причине нужен русский текст в UTF-8, откройте cp1251 файл хотя бы в FBE и сохраните его в UTF-8. Выбор всегда за юзером! Very Happy
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


Shaman
Администратор библиотеки FictionBook.Lib

Администратор библиотеки FictionBook.Lib

Зарегистрирован: 04.10.2004
Сообщения: 781
Откуда: Россия, Санкт-Петербург

СообщениеДобавлено: Чт Окт 14, 2004 16:50    Заголовок сообщения: Ответить с цитатой

Zenzen писал(а):
Господа, извините за грубость, но это пустая тема. Зачем кастрировать формат. Сейчас можно практически создать или сохранить документ в любой кодировке и это замечательно. Сохранение кириллического текста в UTF-8 только увеличивает размер файла в два раза. Если же вам по какой-либо причине нужен русский текст в UTF-8, откройте cp1251 файл хотя бы в FBE и сохраните его в UTF-8. Выбор всегда за юзером! Very Happy


Исключительно согласен.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


shad
Гость





СообщениеДобавлено: Чт Окт 14, 2004 18:36    Заголовок сообщения: Ответить с цитатой

Zenzen писал(а):
Господа, извините за грубость, но это пустая тема. Зачем кастрировать формат. Сейчас можно практически создать или сохранить документ в любой кодировке и это замечательно. Сохранение кириллического текста в UTF-8 только увеличивает размер файла в два раза. Если же вам по какой-либо причине нужен русский текст в UTF-8, откройте cp1251 файл хотя бы в FBE и сохраните его в UTF-8. Выбор всегда за юзером! Very Happy

я не говорю переводить всю библиотеку на utf-8 (хотя даже в таком случае для пользователя и администратора ничего не изменится - xml может быть в любой кодировке и при переконвертировании xml-документа в другую кодировку, с точки зрения XML документ останется неизменным).
Я говорю о том что библиотека сейчас слишком умная - при upload'е нового документа лезет к нему внутрь, переконвертирует, меняет форматирование (те же дефисы), например если автор документа вводил какое-то форматирование текста, для удобства редактирования, либа после заливки документа сама это поменяет. Не дело библиотеки вмешится в работу автора (документа), либа это лишь средство хранения и распространения документов.
На крайний случай эту функциональность необходимо сделать отключаемой. Очень надеюсь что GribUser займется этим в свободное время.

И жаль что исходного когда библиотеки нет в свободном доступе (на том же sourceforge.net), что могло бы помочь как пользователям для большего понимания работы либы, так и администратору библиотеки в поиске ошибок, патчах и совместной работе по улучшению библиотеки.
Вернуться к началу


Balancer
Гость





СообщениеДобавлено: Пн Окт 18, 2004 13:56    Заголовок сообщения: Ответить с цитатой

Zenzen писал(а):
Сейчас можно практически создать или сохранить документ в любой кодировке и это замечательно.


Ясно, пардон, переглючило. Возможно в тестируемом документе была ошибка, т.к. после перекодирования через iconv, Halli, например, просто ругается на ошибки в документе. (Естественно, encoding прописан)

После сохранения в FBE - всё работает.

Zenzen писал(а):
Сохранение кириллического текста в UTF-8 только увеличивает размер файла в два раза.


FB2 в сыром виде никто не хранит, а в ZIP-архиве, ну, например, "Пикник на обочине" (на чём тестировал) весит 440к для 1251 и 480к для UTF-8. Разница совершенно смешная.
Вернуться к началу


aamonster
Гость





СообщениеДобавлено: Пт Дек 09, 2005 0:18    Заголовок сообщения: Ответить с цитатой

Лично мне русскоязычные документы, без необходимости перегнанные в UTF-8, мягко говоря, не нравятся. Главное - не все программы их поддерживают (к примеру, встроенные просматривалки WinRAR'а и FAR'а не поддерживает, в результате чего для того, чтобы просто глянуть на текст и быстро что-то найти, приходится его скармливать notepad'у).
Ну и плюс на наладоннике (где память дорога), как ни крути, они займут вдвое больше RAM.
Вернуться к началу


Alex
Постоянный участник форума

Постоянный участник форума

Зарегистрирован: 24.12.2004
Сообщения: 648
Откуда: Kiev, UA

СообщениеДобавлено: Пт Дек 09, 2005 10:17    Заголовок сообщения: Ответить с цитатой

Balancer писал(а):
FB2 в сыром виде никто не хранит, а в ZIP-архиве, ну, например, "Пикник на обочине" (на чём тестировал) весит 440к для 1251 и 480к для UTF-8. Разница совершенно смешная.

Вы бы еще рассказ на 20 страниц так протестировали...
Да, на небольших книгах разница смешная, но она может достигать 100-200 килобайт на одной тольстой книжке. А если их несколько?
Я-то не боюсь, мне карточки на 256 мегабайт хватит (хотя все равно неприятно, когда слишком долго файлы в КПК заливаются). Но ведь не у всех такие карточки есть.
_________________
С уважением, Алекс.
Sony Clie PEG TJ-37 + MS 256 Mb (Palm OS 5.2.1 + PalmFiction 0.14t)
Siemens S75 + ReadManiac 2.6
а иногда я еще и бумажные книги читаю...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора


Admin
Администратор информационного портала FB

Администратор информационного портала FB

Зарегистрирован: 11.06.2004
Сообщения: 1610
Откуда: Воронеж

СообщениеДобавлено: Пт Дек 09, 2005 10:58    Заголовок сообщения: Ответить с цитатой

Не надо забывать, что перевод из UTF-8 в Win-1251 может исказить текст, который обратным переводом не восстановить. Например, исказится какое-нибудь французское слово. Так, что при подготовке документа, хранении в библиотеке и скачивании правильнее текст хранить в utf-8, а уж юсер может кастрировать его перед чтением по своему желанию.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail


Test
Гость





СообщениеДобавлено: Пт Дек 09, 2005 14:26    Заголовок сообщения: Ответить с цитатой

shad писал(а):
Я говорю о том что библиотека сейчас слишком умная - при upload'е нового документа лезет к нему внутрь, переконвертирует, меняет форматирование (те же дефисы), например если автор документа вводил какое-то форматирование текста, для удобства редактирования, либа после заливки документа сама это поменяет. Не дело библиотеки вмешится в работу автора (документа), либа это лишь средство хранения и распространения документов.
Полностью поддерживаю!
Раз по словам GribUser'a программам XML кодировка безразлична, пусть при хранении и выдаче FB2 сохраняют ту что была при заливке !
Вернуться к началу


Gremlin
Зрелый участник форума

Зрелый участник форума

Зарегистрирован: 14.02.2005
Сообщения: 155

СообщениеДобавлено: Пт Дек 09, 2005 14:33    Заголовок сообщения: Ответить с цитатой

Admin писал(а):
Не надо забывать, что перевод из UTF-8 в Win-1251 может исказить текст, который обратным переводом не восстановить. Например, исказится какое-нибудь французское слово. Так, что при подготовке документа, хранении в библиотеке и скачивании правильнее текст хранить в utf-8, а уж юсер может кастрировать его перед чтением по своему желанию.

Это чем же ты его собираешься переводить, чтобы символы попортило?
Кодировка в XML всегда UNICODE, а уж для всяких файлов, кодированных в latin-1 и т.д. придуманы специальные entities (например ✐ и &#xFFFFF).
Вернуться к началу
Посмотреть профиль Отправить личное сообщение


Alex
Постоянный участник форума

Постоянный участник форума

Зарегистрирован: 24.12.2004
Сообщения: 648
Откуда: Kiev, UA

СообщениеДобавлено: Пт Дек 09, 2005 15:05    Заголовок сообщения: Ответить с цитатой

Admin писал(а):
Не надо забывать, что перевод из UTF-8 в Win-1251 может исказить текст, который обратным переводом не восстановить. Например, исказится какое-нибудь французское слово. Так, что при подготовке документа, хранении в библиотеке и скачивании правильнее текст хранить в utf-8, а уж юсер может кастрировать его перед чтением по своему желанию.


Но ведь это далеко не для всех книг актуально Smile
ИМХО кодировка должна быть на совести автора фб2-книги
_________________
С уважением, Алекс.
Sony Clie PEG TJ-37 + MS 256 Mb (Palm OS 5.2.1 + PalmFiction 0.14t)
Siemens S75 + ReadManiac 2.6
а иногда я еще и бумажные книги читаю...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить e-mail Посетить сайт автора


Claymore
Новенький участник форума

Новенький участник форума

Зарегистрирован: 03.12.2005
Сообщения: 6
Откуда: Тамбов

СообщениеДобавлено: Пт Дек 09, 2005 15:25    Заголовок сообщения: Ответить с цитатой

Gremlin писал(а):
Кодировка в XML всегда UNICODE, а уж для всяких файлов, кодированных в latin-1 и т.д. придуманы специальные entities (например ✐ и &#xFFFFF).

Кодировка такая, какую укажешь. А вот доступ к символам за пределами этой кодировки в &#code; В принципе, нормально сконвертировать XML в другую кодировку с созранением всех символов можно, но та же iconv этого делать не будет. Wink

IMO, механическая автоперекодировка - зло. Хотя её можно делать на стороне пользователя, а не собственно библиотеки.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов www.fictionbook.org -> Перспективы формата FB Часовой пояс: GMT + 3
На страницу 1, 2  След.
Страница 1 из 2

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB © 2001, 2005 phpBB Group