utf-8 and unicode faq
中国linux论坛翻译小组 xlonestar[译] 2000年2月这篇文章说明了在 posix 系统 (linux,unix) 上使用 unicode/utf-8 所需要的信息. 在将来不远的几年里, unicode 已经很接近于取代 ascii 与 latin-1 编码的位置了. 它不仅允许你处理处理事实上存在于地球上的任何语言文字, 而且提供了一个全面的数学与技术符号集, 因此可以简化科学信息交换. 【相关文章:BIG5到GB的转换技术】
by markus kuhn 【扩展阅读:声音文件格式漫谈】
什么是 ucs 与 iso 10646? 【扩展信息:Excel文件格式(二)】
utf-8 编码提供了一种简便而向后兼容的方法, 使得那种完全围绕 ascii 设计的操作系统, 比如 unix, 也可以使用 unicode. utf-8 就是 unix, linux 已经类似的系统使用 unicode 的方式. 现在是你了解它的时候了.
国际标准 iso 10646 定义了 通用字符集 (universal character set, ucs). ucs 是所有其他字符集标准的一个超集. 它保证与其他字符集是双向兼容的. 就是说, 如果你将任何文本字符串翻译到 ucs格式, 然后再翻译回原编码, 你不会丢失任何信息.
ucs 包含了用于表达所有已知语言的字符. 不仅包括拉丁语,希腊语, 斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语与乔治亚语的描述, 还包括中文, 日文与韩文这样的象形文字, 以及 平假名, 片假名, 孟加拉语, 旁遮普语果鲁穆奇字符(gurmukhi), 泰米尔语, 印.埃纳德语(kannada), malayalam, 泰国语, 老挝语, 汉语拼音(bopomofo), hangul, devangari, gujarati, oriya, telugu 以及其他数也数不清的语. 对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入. 这些语言包括 tibetian, 高棉语, runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如 tengwar, cirth 与 克林贡语(klingon). ucs 还包括大量的图形的, 印刷用的, 数学用的与科学用的符号, 包括所有由 tex, postscript, ms-dos,ms-windows, macintosh, ocr 字体, 以及许多其他字处理与出版系统提供的字符.
... 下一页