統一碼標準壓縮方案
維基百科,自由的 encyclopedia
統一碼標準壓縮方案[1](英語:Standard Compression Scheme for Unicode,縮寫:SCSU)[2],是一種統一碼技術標準。用於減少統一碼文本所需使用的字節數,尤其是該文本中所使用的字符,主要集中在一種或幾種語言區段。它的作法主要是將 128– 255 范围内的值,动态映射到 以 128 個字符為單位的特定區段的偏移量来实现。编码器的初始条件則是ASCII和ISO-8859-1中不包含除 NULL TAB CR 和 LF 之外的 C0 控制代码的现有字符串可以被视为 SCSU 字符串。
由于大多数字母在統一碼所使用的碼位,通常會是區塊中的連續位置,所以如果文本使用小寫字母、 ASCII 標點符號或窗口內的其它標點符號,可以按每个字符一个字节进行编码(需另外加上前置成本,对常见语言通常只有 1 个字节),大多数其他标点符号可以通过非锁定移位的方式,以每個字符使用 2 個位元組进行编码。統一碼標準壓縮方案还可以在內部切換到UTF-16模式,以处理非字母语言。