全字庫 中文標準交換碼

壹、編訂緣起
行政院主計處電子處理資料中心奉院交辦協助解決眾多使用BIG-5碼之政府單位,於進行公文電子傳遞時所遭遇之自造字無法轉換問題;經數次會商後,決議請 本院研究發展考核委員會成立專案委託財團法人中文數位化技術推廣基金會辦理「BIG-5碼字集擴編計畫」。86年7月擴編完成「BIG5+碼」,但此項成 果未為多數廠商採用,故使用者並無相關產品可用。 由於該擴編計畫中所完成之「標準字集」,為政府單位一般文書最常用之自造字,如應用於BIG-5碼的造字區,可整合使用者常用的自造字、降低轉碼的頻率。 有鑑於此,行政院研考會即再度委託中推會,由BIG-5E碼之「標準字集」中選取3,954個字,在BIG-5碼的造字區中建置「BIG-5碼補充字集 (BIG-5 Extension Character Set,簡稱BIG-5E字集)」;並配合行政院「電子化╱網路化政府計畫」之推動,於公文電子交換作業規範中訂為可處理中文碼類別之一。
貳、BIG5+之編碼原則
(一) 長度仍為雙位元組,即高位元組之第一位元(MSB)=1。 (二) 保留原有之「標準字集字區」及「使用者加字區」架構,使與原系統具相容性。 (三) 以國家標準CNS11643及國際標準ISO10646漢字集為字源範圍,並依CNS11643之序編碼。 (四) 包含於ISO10646或CNS11643字集內且市面已廣為使用之倚天自造字及符號編入「標準字集」,並保留原碼位。 (五) 單獨成字之部首(如金、木、水、火、土)不再重覆編碼。 六) 重複字刪除其後者,錯字則依照CNS11643修正之。
參、字集來源
一、 BIG5+的字源 BIG- 5碼系統之內定字集與CNS 11643第一、二字面相同,故86年7月擴編計畫所完成之BIG5+碼亦以CNS11643為藍本,共完成「標準字集」與「推薦字集」兩部分。「標準字 集」的4,670個字符,均為一般文書常用之中文字,其中4,145個字包含於CNS11643 第3字面字集,219個字包含於第4字面字集;「推薦字集」的3,250個字符,為廠商所蒐集之使用者常用字。
二、 BIG-5E的字源 BIG-5E碼的字源,以BIG-5+碼字集為主要來源;由於BIG-5碼造字區空間有限,BIG5+碼字集無法全部納入,故只挑選CNS11643及ISO10646漢字集所共有且為政府機關較常用的字3,954個。
肆、字碼架構
BIG+之編碼區間 BIG-5之總碼位原有19,782個,BIG5+之總碼位由19,782個擴大為23,940個(高位元組為81-FE,低位元組為40-7E、80-FE),BIG5+之編碼字集如下:
  1. 第一標準字集:此區即原BIG-5碼標準字集,但刪除2個重複字,字碼 區間A140-F9FE(高位元組為A1-F9,低位元組為40-7E、A1-FE)。共編入13,973個字符,包括常用國字5,401個(A440- C67E)、次常用國字7,693個(C940-F9D5)及符號471個(A140-A3FE)、字符408個(C6A1-C8FE)。
  2. 第二標準字集:此區即擴編部份,字碼區間8180-FEA0(高位元組為81-F9,低位元組為80-A0),共編入中文字4,158個。
  3. CMEX推薦字集:因BIG-5碼系統之編碼位置有限,未能編入第一及第二標準字集之較常用罕用及異體國字、簡體字與日韓漢字3,454個,經中推會 (CMEX)建議集中收編於此區。字碼區間為原造字區之8140-83FE、8E40-A0FE(高位元組為81-83、8E-A0,低位元組為 40-7E、A1-FE)。
  4. 造字區:僅使用第一、二標準字集時,可供使用者造字碼位仍為5,809個;但同時使用推薦字集時,因BIG5+碼之推薦字集係使用原造字區之 8140-83FE及8E40-A0FE,供使用者造字之碼位僅餘2,355個,可編碼區間為FA40-FEFE(785個碼位)、 8440-8DFE(1,570個碼位)。
BIG-5E之編碼區間
  1. 8E40 - 8E42:納編CNS11643第1字面的3個部首(原倚天定義之C6C2、C6C5、C6C6)。
  2. 8E43 - A0FE:納編CNS1643第3字面的2,980個中文字。
  3. 8140 - 86DF:納編CNS11643第3字面的911個中文字。
  4. 86E0 - 875B:納編CNS11643第4字面的59個中文字。
  5. 875C - 875C:國字零(O)。
  6. 875D - 87EE:保留碼位128個。
CNS11643 中文全字庫