全字庫 中文標準交換碼

壹、編訂緣起
民國69年9月行政院國家科學委員會集合國內編碼專家、學者在溪頭開會,達成初步原則,並據此報請行政院核定國家中文資訊標準交換碼編碼原則,翌年9月2日行政院函令國科會依據已選定之原則,邀集教育部、中央標準局及行政院主計處電子處理資料中心組成專案作業小組,積極推動編碼工作。71年7月曾編定常用字碼一種,但所收字數不夠;72年5月9日行政院資訊推動小組再次確立編碼方式,即於5月12日組成編碼技術作業小組,針對已定之編碼原則,進行編碼細則之研討,10月底完成「通用漢字標準交換碼」,並決議試用二年。試用期滿後,國科會與院主計處於74年8月邀集各相關單位與業者組成技術小組,檢討試用結果、修訂編碼原則後重編,75年3月獲行政院核定,正式公布實施。75年8月獲中央標準局審定頒布為國家標準,編號「CNS11643」;81年該局再因應各界之需要,由原2個字面 (13,051字) 大幅擴編為7個字面(48,027字),5月公布並更名為「中文標準交換碼 (Chinese Standard Interchange Code)」。
貳、適用範圍:
本標準適用於中文資訊之處理。
參、編碼之考慮
一、 以教育部所公布的四個字體表之字集為範圍。
二、 根據使用的頻率及範圍,整理後分別編排於各個字面,以適應各個層次之使用者。
三、 符合國際資訊傳輸上所使用之CNS 5205「資訊處理及交換用七數元碼字元集(組)」及CNS 7654「資訊處理--七位元及八位元碼字元集--延碼技術」標準通信定則。
四、 涵蓋常用之外語字母及工商界與學校所使用之文字及符號。
肆、字集編排原則
一、 「中文標準交換碼」共分為十六個字面,每個字面可陳列94列 *94行,即8,836個字符。第一至第十一字面為標準區,第十二至第十六字面則為使用者加字區,供使用者暫編未收於標準區之字符。
二、 各字面字集之排列,大抵以使用頻率為次序。第一字面以常用字為主,第二字面以次常用字為主,第三字面以部分罕用字及較常用異體字為主,第四字面以ISO DIS 10646第二版之漢字、各單位╱資訊業用字及戶政用字為主,第五字面以罕用字為主,第六、七字面以異體字為主;其中第一、第二字面字集先於75年8月4日公布為國家標準。
伍、字碼編排原則
一、 文字之選擇及字體悉依教育部「國字標準字體表」為基準。 說明: 中國文字的困擾主要有兩方面,一是文字的數量太多,二是異體字的增加。目前中文的總數繁多,實際上一般人常用的不過五千字左右,新字又不斷的增加,造成中文資料處理上的困擾;而教育部的標準字體表之字集係經多年之蒐集、考證、分析、選取,為較不偏頗,最具客觀性之用字字集,應能符合一般使用者之需求。
二、 以2個位元組 (byte)為中文碼編碼單位,並以十六進位制之文數字表示 說明: 「以2個位元組為字碼單位,於處理時可提高效率,且傳輸時可增加資訊傳輸之速度」,符合一般資料處理作業之需要。採用十六進位制之文數字編碼,係因應資料處理人員所慣用之進位法,用以表示兩位元組最為簡明。
三、 符合CNS 5205及CNS 7654之通信定則。 說明: 本編碼為符合CNS5205及CNS7654通信定則之規定,所有控制碼均予避開,即字碼中之00至20以及7F均予避開,則7bit字碼集共有94個編碼位置,兩個位元組共可編8,836個字碼,訂為一字面。
四、 依字之使用頻率編排於各字面。 說明: 在做資訊傳輸時,若欲傳送出現在不同字面上的字,必須先送出轉字面控制碼。為提高傳輸效率,將常一起出現的字編在同一字面中,可減低字面轉換的次數。
五、 依先筆畫後部首排列順序編碼。 說明: 每一字面均以文字總筆畫數為首序、部首為次序、筆順為末序編訂字碼,使用者只需以書寫之實際筆畫數即可查尋到國標碼。
陸、字集說明
一、 標準區 第一字面:為減少字面轉換次數,將最常用之中文字及符號、字母、部首等編於第一字面;所編字彙及碼區如下: 1. 符號區 符號區之編碼位置規劃於第一字面之2121至427E,共有3,102個編碼位置,目前暫編符號684個如下: (1) 間隔符號1個。 (2) 標點符號28個。 (3) 括號及製表符號89個。 (4) 一般符號34個。 (5) 學術符號51個。 (6) 單位符號31個。 (7) 數字符號42個,有阿拉伯數字10個、羅馬數字大小寫共20個、中國數字12個 (8) 外文字母100個,包括大寫英文字母、小寫英文字母各26個、大寫希臘字母、小寫希臘字母各24個。 (9) 國語注音符號42個。 (10)數字序列符號20個。 (11)中文部首213個。 (12)控制碼符號33個。 2. 中文字區 第一字面: 字碼區間4421至7D4B,共編入中文字5,401個;字集來源除教育部「常用國字標準字體表」所列4,808字外,並優先收編國中、國小教科書中常用字587字及異體字6字。 第二字面: 字碼區間由2121至7244,故編入中文字7,650個;字集來源除教育部「次常用國字標準字體表」所列6,330字外,並篩選編入教育部「罕用國字標準字體表」表中使用頻率較高之1,320字。 第三字面: 字碼區間2121至6246,共編入中文字6,148個;字集來源為77年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面前段。 第四字面: 字碼區間2121至6E5C,共編入中文字7,298個;字集來源除77年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面後段171字外,並加入戶役政及其他使用單位、ISO 10646第2版漢字集、資訊業次常用字7,127字。 第五字面: 字碼區間2121至7C51,目前編入中文字8,603個字;字集來源為未編入前4個字面之教育部罕用字。 第六字面: 字碼區間2121至647A,共編入中文字6,388個;字集來源為未編入前5個字面,且筆畫在14畫(含)以下之教育部異體字。 第七字面: 字碼區間2121至6655,故編入中文字6,539個;字集來源為未編入前6個字面,且筆畫在15畫(含)以上之教育部異體字。
二、 使用者加字區 為適應各種不同性質之中文資料處理作業,CNS11643特別預留第十二字面至十五字碼為使用者加字區;尚未收編於本國家標準之中文字或符號,由使用視需要先編於此區內使用。 CNS11643修訂擴編後,編碼之中文字數達48,027個,已涵蓋教育部所頒訂之常用、次常用、罕用及異體四個「國字標準字體表」所有文字;惟自我國戶役政單位全面實施電腦連線作業後,其建置之全國人民基本資料庫用字,在國家標準之範圍外又增加約三萬餘姓名用字;為使此類字碼得以進行資料傳輸與交換,行政院主計處電子處理資料中心暫編其交換碼於使用者加字區: 第十五字面:字碼區間2121至6D39,共編入中文字6,831個;字集來源為戶役政作業第十五字面。我國戶役政作業使用EUC碼,其編碼原則與 CNS11643相同,為使各界易於瞭解,沿用其字集與字面之定義。惟戶役政第15字面原編7,169個字中,包括2個自重字及336個與國標碼前七字面重複字;為避免一字二碼,重複部份予以刪除;又為避免增加戶役政單位繁複的轉碼過程,重複字刪除後,原編碼位置保留空位不編碼。
柒、CNS11643之使用
一、 字面之指定 由 1B 24 29 [F] 四個位元組之逸出順序碼指定於 G1 字元集、 1B 24 2A [F] 指定於 G2 字元集、 1B 24 2B [F] 指定於 G3 字元集,其中終結字元 [F] 可用 30~3F 來指定相對之一至十六中文字面,另十七至八十字面僅能以 1B 24 2B [I] [F] 指定於 G3字元集,其中[I][F]自 21 30 ~ 21 3F 為十七至三十二字面、22 30 ~ 22 3F 為三十三至四十八字面、23 30 ~ 23 3F 為四十九至六十四字面、24 30 ~ 24 3F 為六十五至八十字面;至於英文之字集(ASCII)則可經由 1B 28 42 指定於G0字面。在7個位元的環境下。 目前 CNS11643 的1~7 字面之終結字元 [F] 已獲國際標準組織 ISO 正式登記為 47 至 4D ,亦可使用於字集之指定。CNS11643 各字面原指定之終結字元與 ISO 之終結字元對應如下:
CNS字面 CNS之終結字元 ISO之終結字元
第一字面 30 47
第二字面 31 48
第三字面 32 49
第四字面 33 4A
第五字面 34 4B
第六字面 35 4C
第七字面 36 4D
二、 字面之轉換 1. 利用SI使用G0字面,並為鎖定方式。 2. 利用SO使用G1字面,並為鎖定方式。 3. 利用LS2使用G2字面,並為鎖定方式。 4. 利用LS3使用G3字面,並為鎖定方式。 5. 利用SS2使用G2字面,並為非鎖定方式。 6. 利用SS3使用G3字面,並為非鎖定方式。 其中 SI、SO、LS2、LS3、SS2、SS3 為調用控制符接逸出順序後以示字面調用;為求使用方便,終端設備在開機時可將G0、G1、G2等三個字集分別設定為ASCII、第一字面及第二字面,將G3字集設定為其他較常用的字面。 *註:關於以上控制碼的詳細使用,請參考CNS 7654 。
捌、CNS11643之推廣應用
CNS11643碼系統依國家標準法之規定,應由經濟部標準檢驗局(由原中央標準局裁撤後標準業務歸併)負責檢討增修,為加強推廣該標準之應用,該局特將此系統及中文字型檔委託行政院主計處電子處理資料中心代為辦理推廣。該中心為維持本系統中文字型檔之完整性,以利此項國家標準之推廣,另再商得內政部及經濟部工業局同意一併對各界提供免費使用其製作之字型檔。CNS11643目前之應用情形如下:
一、 國內之應用 1. CNS11643 已納入「政府機關資訊處理共通規範」中,是大多數國內外資訊廠商共同遵循的中文作業系統參考準則。 2. 政府機關公文電子交換之標準傳遞碼:本院政府機關公文電子傳遞作業已規定,凡經「交換中心」(設於交通部管資中心)傳送之公文,一律先轉換為CNS11643碼。 3. 國內大型資訊系統之應用:最具代表性也是最重要的就是全國戶役政系統。目前戶役政全國連線系統是建構在MITUX系統上,屬於主從模式架構,內碼採用 UNIX系統之EUC碼。EUC碼雖與CNS11643長度不同,但卻採用了CNS11643之編碼架構及字集,因此亦可視為是CNS11643應用於內碼之實例。 4、行政院研考會所推動之BIG-5E字集(BIG-5碼擴編部分),亦以CNS 11643為藍本,共納編CNS第1字面之3個部首字及第3字面之3,891個、第4字面之59個一般文書上常用中文字。 5. 國內外資訊廠商大都已提供其內碼與CNS 11643間的互換公式,以及叫用工具,可協助用戶進行中文資訊的交換。
二、 國外之應用 ISO10646 及UNICODE目前共收編26,783個漢字,其中22,892個係納入CNS 11643第1、2字面及第3字面之6,073字、第4字面之2,975字、第5字面之395字、第6字面之196字、第7字面之133字及第15字面之 86字;我國的國家標準得與國際標準相容,不但能提升國內電腦業者在國際市場的競爭力,將來ISO10646及UNICODE發展成熟後,現用中文碼亦得以順利轉換。
CNS11643 中文全字庫