全字庫 中文標準交換碼

壹、編訂緣起
民國六十八年,因美國急需使用電腦處理東亞語文資料,故在加州史坦佛大學召開了一個籌劃東亞圖書館自動化的會議,希望訂定中文交換碼標準作為自動化之根據。 我國那時尚無合適可用的碼,只有日本代表提出他們的國家標準JIS C6226;因此,美方在沒有其他標準的情況下,就有採用日本標準的想法。由於日本漢字的數目和字型和中文的相差甚多,實在不足以代表中國文字,並且此舉 也深遠影響到我中華文化在電腦時代的生存問題,所以我國代表和華裔美國東亞圖書館代表都強力反對。經激烈辯論後,暫時否定了日本與美方之提案,同時我方代 表亦承諾次年三月亞洲研究學會年會中,提出我們編訂的中文訊交換碼,俾與日本字碼作一比較。 我方代表返國之後,上書政務委員李國鼎及國科會、中美會等單位,集合國內一批文字學家、圖書館學家及電腦學者,組成「國字整理小組」,立即開始整理我國文 字,並解決電腦處理中文資訊遇到的技術問題。「國字整理小組」由謝清俊教授主持,張仲陶教授襄輔;其他參與工作者有王振鵠、張鼎鍾、周駿富、潘重規、周 何、楊建樵、黃克東等教授。 我國於次屆亞洲學會年會上,提出共4,808字之「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。「國字整理小組」於七十 年完成第二批,包括17,032個正體字、11,517個異體字(詳七十一年出版之第二冊二版,七十四年出版之第二冊三版);七十六年再發表第三批,包括 20,583正體字。前後二次除擴編53,940個字碼外,並完成64×64,32×32機讀字型;此外,為了方便電腦上的文字處理,又編製了「中國文字 資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼。
貳、編碼原則
收容的字須經文字學者認定。
依部首、筆畫序編碼。
將中文的正異體字關係用碼的位置表示出來:譬如大陸用的簡體字,「中文資訊交換碼」認為是一種異體字,簡體字的字碼比正體字字碼在第一位元組碼值多 6,而其餘第二、三位元組的碼值完全相同。其他的異體字也和正體字有位置關係,即異體字第一位元組碼值比正體字的第一位元組碼值多6的倍數。這是因為正體 字佔6字面(一字面有94×94 碼位),而異體字則放在以後的各字面,並要和它對應的正體字有上述的位置關係。
參、字碼架構
「中文資訊交換碼」是一個比較特殊的中文碼,它用三個位元組(byte)表達一個中文字,每個位元組只用94個碼位,因此它共有830,534個編碼空間。
肆、應用現況
國內外圖書館使用。
CNS11643 中文全字庫