中国互联网络信息中心
 当前位置:首页 > 关于CNNIC > CNNIC通讯 > CNNIC通讯第十三期 > 正文

中文域名中实现汉字繁简转换的重要性

CNNIC注册服务部 邓翔

一. 背景介绍

    近二十年来,国际互联网技术体系经历了IP地址映射、主机表、ASCII域名系统的发展过程,使互联网的规模在全球成级数地扩张,各种基于互联网技术的产品、应用、服务层出不穷、广泛应用。它已经成为全球社会、经济、生活的重要基础服务平台。

    由于互联网的广泛普及,人们不再简单地满足于英文字母和数字基础上的域名系统,开始思考建立一个在全世界各民族语言文字基础上的互联网基础框架体系 - 多语种域名体系。亚洲的一些研究机构在此技术上进行了大量的前期研究,并于2000年初倡议互联网工程委员会IETF成立IDN工作组,开始对多语种域名技术进行专项研究。

    从互联网社会提出多语种域名概念开始,中国互联网络信息中心(CNNIC)就活跃于多语种域名的相关技术领域和国际组织中。1999年我国有关主管部门委托CNNIC开展中文域名系统的研究开发工作。2000年1月18日,CNNIC推出了中文域名注册试验系统,得到了我国互联网用户的广泛认可。

    CNNIC不但积极参与IETF多语种域名工作组的技术工作,而且对多语种域名相关的管理政策也开展了的研究工作。我国在互联网社会中提出的多语种域名的管理与服务应当充分尊重该语言使用地区的政治、文化、法律环境的主张,得到了国际社会的广泛认可。2001年,CNNIC工作委员会主任委员、中国互联网协会理事长胡启恒院士被国际社会推选为互联网域名与地址分配机构ICANN下属的多语种域名委员会委员,加强了中国在国际互联网社会上的影响力。

    在各方面技术人员的参与下,经过两年多的艰苦工作,IETF多语种域名工作组终于在2002年3月完成了多语种域名技术方案草案。该方案定义了多语种域名的体系框架,建议在不改变ASCII域名系统的前提下,采用ACE(ASCII Compatible encoding)编码的方式,将多语种域名转换成为ASCII域名,储存在传统的域名数据库中。

    其基本处理过程是:用户操作系统中的客户端应用软件,使用ACE编码算法Punycode,将用户输入的多语种域名字符串转换成ASCII域名(由"0-9"、"a-z"以及"-"表示),最后由ASCII域名解析技术实现网络资源定位功能。

    这一方案基本解决了多语种域名的全球互通问题。可以说,多语种域名国际标准制定工作取得了实质性的进展。

二.中文域名面临的挑战

    对全球非英语国家和地区的互联网用户来说,多语种域名国际标准的即将出台是件值得高兴的事情。但同时我们也应看到,中文语言环境下,这个方案引发了严重的问题 - 中文域名的汉字繁简体问题。

1. 问题的起因

    该技术方案采用Unicode组织制定的全球统一编码标准 - Unicode编码。Unicode组织制定Unicode编码的初衷是为字符印刷、字符显示服务的,因此在定义汉字编码时,以汉字字形为基础,如果一个汉字有多个不同字形,就被赋予不同的编码值。

    由于汉字的历史发展原因,同一个汉字有繁简字、异体字、古今字、通假字等等不同的变体,它们分别有不同的Unicode编码值。把这个编码标准应用到中文域名中,就使一个中文域名对应成许多变体的中文域名Unicode字符串,这种变体的数量随着中文域名中汉字数的增加成几何级数增长。例如,用户如果要注册"清华大学"这个中文域名,由于"清"、华、学"字都有繁体字"淸、華、學",这样一来,就不得不注册 8个繁简体中文域名(清华大学、清华大學、清華大学、清華大學、淸华大学、淸华大學、淸華大学、淸華大學)。

    将Unicode编码应用于多语种域名技术中,如何在中文域名系统中保证上述8个中文域名解析的一致性?这对于中文域名体系结构而言是至关重要的。

2. 问题规模

1) 中文互联网 (大陆、台湾、香港、澳门)实际上被分割成繁、简两个无法互通的部分。

    由于大陆主要使用简体汉字,港澳台地区主要使用繁体汉字,1997香港回归后,港澳地区呈现繁简汉字混杂使用局面。在目前多语种域名的技术框架下,同一个中文域名的繁体形式与简体形式是不同的中文域名,没有从技术上保证两者能够被一致地正确解析,其结果是:不懂繁体汉字的人无法访问港澳台的中文域名网络地址,不懂简体汉字的人无法访问大陆的中文域名网址,更糟糕的是:台湾地区目前的汉字规范中根本没有简体汉字;

2) 由于汉字的字形对应关系,在中文域名层次结构的每一个层面上,中文域名体系结构将被平展开来,使中文域名的树状层次结构变得"肥胖"。

    一些严格依赖中文域名系统树状层次结构的未来网络应用将无法实现,例如:类似于ENUM的建立在中文域名基础上的未来网络技术。以"图书室.清华.中国"为例(见图一);

3) 由于汉字存在繁简字、异体字、古今字等文字对应关系,如果不从技术上加以规范,中文域名就具有不唯一性,使中文域名本身的应用价值和应用范围变得有限。

例如:"清华图书",它存在"淸清"、"華华"、"圖图"、"書书"的对应关系。这个中文域名将有16个不同组合变体;

4) 中文域名分级授权问题。

    以图一为例,由于中文域名存在多种组合变体,域名的第二级"清华"有4个变体,第三级"图书室"有4个变体,这样为了使用户无论输入繁体,还是简体的中文域名都能访问到唯一的网络地址,就必须为"图书室.清华.中国"配置16个逻辑上一致的服务器,这在理论上可以实现,但由于组合的存在,在实际应用中是不可行的;

5) 中文域名解析问题。

    依据上例,虽然理论上可以配置16个逻辑上一致的服务器,但在实际应用中,由于没有技术协议和管理策略的保障,这16个逻辑服务器无法保持一致,甚至系统管理员根本就没有配置16个逻辑服务器,这样的结果是:同一个中文域名的繁体形式与简体形式无法一致性正确解析;

6) 中、日、韩在使用汉字域名时,相互之间存在汉字域名空间的交叉,从而不可避免存在相互冲突问题;

7) 中文域名消费者权益保护问题。

    由于同一个中文域名存在各种组合变体,用户在注册一个中文域名时,为了保护自己域名的知识产权,必须注册所有组合变体,由于没有技术和管理策略上的保障,用户可能面临国内或国际性中文域名争议问题。如果用户的域名包含10个汉字,每个汉字只有2个变体,那么该用户必须为该中文域名注册1024个变体,这对中文用户而言是一个沉重的负担;

8) 在目前的国际化域名草案中,没有解决中文域名繁简体组合变体问题,如果该草案成为正式协议,注册机构开始提供汉字域名的注册工作,它对中文域名体系结构的损害是不可恢复的,这是一个负面的不可逆的过程。


三.我们的工作

    由于IETF多语种域名工作组已于今年3月11日将多语种域名技术方案正式提交给IETF高层决策机构讨论。按照IETF的工作流程,如果进展顺利的话,预计IETF将正式发布多语种域名国际协议。由于中文域名市场的前景十分诱人,相关国内、外软件厂商早已经瞄准这个市场,只是碍于技术标准没有出台。因此,尽快解决汉字繁简异体字等效的问题已经成为一件非常迫切的工作。

    为维护广大中文互联网用户的利益,在信息产业部领导下,CNNIC正在组织我国语言文字专家、网络技术专家开展有关汉字繁简异体字等效的技术方案的研究和制定工作,以弥补多语种域名国际标准的不足。解决这一问题的基本思路是在多语种域名国际标准体系之上,建立与多语种域名标准兼容的中文域名技术规范。即:在多语种域名标准之上添加一个"繁简体中文域名处理"模块,来解决汉字域名繁简体等效问题。同时,CNNIC积极同我国港澳台地区、韩国以及日本的互联网络中心协作,希望通过合作,共同解决韩文域名、日文域名中使用汉字时的繁简问题。

    可以说,中文域名以及多语种域名技术标准制定过程,经过两年多的发展,目前已经处于一个呼之欲出的阶段。中文互联网社会期代着中文域名技术规范和管理政策的出台,以期推动整个中文域名互联网体系的发展。






ICP备案编号:京ICP备010225号 版权所有:中国互联网络信息中心