前言
国家主席江泽民同志在1991年指出:"四个现代化,哪一化也离不开信息化"。2000年4月,国家信息化推进工作办公室联合联合国开发计划署、中科院、上海市政府共同召开了"亚太地区信息化高级论坛",信息化在国际性文件中首次得到了正式认可。党的十五届五中全会指出:信息化是当今世界经济和社会发展的大趋势,也是我国产业优化升级和实现工业化、现代化的关键环节。党和国家对信息化的重视已达到了空前的高度、深度、广度和力度。
在信息化的六个要素即信息技术应用、信息资源、信息网络、信息技术产业、信息化人才、信息化政策法规和标准规范中,信息资源处于核心位置,这是因为信息资源有着可共享、可再生、可有效减少对环境和资源的破坏等特点,它是人类赖以生存的能源、物质资源的升华和提炼,对我们充分开发和有效利用能源、物质资源具有指导意义。可以预见,在信息社会中信息资源将比以往任何资源发挥更大的作用,因此信息化的核心和首要任务就是深入开发、广泛利用信息资源。
随着互联网络的飞速发展,我国的互联网络信息资源也得到了很大的发展,为了深入、广泛的开发利用我国的互联网络信息资源,首先需要对我国的互联网络信息资源有一个全面、深入的了解和掌握。为此,国家信息化推进工作办公室决定开展中国互联网络信息资源数量调查,以在掌握全国互联网络信息资源状况的基础之上,为进一步做好指导、协调信息资源的开发利用工作, 加快制定有关信息资源的发展政策与措施等方面提供重要的参考依据。
为了确保本调查的科学性和可操作性,国家信息化推进工作办公室先后三次组织网络界、调查界、信息经济学界众多专家对调查指标体系、调查方案、测算公式、调查报告内容等各个方面进行了深入的研讨,并于2001年2月28日发函(国信办函[2001]4号)委托由中国互联网络信息中心(CNNIC)、中国电子信息产业发展研究院赛迪数据公司(CCID)和国家信息资源管理南京研究基地(NACIRMN)三家单位组成调查组,由CNNIC整体负责,实施本次调查。
本调查于2001年3月开始,6月份结束。由于时间紧、调查对象特征复杂,调查报告中可能存在不足甚至错误的地方,请各位领导、专家批评指正。
中国互联网络信息资源数量调查组
报告说明
1.1调查内容
调查内容及说明如下:
| 调查内容 |
调查指标 |
备注 |
数据来源 |
| 域名总量 |
域名总量 |
按照省级行政区划进行地区分布分析 |
注册商上报数据 |
| 各地区域名分布状况 |
|
| 网站总量 |
网站总量 |
|
总量采用上报与计算机搜索获得 |
| 各地区网站分布状况 |
按照省级行政区划进行地区分布分析 |
| 各种性质的网站分布状况 |
按网站的域名特征进行分类 |
| 网页总量 |
网页总量 |
|
采用计算机搜索获得 |
| 网页的各种内容形式分类数 |
包括图像、音频和视频 |
| 网页长度 |
以字节数计算 |
| 网页的更新周期 |
|
| 网页编码状况 |
包括简体中文、繁体中文、英文和其他形式 |
| 在线数据库总量 |
各地区在线数据库/记录分布状况 |
|
数据通过问卷调查获得 |
| 各种内容在线数据库/记录分布状况 |
|
| 在线数据库更新状况 |
|
| 在线数据库的收费情况 |
|
1.2调查时间
本次调查从2001年3月开始,历时3个月。
1.3调查方法
(一) 调查对象
考虑到此次调查的时间短和难度大的特点,本次调查暂不包括港澳台地区的网站。因此,调查对象定为中国大陆地区的CN和通用顶级域名(即:COM、COM.CN、NET、NET.CN、ORG、ORG.CN、GOV.CN、EDU.CN、AC.CN、行政区域.CN等)下的域名对应的网站。
(二) 调查方法
考虑到调查的科学性和可行性,此次调查主要采用抽样调查的方法进行。
1. 抽样框:要求抽样框包含目前国内所有大小类型的网站,整个抽样框由国内各家域名注册代理商所注册的通用顶级域名(gTLD)网站和CN域名下的网站合并而成。
2. 样本量:在置信度为95%的精度要求下,取样本量为2401家网站,可保证最大允许绝对误差小于2%。,考虑到设计效应,实际样本量为6000家网站。
3. 抽样方法:由各家域名注册代理商首先在域名中挑出有网站的域名列表,按照省、市对这些网站进行排序,然后在各省、市下再按网站域名性质排序,进而在网站域名类型下按网站所属单位性质排序,最后按照三次排序后的顺序依次对网站进行编号。根据各注册代理商拥有的网站数占全国网站总数的比例,由CNNIC统一分配每家注册代理商所需抽取的样本数,再由各注册代理商按照上面排序后的编号进行等距抽取。《抽样方案》参见附件1。
(三) 具体实施
在此次调查过程中,国际通用顶级域名(gTLD)总数和这些域名的网站总数及其地区分布由国内各域名注册商上报得到;从CNNIC的域名总库中拿到所有CN域名的列表,搜索得到所有CN域名下的网站数。将这两部分数据分别相加即得到我国的域名与网站的总量数据。网页特征数据主要在抽取的有网站的域名列表中,在每个域名的前面加上"www.",然后由百度公司利用其基于互联网的网站搜索和网页级搜索技术,对抽取的网站进行了搜索,并通过URL判断同一网页是否有多个链接指向,避免了对这类网页的重复计算,通过判断不同网站的IP地址和首页字节数是否相同,排除了不同域名指向同一网站的情况。在对所有抽取的网站搜索结束后,根据抽样方案,将数据整理、汇总后,算得全国平均每个网站的网页数和网页长度,再分别乘以全国的网站总数和总网页数,即得到全国的总网页数和网页长度。
对在线数据库、网页浏览量以及网站的基本情况如网站类型、服务器数量等通过问卷采用电话调查的方式获得。问卷调查按域名管理联系人的电话共拨打14318个电话,最终获得合格样本2500个。《调查问卷》参见附件2。
(四)总量计算方法
1.域名总数 = 通用顶级域名数(gTLD)+CN域名
2.网站总数 = 通用顶级域名数(gTLD)下的网站+CN域名下的网站
3.网页总数 = 平均每个网站网页数*全国网站数
4.网页总长度 = 平均每个网页长度*网页总数
5.在线数据库总量 =(根据计算机搜索得到的网站总量*抽样网站在线数据库总数)/ 抽样网站总数
1.4调查组织单位
(一) 主持单位
国家信息化推进工作办公室
(二) 实施单位
中国互联网络信息中心
中国电子信息产业发展研究院赛迪数据公司
国家信息资源管理南京研究基地
(三) 支持单位
在本次调查的数据收集过程中,得到了以下单位的大力协助,特此表示感谢(单位排名不分先后):
百度在线网络技术(北京)有限公司
创联万网国际信息技术(北京)有限公司
北京信诺立兴业网络通信技术有限公司
北京东方网景信息科技有限公司
信海科技发展有限公司
东方通信股份有限公司
厦门精通科技实业有限公司
吉通网络通信股份有限公司
|