中国互联网络信息中心
 当前位置:首页 > 关于CNNIC > CNNIC通讯 > CNNIC通讯第十二期 > 正文
中国互联网络信息资源数量调查报告

调查方案

3.1调查背景及目的

    为了加速我国互联网络信息资源的建设、利用和发展,建立互联网络信息资源指标体系, 以便政府把握、引导信息资源的建设,指导企业有目标地、健康有序地开发信息资源;为了充分利用信息资源,建立动态更新的全国互联网络重大信息资源数据库, 逐步实现国家信息资源自动登记备案制度和信息资源服务用户评价机制,信息产业部信息化推进司(国家信息化推进工作办公室)决定开展中国互联网络信息资源调查。

    鉴于此项目是在中国乃至世界上首次开展,具有开创性和探索性,遵照信息产业部的指示,应首先解决有无问题,并确保方案的科学性和可操作性。

    为此,项目组建议采用分阶段开展这一项目,第一阶段的目标是了解和反映中国互联网络的信息资源总量分布状况,把握中国互联网络信息资源的总体状况。

第一阶段的预期成果包括:

发布中国互联网络信息资源数量状况报告 
形成中国互联网络信息资源系列数据库 
网站数据库
网页数据库
抽样调查原始数据库
在线数据库目录库

    根据项目的进展,在第一阶段成果的基础上,再研究中国互联网络信息资源的质量问题,定期调查跟踪互联网信息资源的变化状况,逐步确立中国互联网络信息资源指标体系,建立动态更新的全国互联网络信息资源数据库, 着手准备建立国家信息资源自动登记备案制度和信息资源服务用户评价机制。

    本方案主要说明 该项目第一阶段的主要调查内容, 调查方法, 时间安排和费用预算等。

    专家评审会关于抽样方法、行业分类、调查指标体系、地域分布等问题提出了很多修改补充意见,我们将在调查实施过程中在组织有关的专家进行专门讨论,确定后报信息产业部批准。


3.2中国互联网络信息资源的定义

    在本次调查中,中国互联网络信息资源定义为:中国互联网络上公开发布的网页和在线数据库的总和。

    上述定义中的"中国互联网络"是指所有网站注册单位属于中国大陆的网站总和。在线数据库是指以Web为界面,提供公共检索的收费或免费的数据库。

    考虑到抽样调查实施的操作性,本次调查暂时不包括香港、澳门及台湾的网络信息资源状况及海外中文网络信息资源状况。

3.3中国互联网络信息资源核心数据
本着"由易到难,先解决有无问题"的原则,项目组建议在本次调查中首先测量以下中国互联网络信息资源的核心数据,为以后建立中国互联网络信息资源指标体系奠定基础。

图1:中国互联网络信息资源核心数据

表1:中国互联网络信息资源核心数据

调查内容 调查指标 备注 数据来源
域名总量 域名总量   注册商上报数据
各地区域名分布状况 按照省级行政区划进行地区分布分析
网站总量 网站总量   总量采用上报与计算机搜索获得
各地区网站分布状况 按照省级行政区划进行地区分布分析
各种性质的网站分布状况 按网站的域名特征进行分类
网页总量 网页总量   采用计算机搜索获得
网页的各种内容形式分类数 包括图像、音频和视频
网页长度 以字节数计算
网页的更新周期  
网页编码状况 包括简体中文、繁体中文、英文和其他形式
在线数据库总量 各地区在线数据库/记录分布状况   数据通过问卷调查获得
各种内容在线数据库/记录分布状况  
在线数据库更新状况  
在线数据库的收费情况  
 

说明:

1. 以上数据着重从信息资源的数量角度较全面反映中国互联网络信息资源分布状况;
2. 各地区的域名和网站数量考虑通过域名注册代理商上报数据得到。
3. 核心数据的具体测算方式见"调查执行方案"

3.4调查执行方案

3.4.1调查对象

    所有网站注册单位属于中国大陆的网站总和,包括.COM, .NET, .ORG和.CN域名(包括ORG.CN,GOV.CN, EDU.CN等)下的所有网站。

3.4.2调查方式

    项目组建议结合采用以下方式对中国互联网络信息资源进行调查:

1. 计算机自动搜索

    通过计算机搜索获得的具体内容包括:

(1) 网站数量
(2) 域名数量
(3) 网页总量
(4) 网页的各种内容形式分类数
(5) 网页长度
(6) 网页的更新周期
(7) 网页编码状况

2. 问卷调查

    为深入了解中国互联网络信息资源的状况,项目组建议采用问卷调查的 方式, 首先对所有网站进行随机抽样调查,以获得以下信息:

各行业信息资源状况
在线数据库状况(数量/记录数/更新情况)
信息资源利用情况
网站背景情况

A, 抽样:制定科学的抽样方案对于保证调查结果的代表性,控制抽样误差至关重要,项目组建议的详细抽样方案参见附件1, 预计总样本量为6000左右,置信度为5%时,抽样误差控制在2%。

B, 调查方式:采用访问人员电话联系,将问卷传真或Email给受访单位,受访单位填完问卷后,再将问卷传真回来;

C,问卷设计:问卷在数据收集过程中起着非常重要的作用,不恰当的问卷设计将导致不完全的信息和不准确的数据,甚至导致受访者拒绝接受访问。在问卷设计时,我们将遵循以下原则:

(1)尽量采用封闭式选择题:选择题可以确保受访者对问题有正确的理解,避免对问题产生二义性,并能得到一致的答案;
(2)对不同类型的网站调查不同的问题,确保问题与受访单位相关;
(3)合理安排问题的顺序:问卷的第一部分是一般性问题,这些问题较容易回答,以这些问题开始,容易取得受访者的合作,然后是需要受访者思考和回忆的问题,敏感性问题则放在问卷的最后部分。
(4)尽量避免敏感性问题:如网站的访问量是一个较敏感的问题,我们将采用一些相对值,如问"你们网站新闻频道的访问量占总访问量的比重是多少?"而不问"你们网站新闻频道每天的访问量是多少?"
(5)在正式调查前,对问卷进行试访:为了保证问卷的用词准确,结构合理,我们将首先选择5-10家网站进行试访,发现问题,及时修正。

问卷样本参见附件2

D, 调查过程控制:为保证调查结果的真实性和可靠性,必须对调查过程进行严格的控制,以最大限度减少人为因素导致的误差。项目组建议采用以下方式对调查过程进行控制:

(1)采用以下措施获取受访单位的配合,以减少"不回答(Non Response)"带来的误差。

为了确保受访单位配合此次调查,请信息产业部给受访单位发文,说明此次调查的意义 
承诺给受访单位提供调查报告
访问人员对于一定时间内没有反馈的问卷,电话联系至多三次,取得受访单位的合作 
对于最终拒绝配合的样本,以相似特征的样本补充。

(2)采用以下措施以确保信息的真实性
要求网站负责人或授权人填写问卷;
要求受访单位在反馈问卷信息时,应在问卷上加盖公章或网站负责人签字;
问卷完成后,对所有问卷组织专门人员进行审核,检查问卷回答的一致性和准确性(将计算机搜索得到的信息与受访单位提供的信息进行核实),任何虚假和错误的回答都会通过电话回访进行纠正;如受访单位不愿提供真实信息,将该单位剔除,以相似特征的样本替代;
对被调查网站提供的关键数据,与计算机搜索的结果进行比较; 
为避免问卷录入过程产生人为误差,采用双录入方式(一份问卷由不同的录入人员分别录入一次)。

3.5调查实施

3.5.1实施单位

    此次调查主要由中国互联网络信息中心、中国电子信息产业发展研究院赛迪数据公司、国家信息资源管理南京研究基地三家单位组成工作组,毛伟任组长,王仪、黄奇任副组长,共同完成此项调查。

3.5.2协助单位

(以下单位排名不分先后)
百度在线网络技术(北京)有限公司
创联万网国际信息技术(北京)有限公司
北京信诺立兴业网络通信技术有限公司
北京东方网景信息科技有限公司
信海科技发展有限公司
东方通信股份有限公司
厦门精通科技实业有限公司
吉通网络通信股份有限公司

3.5.3质量控制

为了保证调查的准确性,对调查过程中的实施过程要严格控制具体办法 如下:

1.对于抽样和搜索
将由CNNIC专人负责实施中的实时监督以及返回数据的核实;

2.问卷调查:

调查过程中配备专职督导、编码、审卷人员,尽量避免人为错误的产生。
问卷回收后,抽取一些问卷进行回访,以便发现问题并及时更正。

3.6报告形式和内容

3.6.1报告形式

根据报告内容不同分为:总体报告和分报告

1. 上报信息产业部的总体报告,同时向社会公开此报告。
2. 做一些小的份报告,作为对赞助商及合作单位的回报提供给他们,并用于自己的分析报告使用。

3.6.2报告的内容
1. 计算机搜索:(对6000个网站而言)
(1) 总网页数
(2) 每个网站的总网页数
(3) 总网页长度,即字节数
(4) 每个网站下的总网页长度,即字节数
(5) 页面的编码类型(简体/繁体/英文/其他)
(6) 网页的内容形式(文本/图像/音频/视频)
(7) 网页的最后更新日期

2. 域名及网站数据:
(1) 中国域名总数
(2) 分地区域名总数
(3) 域名类型分类数
(4) 中国网站总数
(5) 分地区网站总数
(6) 网站类型分类数,包括:gov.cn;com;com.cn;edu;org;org.cn;net;net.cn;ac.cn;行政区域.cn



3. 问卷调查:
(1) 网站类型
(2) 网站所属行业
(3) 网站服务
(4) 网站规模
(5) 网站信息服务的内容主要类型
(6) 网站信息内容所占比例
(7) 网站内容更新频度
(8) 数据库规模
(9) 数据库功能
(10) 数据库技术
(11) 数据库的服务性质(收费、免费)

3.7费用预算

项目 费用
宣传费用 150,000元
研讨会费用 20,000元
计算机搜索费用 60,000元
问卷设计 10,000元
抽样调查 150,000元
数据处理 20,000元
报告撰写 30,000元
总计 440,000元


3.8项目进度

该项目历时三个半月时间,具体的进度如下:

  3月 2001年4月 2001年5月 2001年6月
  3 4 1 2 3 4 1 2 3 4 1 2 3 4
项目方案确认

C

                         
计算机搜索技术招标                            
计算机搜索                            
问卷设计                            
问卷试访及最终定稿                            
抽样                            
抽样调查实施                            
报告撰写 &                            

 





ICP备案编号:京ICP备010225号 版权所有:中国互联网络信息中心