附件1 抽样方案
一. 抽样框要求
此次调查的对象是网站,抽样框将是网站的列表,因此以全国各家域名代理商所提供的网站目录作为抽样框,该抽样框将涵盖中国互联网上所有类型的大小网站,并能够取得网站的相关信息,如网站名称、网站域名、网站所在地、网站所属单位性质。
(注:抽样框是指能够代表全部调查对象的可从中抽取样本的名录。)
为了保证本次调查的样本代表性和可操作性,要求抽样框包含目前国内所有大小类型的网站,整个抽样框可由各家域名代理商的所注册域名的网站的名录合并而成。各家域名代理商提供的网站名录的具体形式可以参考下表,要求抽样框先按地区,再按网站所属单位性质排序分类(或者按照网站域名特征排序),以便抽取样本。
表:抽样框的结构要求
| 序号 |
网站名称 |
网站域名 |
网站所在地<见注1> |
网站类型<域名类型> |
网站所属单位性质 |
其它指标<见注2> |
| 1 |
新浪网 |
www.sina.com.cn |
北京 |
COM |
互联网站 |
|
| 2 |
搜狐 |
www.sohu.com |
北京 |
COM |
互联网站 |
|
| 3 |
上海热线 |
www.online.sh.cn |
上海 |
COM |
电信公司 |
|
| 4 |
21CN |
www.21cn.com |
广东 |
COM |
电信公司 |
|
注1:网站所在地应该以省/直辖市/自治区的形式出现,而不是粗略地分为各个"大区"。
注2:由于在对网站进行访问时需要联系人和联系方式,且网站在注册域名时被要求提供联系人、电话和E-mail,这正好有助于寻找最终的网站受访者,节省问卷调查的时间和投入,因此,要力争能够取得这部分资料。
二. 抽样操作办法
以下为具体操作流程:
1.项目组计算各家域名代理商应抽取的样本网站数
考虑到参与本次调查域名代理商的信息保密要求,抽样过程将由调查的工作组提供抽样办法,由域名代理商按照抽样办法抽取指定数量的网站作为样本网站。本次调查的抽取样本容量现确定为6000个网站,样本网站将按照各家域名代理商所注册域名的网站占全国网站总数的比例进行分配。具体计算办法如下:
其中: 表示第 家域名代理商所应抽取的网站数, 表示第 家域名代理商所注册域名的网站的总数。由于调查过程中需要替换、补充样本,因此从各家域名代理商将多于最终进行调查的网站数。
2.项目组委托各家域名代理商抽取网站样本
各家域名代理商在提供了具有要求信息的网站名录(抽样框)的前提下,可按照以下步骤抽取样本:
步骤1:
先排序:由域名代理商对其抽样框(所注册域名的网站名录及相关要求信息)首先按照"省市区"进行排序,然后在各省市区下再按网站域名类型排序,进而在网站域名类型下按网站所属单位性质排序。<排序的次序参考下表>
注:这实际上是一个多关键字排序,第一关键字为"省市区",第二关键字为"网站域名类型",第三关键字为"网站所属单位性质",如果没有"网站所属单位性质"则考虑按照网站建立时间进行排序。
后编号:最后按照三次排序后的顺序依次对网站进行编号。
省市区排序的先后次序规定如下:
| 序号 |
省市区 |
序号 |
省市区 |
序号 |
省市区 |
序号 |
省市区 |
| 1 |
北京 |
9 |
上海 |
17 |
湖北 |
25 |
云南 |
| 2 |
天津 |
10 |
江苏 |
18 |
湖南 |
26 |
西藏 |
| 3 |
河北 |
11 |
浙江 |
19 |
广东 |
27 |
陕西 |
| 4 |
山西 |
12 |
安徽 |
20 |
广西 |
28 |
甘肃 |
| 5 |
内蒙古 |
13 |
福建 |
21 |
海南 |
29 |
青海 |
| 6 |
辽宁 |
14 |
江西 |
22 |
重庆 |
30 |
宁夏 |
| 7 |
吉林 |
15 |
山东 |
23 |
四川 |
31 |
新疆 |
| 8 |
黑龙江 |
16 |
河南 |
24 |
贵州 |
|
|
注:本次调查暂不包括香港、澳门、台湾。
网站域名类型排序次序规定如下:
| 序 号 |
1 |
2 |
3 |
4 |
5 |
| 域名类型 |
ac.cn |
com.cn |
edu.cn |
gov.cn |
net.cn |
| 序 号 |
6 |
7 |
8 |
9 |
10 |
| 域名类型 |
org.cn |
行政区域名.cn |
com |
net |
org |
步骤2:
随机从1到 中随机选出一个数S,那么编号为 的网站即为被抽取的样本网站。
注: 表示第 家域名代理商所应抽取的网站数, 表示第 家域名代理商所注册域名的网站的总数。
步骤3:
将以上步骤所抽取的样本网站及其相关信息(包括:网站名称、网站域名、网站所在地、网站域名类型、网站所属单位性质、网站联系人、联系电话、E-mail)存为Excel工作表文件。并作适当的统计检查,以验证样本的地区构成、域名类型构成与代理商提供的抽样框中的构成是否相同。
3.项目组将所有代理商提供的样本合并成为分层抽样的样本。
4.补充大中型网站的样本
由于网站在信息量上存在巨大的差别,大型网站所占比例很低(估计<1%),因此,为了更加全面反映互联网络信息资源数量状况,有必要补充一定数量大中型网站样本进行重点调查,提高对拥有较大信息量的网站的估计误差。
项目组将通过对以前有关互联网络的调查进行分析,选取一定数量的大型网站、中型网站作为分层抽样样本的补充(重复抽取的网站按一个来计算),预计这部分样本量有100-200家。
综上所述,本次网站调查的全部样本将由分层抽样样本和补充抽样样本两部分组成。
|