数据的搜集

数据的来源

所有统计数据追踪其初始来源，都是来自调查或实验。

从使用的角度看，数据主要来自两个渠道：

数据的来源	定义	举例	优点	局限性
间接来源	数据是由别人通过调查或实验的方法搜集的，使用者只是找到它们并加以使用如果与研究内容有关的原信息已经存在，我们只是对这些信息重新加工、整理、使之成为我们可以进行统计分析可以使用的数据	搜集范围系统外部统计部门和各级政府部门公布的有关资料，如定期发布的统计公报，定期出版的各类统计年鉴；文献资料，会议，互联网或图书馆查阅到的相关资料等。系统内部如果就经济活动而言，则主要包括业务资料，单据，记录，统计报表，各种财务，会计和分析资料等	1.搜集方便 2. 数据采集快 3. 采集成本低 4. 二手资料的作用也非常方便，除了分析所要研究的问题，这些资料还可以提供研究问题的背景，帮助研究者更好地定义问题，检验和回答某些假设和疑问，寻找研究问题的思路和途径因此，搜集二手资料是研究者首先考虑并采用的。分析也应该从对二手资料的分析开始。	针对性不够,二手资料并不是为特定的研究问题而产生的，所以在回答所研究的问题方面可能是有欠缺的，如资料的相关性不够，口径可能不一致，数据也许不准确，也许过时了因此，在使用二手资料前，对二手资料进行评估是有必要的 (1)资料是谁搜集的？考察数据搜集者的实力和社会信誉度 (2)为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。(3) 数据是怎样搜集的？采用不同方法所采集到的数据，其解释力和说服力都是不同的。 (4)什么时候搜集的（过时的数据当然受到质疑）使用二手数据，要注意数据的定义，含义，计算口径，计算方法，避免错用、滥用、误用，在引用二手数据时，应注明数据的来源，以尊重他人的劳动成果。
直接来源	通过自己的调查或实验活动直接获得一手数据	调查：通常针对社会现象的调查通常取自有限总体，即总体所包含的个体单位时有限的。如果调查针对总体中的所有个体单位进行，就把这种调查称为普查。实验:在实验中控制一个或多个变量，在有控制的条件下得到观测结果。实验数据是指在实验中控制实验对象而搜集到的变量的数据实验组：随机抽选的实验对象的子集，在这个子集中，每个单位接收某种特别的处理。对照组:每个单位不接受实验组成员所接受的某种特别的处理。一个好的实验，对照组和实验组的产生不仅应该是随机的，而且应该是匹配的。实验中的若干问题:人的意愿，心理问题，道德问题实验中的统计：一个方面是内部的有效性，内部的有效性意味着实验测量的准确性。实验的目的就是要考察自变量和因变量之间的因果关系，而如果实验观察结果收到其他无关变量的影响，就很难推断自变量与因变量之间的因果关系。外部的有效性决定是否可以将实验中发现的因果关系加以推广	普查具有信息全面、完整的特点，对普查数据的全面分析和深入挖掘是统计分析的重要内容	但是，当总体较大时，进行普查将是一项很大的工程，由于普查涉及的范围广，接受调查的单位多，所以耗时、费力、调查的成本也非常高，因此不可能经常进行，统计学家经常需要考虑的一个问题是如何从总体中抽出一个有效的样本。

调查方法

概率抽样和非概率抽样

在数据采集阶段，统计学家面临的一个关键问题是如何抽选出一个好的样本。

好的样本都是相对而言的，相对包括两方面的含义：

一个含义是针对研究的问题而言的。不同的研究问题对样本的要求会有所差别，对某一个问题来说是不错的样本对另一个样本来说可能是糟糕的。
另一个含义是针对调查费用与估计精度关系而言的。什么时候可以放松估计精度而节省调查费用，什么时候对数据的估计精度要有很高的要求。不能节省成本。

概率抽样

定义：也称随机抽样，是指遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。

特点

首先，抽样时按一定的概率以随机原则抽取样本（随机不等于随便，随机有严格的科学含义，可以用概率来描述），（随机与随便的本质区别就在于，是否按照给定的入样概率，通过一定的随机化程序抽取样本单元）
其次，每个单位被抽中的概率是已知的。或是可以计算出来的。
最后，当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率。这就是说，估计量不仅与样本单位的观测值（也称为观察值）有关，也与其入样概率有关。

优点：

可以依据调查结果计算估计量误差，从而得到对总体目标量进行推断的可靠程度。从另一个方面讲，也可以按照要求的精确度，计算必要的样本单位数目。

所以，统计分析的样本主要是概率样本，即样本时采用概率抽样方式得到的。

概率抽样与等概率抽样：

概率抽样：总体中的每个单位都有一定的非零概率被抽中，单位之间被抽中的概率可以相等，也可以不等

等概率抽样：如果单位之间被抽中的概率相等，被称为等概率抽样。

抽样框：抽样框通常包含所有总体单位的信息。抽样框的作用不仅在于提供备选单位的名单以供抽选，它还是计算各个单位入样概率的依据。

概率抽样方式的种类

概率抽样方式的种类	解释	优点	局限性
简单随机抽样	定义:从包括总体N各单位的抽样框中随机的、一个个地抽取n个单位作为样本，每个单位的入样概率是相等的随机性：通过随机化程序，可以使用随机数字表等。在使用随机数字表时，为克服可能的个人习惯，增加随机性，使用随机数字表的页号及起始点应该由随机数产生，如随意翻开一页，闭上眼睛，将火柴随意扔到页面上，将火柴头所指的数字作为页号，同样的方法可以用于产生起始行号和起始列号。方法: 方法一:根据总体单位的个数N的位数（N=678是三位数）决定在随机数字表中随机抽取几列，然后顺序往下，选出值在1 $∽$ N之间的n个互不相同的数字，如果选取的个数不够，可以再选3列继续，直到抽满n个单元为止。方法二:有时方法一的效率可能不高，尤其当N的首位数较小时，抽到的数字很可能被遗弃。此时，可以采用余数入样方法，如果一个数不在范围在内，就看它的余数，如果余数不重复，就取余数对应的样本单位。	1. 简单，直观 2. 在抽样框完整时，可以直接从中抽取样本 3. 由于抽选的概率相同，用样本统计量对目标量进行估计及计算估计量误差都比较方便。	1. 他要求将所有总体单位的名单作为抽样框，在N很大时，构造这样的抽样框并不容易。 2. 单位分散，给实施调查了困难 3.没有利用其它辅助信息以提高估计的效率。在规模较大的调查中，很少直接采用简单随机抽样，一般是把这种方法和其他抽样方法结合起来使用
分层抽样	定义：将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本。将各层的样本结合起来，对总体的目标量进行估计。	1. 保证了样本中包含有各种特征的抽样单位，样本的结构与总体的结构比较相似,可以提高估计的精度 2.在一定条件下为组织实施调查提供了方便（当层是按行业或行政区进行划分时） 3. 分层抽样既可以对总体参数进行估计，也可以对各层的目标量进行估计等。
整群抽样	定义：将总体中若干个单位合并为组，这样的组称为群，抽样时直接抽群，然后对中选群中的所有单位全部实施调查	1.抽取样本时只需要群的抽样框，而不必要求抽样框包括所有单位，这就大大简化了编制抽样框的工作量。 2. 其次，群通常由那些地理位置邻近的或隶属于同一系统的单位所构成，调查的地点相对集中，从而节省了调查费用，方便了调查的实施	1. 估计的精度较差,因为同一群内的单位或多或少有些相似，在样本量相同的条件下，整群抽样的抽样误差通常比较大。一般说来，要得到与简单随机抽样相同的精度，采用整群抽样需要增加基本调查单位
系统抽样	定义：将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机抽取一个单位作为初始样本，然后按事先制定好的规则确定其他样本单位。典型的系统抽样是从数字1 $∽$ k中随机抽取一个数字r作为初始单位，以后依次取 $r + k, r + 2 k, \dots$ 。可以把系统抽样看成是将总体内的单位按顺序分成k群，用相同的概率抽取出一群的方法	1.操作简便 2.如果有辅助信息，对总体内的单位进行有组织的排列，可以有效地提高估计的精度。	对估计量方差的估计比较困难
多阶段抽样	二阶段抽样定义:首先抽取群，但并不是调查群内的所有单位，而是再进一步抽样，从选中的群中抽取出若干个单位进行调查。群是初级抽样单位，第二阶段抽取的是最终抽样单位。将这种方法推广，使抽样的阶段数增多，就称为多阶段抽样。第一阶段抽取初级单位,第二阶段抽取二级单位，接受调查的最终单位就是三阶段抽样。	1. 具有整群抽样的优点，它保证了样本相对集中，从而节约了调查费用； 2.不需要包含所有低阶段抽样单位的样本框 3. 由于实行再抽样，使调查单位在更广的范围内展开。	抽取样本的阶段越多，没增加一个抽样阶段，就会增添一份估计误差，用样本对总体进行估计也就更加复杂

非概率抽样

非概率抽样：相对于概率抽样而言的，指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。

非概率抽样的特点

操作简便、时效快、成本低、而且对于抽样中的统计专业技术要求不是很高。

非概率抽样的种类

非概率抽样的种类	解释	举例	优点	局限性
方便抽样	定义：调查过程中调查员依据方便的原则，自行确定作为样本的单位。	街头拦截式的调查,厂家在出售产品的柜台前对路过的顾客进行调查等	1. 容易实施，调查成本低 2. 在科学研究中，使用方便样本可以产生一些想法以及对研究内容的初步认识	样本单位的确定带有随意性，因此，方便样本无法代表有确定意义的总体，将方便样本无法代表右明确意义的总体，将方便样本的调查结果推广到总体是没有任何意义的。
判断抽样	定义：研究人员根据经验、判断和对研究对象的了解，有目的地选择一些单位作为样本,根据目的不同有重点抽样、典型抽样、代表抽样		成本较低，也容易操作	1. 判断抽样是主观的，样本选择的好坏取决于调研者的判断、经验、专业程度和创造性。 2. 调查结果不能用于对总体有关参数进行估计
重点抽样	定义：从调查对象的全部单位中选择少数重点单位，对其实施调查。	例如通过产量较大的几个钢铁企业了解全国钢铁企业的生产状况
典型抽样	从总体中选择若干个典型的单位进行深入的调研，目的是通过典型单位来描述或揭示所研究问题的本质和规律	研究青少年犯罪问题可以选择一些典型的犯人
代表抽样	是通过分析选择具有代表性的单位作为样本，在某种程度上，也具有典型抽样的含义	比如了解消费者对奶粉的需求，可以调查一些年轻的母亲
自愿样本	定义：自愿样本是指被调查者自愿参加，成为样本中的一分子。	参与互联网上刊登的调查问卷活动，向某类节目拨打热线电话等	可以反映某类人群的一般看法	自愿样本与抽样的随机性无关，样本的组成往往集中于某类特定的人群，尤其集中于对该调查活动感兴趣的人群，因此，这种样本是有偏的。
滚雪球抽样	往往用于对稀少群体的调查，定义：首先选择一组调查单位，对其实施调查后，再请他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，继续进行调查，这个过程持续下去，就会形成滚雪球效应	冬泳爱好者	容易找到属于特定群体的被调查者调查的成本较低适合对特定群体进行资料的搜集和研究
配额抽样	它是首先将总体中的所有单位按一定的标志（变量）分为若干类，然后在某个类中采用方便抽样或判断抽样的方式选取样本单位。	在配额抽样中，可以按单一变量控制，也可以按交叉变量控制。当配额是按单个变量分配时，即单一变量控制，虽然操作比较简单，但是有可能出现偏斜。交叉配额控制可以保证样本的分布更为均匀，但现场调查中为了保证配额的实现，尤其是在调查接近结束时所选的样本单位要同时满足特定的配额，操作的难度可能要更大一些	比较简单，而且可以保证总体中不同类别的单位都能包括在所抽的样本中，使得样本的结构和总体的结构类似

概率抽样与非概率抽样的比较

在调查中采用何种抽样类型取决于多种因素，包括

研究问题的性质
使用数据要说明的问题
调查对象的特征
调查费用
时间

非概率抽样适合探索性的研究，调查的结果用于发现问题，为更深入的数量分析做准备。非概率抽样也适合市场调查中的概念测试，如产品包装测试、广告测试等。当需要估计总体参数时不适合用非概率抽样。

如果调查的目的在于掌握研究对象总体的数量特征，得到总体参数的置信区间，就应当使用概率抽样的方法。当然概率抽样的技术含量更高，无论是抽选样本还是对调查数据进行分析，都要求有较高的统计学专业知识，调查的成本也比非概率抽样高。

搜集数据的基本方法

方法	定义	要求	优点	缺点
自填式	在没有调查员协助的情况下由被调查者自己填写，完成调查问卷	1.要求调查问卷结构严谨，有清楚的说明，让被调查者一看就知道如何完成答卷。 2.应有制作详细、形象友好的说明 3. 必要时，可在问卷上提供调查人员的联系电话，以便被调查者遇到疑问时与调查人员联络。 4.通常要求被调查者具有一定的文化素养，可以读懂问卷，能正确理解调查问卷中的问题并进行回答.	1. 调查组织者对自填式方法的管理相对容易，只要把问卷中的问题正确地送到被调查手中即可 2. 成本最低,增大样本量对调查费用的影响很小，所以可以进行大范围的调查 3. 有利于被调查者，他们可以选择方便的时间填答问卷，可以参考有关记录而不必依靠记忆回答。由于填写问卷时调查员不在场，因而自填式方法可以在一定程度上减少被调查者回答敏感问题的压力。	1. 问卷的回答率较低 2. 不适合结构复杂的问卷,对调查的内容会有所局限 3. 调查周期通常都比较长，调查人员对问卷的递送和回收方式方法进行仔细的研究和选择。 4. 对于在数据搜集过程中出现的问题，一般难以及时采取调改措施
面访式	指现场调查中调查员与被调查者面对面，调查员提问，被调查者回答这种调查方式		1. 被调查员可以激发被调查者的参与意识，对不愿意参与的被访者进行说服，由此提高调查的回答率 2. 可以提高调查数据的质量，并且可以对识字率低的群体实施调查 3. 在问卷设计中可以采用更多的技术手段，使得调查问题的组合更为科学、合理 4. 还可以借助其他调查工具，能对数据搜集所花费的时间进行调节。 5.如果要加快速度，可以雇用更多的调查员	1. 调查的成本比较高。大样本调查中，研究人员面临着巨大的成本压力 2. 面访这种搜集数据的方式在调查过程的质量控制方面有一定难度，调查的数据质量与调查员关系很大. 3. 对于敏感问题，被调查者不会太放松
电话式	调查人员通过打电话的方式向被调查者实施调查	需要被调查者有电话	1.速度快，能在短时间内完成调查 2. 特别适合样本单位十分分散的情况 3. 电话调查的过程中，对访问过程的控制也比较容易	1. 在电话使用率不高的地区，电话调查方式受到限制 2. 使用电话进行访问的时间不能太长 3. 电话调查所使用的问卷要简单 4. 在被访者不愿意进行调查时说服比较困难
观察式	调查人员通过直接观测的方法获得信息

搜集数据不同方法的特点

项目	自填式	面访式	电话式
调查时间	慢	中等	块
调查费用	低	高	低
问卷难度	要求容易	可以复杂	要求容易
有形辅助物的使用	中等利用	充分利用	无法利用
调查过程控制	简单	复杂	容易
调查员作用的发挥	无法发挥	充分发挥	一般发挥
回答率	最低	较高	一般

数据搜集方法的选择

抽样框中的有关信息：通信地址，电话号码
目标总体的特征：文化水平，地理位置，电话普及率
调查问题的内容
有形辅助物的使用
实施调查的资源：经费，时间，设备，人员
管理与控制
质量要求

数据的误差

数据的误差有两类：抽样误差和非抽样误差

抽样误差

抽样误差：由抽样的随机性引起的样本结果与总体真值之间的差异。

抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。

抽样误差的大小：

样本量的大小：样本量越大，抽样误差越小，变成普查时，抽样误差变为0.
总体的变异性：总体的变异性越大，即各单位之间的差异越大，抽样误差就越大。

抽样误差只存在概率抽样中

非抽样误差

非抽样误差:相对抽样误差而言的，是指除抽样误差之外的，由其他原因引起的样本观察结果与总体真值之间的差异。

无论是概率抽样、非概率抽样，还是在全面调查中，都有可能产生非抽样误差。

非抽样误差的种类	解释	举例
抽样框误差	如果抽样框中的单位与研究总体的单位不存在一一对应的关系，比如有总体中的单位不再抽样框中，或者抽样框中的单位不属于总体，这种抽样框的不完善导致的统计推论的误差是抽样框误差	比如学生名单的抽样框，毕业的未删减，新入学的未添加
回答误差	被调查者在接受时给出的回答与真实情况不符，分为理解误差、记忆误差、有意识误差。 (1):理解误差:理解不同（不是不理解问题，而是对问题的选项有所误解,比如一些频率词之类的） (2):记忆误差（3）有意识误差:当调查的问题比较敏感，被调查者不愿意回答，迫于各种原因有必须回答问题时，就可能会提供一个不真实的数字。产生原因一种是受利益驱动，一种是涉及个人隐私，被调查者不愿意回答。	纳税情况，收入等
无回答误差	被调查者拒绝接受调查，调查人员得到的是一份空白的答卷无回答误差有时是随机的（与调查内容无关时），有时是系统性的（某一类人往往不会回答，导致另一类人的比例偏高），关键是无回答的人群是否集中于某一类调查人群，随机误差的解决:增加样本量，比如调查1000个样本单位，回答了800个，回答率80%，增加250个样本单位，如果回答率不变，则可以得到200个单位的回答无回答的系统性误差:一方面是预防，即在调查前做好各方面的准备工作，尽量把无回答降到最低程度。另一方面,当无回答产生后，分析无回答产生的原因，采取一些补救措施。	采用电话调查方式了解居民对公共交通的方法
调查员误差	由于调查员的原因而产生的调查误差	调查员的无意识的诱导，或者调查员的粗心
测量误差	如果调查与测量工具有关，很可能产生测量误差

误差的控制

抽样误差是由抽样的随机性带来的，只要采用概率抽样，抽样误差就不可避免。令人欣慰的是，抽样误差是可以计算的。在对特定问题的研究中，研究人员对抽样误差有一个可以容忍的限度。

非抽样误差与抽取样本的随机性无关，控制起来比较困难。非抽样误差控制的重要方面是调查过程的质量控制。这包括：调查员的挑选等。

最近更新于 8月 9, 2022