做问卷调查真的会选择样本吗?
编导:问卷的作用主要是通过部分推断整体情况,部分选择很重要,所选部分能否代表整体决定了问卷的可信度。
本文从样本选择的角度,论述了什么是样本框,如何进行采样,如何确定最小样本量。
一、采样盒采样盒在抽样调查中处于基础地位,是抽样问卷调查中不可缺少的组成部分,它对整个估计有相当大的影响。
样本框是表示总体的框架,用于从中提取样本。
具体表现形式可以是学生名单、工商企业名单等。
例如,假设您目前正在调查全国32万所小学家长对国家“双减排政策”的民意调查,从中选出最具代表性的10所小学,从中抽取10000名家长进行调查。
在这个例子中,全部是32万所小学的家长,抽样框是被选中的10所小学的家长名单,抽样是最后被选中的10000名家长。
当然采样框也不一定是具体的,也有可能是抽象的。 例如,在大型零售店随机访问购买者和消费者进行调查时,没有具体的名单。
样品盒的选择能否代表整体,直接决定着调查结果的可靠性。
在我们的例子中,选择10所学校的家长需要代表全国32万所学校的家长。 有很多因素需要考虑,包括收入因素、地域因素、宗教因素等。 因此,在调查初期,应根据调查的目的和主题尽可能确定准确的抽样框,减少调查的误差。
让我们看看由于样品框选择错误而失败的情况。 这是1936年美国总统选举民意调查。
1936年美国总统选举中,民主党的罗斯福和共和党的兰登参加竞选。
美国权威《文学摘要》杂志社采用了大规模模拟选举,以预测总统候选人能当选谁。 (他们在电话簿地址和所有车辆登记系统地址发出了1000万封信,收到了200万回复)。
兰登预测以57%对43%的比例获胜,进行了大力宣传。
最后的选举结果是罗斯福以62%比38%的大优势获胜。
因为在1936年的美国,富裕的家庭有私人电话和汽车。
为了挽救经济大萧条带来的打击,当时的罗斯福政府强行干预市场经济,在富裕人群中缺乏好感。
因此,《文学摘要》的调查样本不是从总体(美国选民)中随机抽取,而是主要从富裕阶层的抽样框中抽取,这样的调查结果自然对罗斯福不利。
问卷领域关注的是“代表性”而不是数量。
因此,在选择样品框时,要从多方面考虑,避免选择误差较大的样品框。
你可能想知道怎么做自己的样本数据是否正确。
很遗憾,没有办法。 除非调查所有总体,否则无法准确知道自己提取的样本是否正确。
但是没关系。 误差永远存在。 需要尽量减少而不是消除误差。
二、采样方法采样是指从采样框或总体中提取一部分数据作为样本的操作。
采样方法有很多,下面是几种常见的采样方法。
1 .简单随机抽样一般采用n表示总体个数,逐个抽取的方法抽取一个样本,每次抽取时抽取概率相等的抽样方法为简单随机抽样。
适合整体个数少的东西。
2 .系统采样当总体个数较大时,先将总体划分为均等的几个部分,再按照预定规则逐部分提取若干个体,得到所需样本的采样方法称为系统采样。
3 .分层采样时,将总体分为互不交叉的层,按一定比例从每层独立提取一定数量的个体,获得所需样本的采样方法为分层采样。
适合由整体上差异明显的几个部分构成。
4 .整组采样整组采样也称为聚类采样。
把全体中的各单位归纳为互不交叉、互不重复的几个集合,称为群; 然后是以群为采样单位提取样本的采样方式。
应用整群抽样时,要求各组有较好的代表性。 也就是说,组内各单位的差异较大,组间的差异较小。
5 .多级抽样多级随机抽样是指从整个调查中抽取样本的过程分两个以上阶段进行的抽样方法。
系统、分层、整体、多级比较困难,问卷调查中常用的方法是简单随机抽样。
三、如何确定最小采样数的采样量越多越好? 样本数量确实越多越好,样本数量越多越接近数据的整体情况,但样本数量越多意味着需要更多的人力和财力,因此从现实的角度来看,往往需要确定最小样本数量。
最小采样数的公式如下:
)样本量
^{2} :方差(用于测量数据偏差( ^{2}=(FRAC ) ) x-) ^{2}}{N}
x :变量
)整体平均
)总体案例数
在调查的实施方式中,由于方差往往是未知的,在此情况下可以按照采样率进行估计。 当采样率P=0.5时,p=1-p=0.25时是方差理论的最大值。
Z_{/2} :如果可靠度(用于表示估计结果的可靠性)为95%,则Z_{/2}=1.96; 可信度为90%时,Z_{/2}=1.64 (其他数值的可信度可以通过正态分布表/t分布表进行调查) ) )。
e :采样误差(用于表示可接受的采样误差) ) ) )。
根据最小样本的计算公式,发现样本量的大小不取决于总体的多少,而取决于研究对象的变化、要求或允许的误差大小以及要求估计的置信度。
例如,如果期望的调查结果达到90%的置信度,并且误差小于或等于2%,则所需样本约为\ frac { 1.64 ^ {2}\times 0.25 } { 0.02 ^ {2}=1681个。
从统计学角度看,在要求的准确度水平下,如果不考虑其他因素的影响,简单随机采样,300~400个样本已经达到置信度95%,误差率在5%以下。
需要说明的是,当样本小于100时,大部分结构方程模型分析不稳定,200多个样本可以说是中型样本。
为了获得稳定的结构方程模型结构,不鼓励小于200的样本数。
作者: WOWdesign,研究设计价值最大化,涉及用户体验、品牌体验、空间体验。
这篇文章是@WOWdesign原创的,每个人都是产品经理。
未经许可禁止转载。
标题来自Pexels,基于CC0协议