1、首先,理解下卡方检验的定义。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
2、假设有一个SNP位点: A/G 我想看它在对照组及实验组的频率有没有差异,怎么办?这时候可以采用卡方检验。下面一起看看SPSS怎样搞定χ2检验。
3、第一步,数据导入或者录入SPSS。
4、第二步,加权个案:选择数据→加权个案→勾选加权个案,将个数放入频率变量→点击确定。因为本例中数据库每一行代表多个观测对象,所以需要对其进行加权处理。如果数据是以单个样本的形式,即每一行代表1个样本的结果,则无需加权。
5、第三步,选择分析→描述统计→C交叉表格。
6、将分组变量实验对象放入行框中→将基因型放入列框中(χ2检验是关注实际和理论频数是否一致,行框和列框内变量也可以颠倒放,并不影响最终结果)。
7、Statistics设置:勾选卡方→点击继续。
8、单元格设置:计数(T)中勾选观察值和期望值,输出实际观测频数和理论频数;百分比中勾选行,输出每组各基因型的百分比→点击继续→然后点击确定。
9、结果解释。实验对象-基因型交叉表中不仅有实验组及对照组各基因型的计数和相应百分比,还输出了相应的预期计数(所在行、列合计数的乘积/总例数)。需要注意的是,这里的理论频数和总例数直接决定了下面卡方检验结果的选择。
10、卡方检验表中这么多检验结果,到底看哪一个:1、总例数≥40,所有理论鸩月猎塘频数≥5,看皮尔逊卡方(Pearson Chi-Square)结果;2、总例数≥40,出现1个理舅端魍蒗论频数≥1且<5,χ2检验需进行连续性校正,以连续校正(Continuity Correction)结果为准;3、总例数≥40,至少2个理论频数≥1且<5,看Fisher精确检验结果;4、总例数<40或者出现理论频数<1,看Fisher精确检验结果。SPSS也在表格下方的注释部分提示是否有理论频数小于5,以及最小的理论频数是多少,方便选择恰当的检验方法)。
11、本例中总例数=400>挢旗扦渌;40,存在0个预期计数<5,所以需要看皮尔逊卡方(Pearson Chi-Square傧韭茆鳟)结果,χ2=156.567,P值=6.36×10-36。(双击一下0.000,就可以显示具体P值啦)。所以,结论是两种基因型在实验组和对照组的分布并不相同,G基因型在实验组中频率为79%,高于在对照组中的频率(16.5%),差异具有极显著统计学意义(χ2=156.567,P=6.36×10-36)。