一文详解如何用R 语言进行卡方检验。 | r卡方值
本文主要介绍如何用R语言进行卡方检验,将按以下顺序进行介绍。一、卡方检验基本概念1、基本原理:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。注意:卡方检验针对分类变量。2、常见用途:检验两个变量之间是否有关系,比如机器学习中的特征选择,以及医学领域(这块我不了解~~)。3、计算公式:3.1通用公式:observed:观察频数expected:理...
本文主要介绍如何用R语言进行 卡方检验,将按以下顺序进行介绍。
一、卡方检验基本概念
1、基本原理:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。注意:卡方检验针对分类变量。2、常见用途:检验两个变量之间是否有关系,比如机器学习中的特征选择,以及医学领域(这块我不了解~~)。3、计算公式:3.1通用公式:observed:观察频数expected:理论频数3.2四格卡方值快速计算公式(又叫拟合度公式):4 自由度:简称df(degree of freedom),指的是计算某一统计量时,取值不受限制的个数。5、适用条件:1、四格卡方表中的理论频数都应大于5,且n>402、当n>40,但理论频数大于 1 且小于5时,此时计算卡方值的通用公式需要进行校正,或者用fisher精确检验,在R语言中的函数为fisher.test()。6、校正后的卡方值计算公式:二、例题计算:
假设我们现在有这样一份原始数据:(乱造的)我们想探究一下感冒与喝牛奶之间是否有关联,接下来,我们将原始数据转换为四格卡方值,因为两个变量都只有两个值(是与否),所以就是四格卡方检验,当然可能您要检验的其他两个变量之间有其他的特征值,比如有变量天气(晴天,雨天,阴天,下雪)与变量出门(是,否),那这个时候就成了4*2格卡方检验,好了,简单的提一下,不扯远了~,那么经过统计转换后的四格卡方数据如下:更一般的格式是这样的:
好了,现在的数据处理已经完了,接下来就该进行假设检验了,让我们再回顾一下临界值法假设检验的步骤吧:1 、给出原假设,备择假设2 、找统计量,此时需要知道统计量的分布。3、在给定显著性水平下,求出临界值,构造拒绝域。4、求出观察值5、将临界值与观察值进行比较,得出假设检验的结论。好了,接下来就将问题代入到假设检验的步骤中吧。小提示:卡方分布为右侧单边检验,如下,这就是一个卡方分布的概率密度函数。好了,现在正式开始临界值法 假设检验,先说下原理吧。临界值法假设检验原理:在给定显著性水平α 和统计量的...