乔山办公网我们一直在努力
您的位置:乔山办公网 > excel表格制作 > 卡方检验中的界值是怎么计算出来的?-excel 计算卡方值,excel计算卡方值

卡方检验中的界值是怎么计算出来的?-excel 计算卡方值,excel计算卡方值

作者:乔山办公网日期:

返回目录:excel表格制作


您的数据应该是交叉链接的,数据输入格式是:创建两个变量,变量1是组。

正常对照组使用数据

1、病例组用数据

2、变量2是效能的分类变量,1表示分类属性1,2表示分类属性2。然后还有另一个变量

3、也就是,箱子的数量。在数据录入完成后,加权频率将被分析的分析-统计-统计-交叉- - -和变量1被选择成行。

所以,我要选择变量2到列中,然后点击统计信息,打开对话框,我要检查卡方,然后点击“继续”,然后点击“确定”,第三张表是卡方测试,第一行的第一行是卡方值,接着是自由度,最后是P值。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏7a686964616fe4b893e5b19e333离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。

步骤:

(1)提出原假设:

H0:总体X的分布函数为F(x).

如果总体分布为离散型,则假设具体为

H0:总体X的分布律为P{X=xi}=pi, i=1,2,...

(2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取

A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),

其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。

(3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。

(4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。

(5)当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。基于这种思想,皮尔逊引进如下检验统计量

 ,在0假设成立的情况下服从自由度为k-1的卡方分布。

扩展资料:

卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

注意:卡方检验针对分类变量。

参考资料:百度百科-卡方检验



虽然你所问的问题已有人问过,并有人回答过,不过我觉得回答的不够完善,至少还有三点需要补充,如果忽略这三点,很可能结果就是错的,或者结果不完整。请看下文。

举例说明吧。相对于不做运动的女子,慢跑或快跑可能会对月经周期产生影响,那这种经期的变化是否会改变她们去咨询医生的频率呢?下面是一组统计数据,记录了三组运动状态的女子是否向医生咨询过经期变化的数据。

Observed (O),观察值
是否向医生询问过
组 是 否 总数e69da5e6ba90e799bee5baa6e997aee7ad94361
对照 14 40 54
慢跑 9 14 23
快跑 46 42 88
总数 69 96 165

简单点说,就是问,慢跑女子是不是会比不跑步的女子更频繁地向医生询问月经的问题?快跑相对于不跑呢?快跑相对于慢跑呢?

方法如下:
1. 计算每行和每列的总数,如上表所示。
2. 计算每列的百分比,即询问过的百分比。在165个女子中,有69个询问过医生,即69/165=42%,那么没询问过医生的就是1-42%=58%。
3. 如果跑不跑步,都不会影响询问医生的频率,那么这个询问过医生的可能性,42%,将适用于所有的组别,即在对照组的54个人中,我们预期54*42%=22.58个人会去询问医学,而54*58%=31.42个人不会去询问。用同样的方法把慢跑和快跑组是否会去询问医生的人数分别算出,如下表所示。

Expected (E),预期值
是否向医生询问过
组 是 否 总数
对照 22.58 31.42 54
慢跑 9.62 13.38 23
快跑 36.8 51.2 88
总数 69 96 165

4. 接下来就是要计算,这个预期值和实际观测到的值之间的区别大不大?是只是因为随机抽样产生的误差,还是具有统计学意义的显著性差异?计算公式如下:
χ2=∑[(O-E)2/E]
O为每个观察值,E为每个预期值
在这个例子中,
χ2=(14-22.58)2/22.58+(40-31.42)+…=9.63
5. 计算自由度=(行数-1)*(列数-1)=2
6. 查表,自由度为2, p=0.01时的值为9.21,而9.63比9.21大,所以p<0.01, 差异显著。
7. 但由于有三个组,上述的值只能说明运动状态对于询问医生的频率有显著影响,却并不知道究竟是哪组跟组有显著差异。很多其他的回答到这里就结束了,其实不然。下面还有三点要注意。

1. 接下来要做的就是把上面两个大表转换成亚表,首先只比较慢跑和快跑

组 是 否 总数
慢跑 9(11.40) 14(11.6) 23
快跑 46(43.6) 42(44.4) 88
总数 55 56 111

计算χ2= ∑[(│O-E│-1/2)2/E]=0.79
注意当行列为2X2时,要用这个修正公式。
自由度为(2-1)(2-1)=1,查表发现0.79是个非常小的数,所以它们之间没有显著差异。而由于它们的差异如此之小,可以把它们合并成一个组,去跟对照不跑步的比较。

组 是 否 总数
对照 14(22.58) 40(31.42) 54
跑步 55(46.42) 56(64.58) 111
总数 69 96 165

同理算得χ2=7.39,大于自由度为1,p=0.01时的值,即p<0.01

2. 由于对同一数据做了两次测试(快跟VS慢跑,跑步VS对照),为了保证总的测试误差小于0.05,这里不能用原始的p值来做结论,而需要对其做修正,比如使用Bonferroni修正:由于我们做了两次测试,所以用于比较的关键值要用0.01*2=0.02,由于原始p<0.01,修正后的p (跑步VS对照)<0.02, 差异显著。

结论即为,快跑跟慢跑相比的女性相比,她们向医生询问经期的频率没有显著差异,而只要是跑过步的,她们询问的频率则显著高于不跑步的(55:56VS14:40)。

3. 最后再补充两点使用卡方的条件
1) 如果用于2X2,每个格子中的频数(O)都必须大于5。
2) 如果是大型表格,许多行X许多列,每个格子中的频数都不得小于1,且它们中小于5的比较必须要低于20%。

如果不能满足这两个条件,就要选择其他的统计方法来处理样本量比较小的情况,比如Fisher Exact test。

以上方法和例子是我翻译和改编自《Primer of Biostatistics, 6th edition》第五章《How to analyze rates and proportions》,感谢原作者Glantz, Styanton。
卡方检验
你的数据应该用交叉列zd联表做,数据录入格式为:建立两个变量,变量1是组别,
正常对照组用数据1表示,病例组用数据2表示;变量2是疗效等分类变量,用1表示分类属性1,用2表示分类属性2,
还有一个变量3是权重,例数
数据录入完成后,先加权频数后点analyze-descriptive statistics-crosstabs-把变量1选到rows里
,把变量2选到column里,然后点击下面的statistics,打开对话框,勾选chi-squares,
然后点continue,再点ok,出来结果的第3个表就是你要的卡方检验,第一行第一个数是卡方值,
后面是自由度,然后是P值。

假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},

若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度e79fa5e98193e4b893e5b19e335

具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)

K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量。

K^2的值越大,说明“X与Y有关系”成立的可能性越大。

扩展资料:

n个相互独立的服从标准正态分布的随机变量的平方和的分布。由此可知,卡方是没有负数的,卡方值越大P值就越小,越显著。(ad-bc)2n/(a+b)(c+d)(a+c)(b+d)这个公式里面abcd均是计数数据,均大于等于0,而(ad-bc)2由于有平方,所以也不会为负数,所以这个公式也没有负值。

若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)

自由度v=(行数-1)(列数-1)=1

要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

参考资料来源:百度百科--卡方检验

参考资料来源:百度百科--卡方值

相关阅读

关键词不能为空
极力推荐
  • <em>vba</em> 连接<em>sqlserver</em>出现错

  • 如果使用ODBC连接不百正确,可以尝试改用ADODB连接试试.因为ODBC连接,有时候设置度不匹配或者连接串配置不正确,容易让不熟回练的产生错误.ADODB连接串相对简单一些.下面给你一个参巧的

ppt怎么做_excel表格制作_office365_word文档_365办公网