R实战第十篇:列联表和频数表 | r建立列聯表
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数分布表,它是由两个以上的变量进行交叉分类的频数分布表。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一维列联表就是频数分布表。频数就是各个分组中属性出现的次数。频数也称“次数”,对样本数据按某些属性进行分组,统计出各个组内含个体的个数,就是频数。本文使用vcd包中的Arthritis数据集来演示如何创建列联表。一,...
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数分布表,它是由两个以上的变量进行交叉分类的频数分布表。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。
按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一维列联表就是频数分布表。频数就是各个分组中属性出现的次数。
频数也称“次数”,对样本数据按某些属性进行分组,统计出各个组内含个体的个数,就是频数。
本文使用vcd包中的Arthritis数据集来演示如何创建列联表。
一,创建频数表频数表用于探索类别型变量,常用table()和 xtabs()来创建频数表:
table(var1, var2, ...,varN) xtabs(formula, data)参数注释:
table()函数:使用N个类别变量(因子)创建一个N维列联表, xtabs()函数:根据一个公式(~var1+var2+...+varN)创建一个N维列联表。总体来说,要进行交叉分类的变量应出现在公式的右侧,即 ~ 符号的右方,以+ 作为分割符。本文重点介绍一维列联表和二维列联表,对于高维列联表,不做介绍。
函数prop.table()以列联表作为参数,以margins定义的边际把列联表中的频数表示为比例关系。
prop.table(table,margins)参数注释:table是列联表,margins是边际列表,1是第一个分类变量,2是第二个分类变量
函数margin.table()以列联表作为参数,以margins定义的边际列表来计算频数的和。
margin.table(table,margins)参数注释:table是列联表,margins是边际列表,1是第一个分类变量,2是第二个分类变量
1,创建一维列联表
一维列联表是根据一个分类变量列出变量各个值得频数:
with(Arthritis,table(Improved)) xtabs(~Improved,data=Arthritis)Improved是分类得变量名,None、Some...