乔山办公网我们一直在努力
您的位置:乔山办公网 > excel表格制作 > 相关系数excel-R语言第14篇——实例:买房不?(三)线性回归

相关系数excel-R语言第14篇——实例:买房不?(三)线性回归

作者:乔山办公网日期:

返回目录:excel表格制作

这种标题越加越长越写越累赘的情况一定程度上引起了本人的担忧,照这么发展下去,要是一行写不完或者直接超出长度上限的话感觉就很尴尬了


开始前导入下之前处理过的文件:


一份包含了街区名称、面积、总价、楼层、装修程度和每平米单价的房源信息,昨天主要处理到了把装修程度的各个描述统一划分到三类:高配、低配和未知


关于未知的那些,由于数量较多不方便直接删除(7 of 33),我们需要做个评估,虽然出于保守的考虑方式,我们可以选择把所有未知统统划分到低配当中,因为这样可以避免装修费用远远超出预算的风险,但是,因为这是个挺好的可以使用不同的分类算法的例子,我还是会先尝试下使用不同算法估计装修程度,看看是否能得出较为符合实际的结果


首先,我们考虑下哪些已有的信息肯定和装修程度有实际关联,以下是我个人认为的有关因素:


由于单价直接就是总价/面积的结果,所以同类相关因素就先只考虑一个


而总价和什么有关系呢?从实际意义来说,总价和这份表格上的其他所有因素都有关联,只是影响程度的不同罢了,而其中,由于我们的房源数据选择了比较邻近的一些小区,地域差异已然减到了最小,所以产生最大影响的因素就是房屋面积,在做出武断判断之前,咱先画个图确认一下面积和总价的关系,这里用的是散点图函数plot()


plot(Table1$size,Table1$value)


嗯,感觉咱这个认知和数据的情况还是一致的,而且,这图用来做线性回归亲们应该没太大意见吧


线性回归函数lm,输入项是源表和公式借口,计算结果为回归模型的参数(y=ax+b当中的a和b)


lm(value~size, Table1)


要是嫌输出内容累赘了点只想看下边系数那一截的,可以在外边套上个系数函数coef()


coef(lm(value~size, Table1))


用直线画图函数abline添加到刚刚的散点图上看看效果(瞧这函数名起得多形象)


abline(coef(lm(value~size, Table1)))


记得之前Excel篇里怎么判断线性回归合不合适的么,皮尔森相关系数,这里也有的,函数名cor.test


cor.test(Table1$size, Table1$value)


输出结果看最后一个,相关系数r=0.9790368,已经挺高了呢


但是,作为一个比Excel更专业的统计软件,R软件当然不止可以计算个相关系数,它还可以画出残差图,咱先求出残差值,这里有个现成函数residuals,也可以简写成resid(还真知道我们拼不出这词儿啊~~)


Cancha1 <- resid(lm(value~size, Table1))


用summary看下数列情况:summary(Cancha1)


当然也画个图瞅瞅:plot(Cancha1)


这样一个散散的图好像不够说明问题的,咱画个qq图吧(此处请不要@腾讯,跟他们没有关系)


qqnorm(Cancha1)


按照理论来说,qq图的形状越接近一条直直的对角线,表示残差数据越符合正态分布,比较符合随机性的要求


由于这个残差值还比较重要,咱把它加入我们的豪华套餐~~不是,是加入我们的数据表里,留着明天用


Table1 <- cbind(Table1,Cancha1)


存档,关机下线


本文标签:相关系数excel(78)

相关阅读

  • 相关系数excel-如何用spss做相关性分析

  • 乔山办公网excel表格制作
  • 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。衡量事
关键词不能为空
极力推荐

ppt怎么做_excel表格制作_office365_word文档_365办公网