返回目录:excel表格制作
这种标题越加越长越写越累赘的情况一定程度上引起了本人的担忧,照这么发展下去,要是一行写不完或者直接超出长度上限的话感觉就很尴尬了
开始前导入下之前处理过的文件:
一份包含了街区名称、面积、总价、楼层、装修程度和每平米单价的房源信息,昨天主要处理到了把装修程度的各个描述统一划分到三类:高配、低配和未知
关于未知的那些,由于数量较多不方便直接删除(7 of 33),我们需要做个评估,虽然出于保守的考虑方式,我们可以选择把所有未知统统划分到低配当中,因为这样可以避免装修费用远远超出预算的风险,但是,因为这是个挺好的可以使用不同的分类算法的例子,我还是会先尝试下使用不同算法估计装修程度,看看是否能得出较为符合实际的结果
首先,我们考虑下哪些已有的信息肯定和装修程度有实际关联,以下是我个人认为的有关因素:
由于单价直接就是总价/面积的结果,所以同类相关因素就先只考虑一个
而总价和什么有关系呢?从实际意义来说,总价和这份表格上的其他所有因素都有关联,只是影响程度的不同罢了,而其中,由于我们的房源数据选择了比较邻近的一些小区,地域差异已然减到了最小,所以产生最大影响的因素就是房屋面积,在做出武断判断之前,咱先画个图确认一下面积和总价的关系,这里用的是散点图函数plot()
plot(Table1$size,Table1$value)
嗯,感觉咱这个认知和数据的情况还是一致的,而且,这图用来做线性回归亲们应该没太大意见吧
线性回归函数lm,输入项是源表和公式借口,计算结果为回归模型的参数(y=ax+b当中的a和b)
lm(value~size, Table1)
要是嫌输出内容累赘了点只想看下边系数那一截的,可以在外边套上个系数函数coef()
coef(lm(value~size, Table1))
用直线画图函数abline添加到刚刚的散点图上看看效果(瞧这函数名起得多形象)
abline(coef(lm(value~size, Table1)))
记得之前Excel篇里怎么判断线性回归合不合适的么,皮尔森相关系数,这里也有的,函数名cor.test
cor.test(Table1$size, Table1$value)
输出结果看最后一个,相关系数r=0.9790368,已经挺高了呢
但是,作为一个比Excel更专业的统计软件,R软件当然不止可以计算个相关系数,它还可以画出残差图,咱先求出残差值,这里有个现成函数residuals,也可以简写成resid(还真知道我们拼不出这词儿啊~~)
Cancha1 <- resid(lm(value~size, Table1))
用summary看下数列情况:summary(Cancha1)
当然也画个图瞅瞅:plot(Cancha1)
这样一个散散的图好像不够说明问题的,咱画个qq图吧(此处请不要@腾讯,跟他们没有关系)
qqnorm(Cancha1)
按照理论来说,qq图的形状越接近一条直直的对角线,表示残差数据越符合正态分布,比较符合随机性的要求
由于这个残差值还比较重要,咱把它加入我们的豪华套餐~~不是,是加入我们的数据表里,留着明天用
Table1 <- cbind(Table1,Cancha1)
存档,关机下线