作者:乔山办公网日期:
返回目录:excel表格制作
今天的话题算是个准备章节,举的例子估计又会连庄好几天
No废话,上实例:
假如我们现在手上这份是个整理好的产品组件表,其中标识1的是指这列标题上的成品型号(A、B、C、D、E)的内部结构中包含该行的组件(风机、压缩机、外壳等),0表示不用,任务是比较这些产品的相似性
接下来引入书上的内容——今天没有很复杂的公式推导,不用着急往下拖
当我们有两列二元变量(只有1、0的这种)进行比较时,可以对应算出以下关系
其中q、r、s、t都是指行列对应情况出现的个数
然后,有两种相似性系数的算法
一般都推荐用第二种Jaccard Coefficient,因为两列中都为0的往往不应该考虑进去
但动手算之前咱还要做点准备,因为这个算法要求两两比较,所以得考虑五种型号的所有组合数量
为了好看,所以我先按照协方差矩阵那样的形式先列了一下计算区域的样子
然后填公式,可能公式看起来跟上面定义不太像,但我可以保证在这个例子当中这个算法的结果跟定义要求的是一样的
公式看这里:
还是为了好看,计算结果我全用了分数格式
但是,好看不一定好用,接下来要比较大小的话,这个矩阵形式就有点费劲了,所以,按宽格式转换成长格式的方式,把这个再整整
上面这个图是转换格式的中间步骤啦,不太清楚怎么回事的请往前找上个礼拜宽格式转长格式那篇单独的文
做到像上图那样之后,把当中用不着的隐藏掉,然后Jaccard Coefficient那列筛选出所有不为0的数
复制粘贴出来一份再做个排序,这就算结果出来啦