如何通过词向量技术来计算2个文档的相似度-word2vec tf idf,tf idf计算文本相似度-乔山办公网

作者：乔山办公网日期：2021-02-10 13:01:58

返回目录：word文档

最近正e5a48de588b6e799bee5baa6e79fa5e98193335好组内做了一个文档相似度的分享。决定回答一发。
首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。
其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然，加权之前一般应该先干掉stop word，词聚类处理一下。
还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》(ICML 2014)。
还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。
当然，得到词向量的方式不局限于word2vec，RNNLM和glove也能得到传说中高质量的词向量。

最近正好组内做了一个文档相似度的分享。决定回答一发。
　　首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。
　　其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然，加权之前一般应该先干掉stop word，词聚类处理一下。
　　还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》(ICML 2014)。
　　还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。
　　当然，得到词向量的方式不局限于word2vec，RNNLM和glove也能得到传说中高质量的词向量。
　　ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式，大致思路是将词之间的余弦距离作为ground distance，词频作为权重，在权重的约束条件下，求WMD的线性规划最优解。
　　最后，kaggle101中的一个word2vec题目的tutorial里作者如是说：他试了一下简单加权和各种加权，不管如何处理，效果还不如01，归其原因作者认为加权的方式丢失了最重要的句子结构信息（也可以说是词序信息），而doc2vec的方法则保存了这种信息。
　　在刚刚结束的ACL2015上，似乎很多人提到了glove的方法，其思想是挖掘词共现信息的内在含义，据说是基于全局统计的方法（LSI为代表）与e799bee5baa6e997aee7ad94e4b893e5b19e363基于局部预测的方法（word2vec为代表）的折衷，而且输出的词向量在词聚类任务上干掉了word2vec的结果，也可以看看。《GloVe: Global Vectors forWord Representation》

参考

网页链接

最近正好组内做了一个文e69da5e887aae79fa5e98193339档相似度的分享。决定回答一发。
　　首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。
　　其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。然后得到了word2vec的词向量后，可以通过简单加权/tag加权/tf-idf加权等方式得到文档向量。这算是一种方法。当然，加权之前一般应该先干掉stop word，词聚类处理一下。
　　还有，doc2vec中的paragraph vector也属于直接得到doc向量的方法。特点就是修改了word2vec中的cbow和skip-gram模型。依据论文《Distributed Representations of Sentences and Documents》(ICML 2014)。
　　还有一种根据句法树加权的方式，是ICML2011提出的，见论文《Parsing Natural Scenes and Natural Language with Recursive Neural Networks》，后续也有多个改编的版本。
　　当然，得到词向量的方式不局限于word2vec，RNNLM和glove也能得到传说中高质量的词向量。
　　ICML2015的论文《From Word Embeddings To Document Distances, Kusner, Washington University》新提出一种计算doc相似度的方式，大致思路是将词之间的余弦距离作为ground distance，词频作为权重，在权重的约束条件下，求WMD的线性规划最优解。
　　最后，kaggle101中的一个word2vec题目的tutorial里作者如是说：他试了一下简单加权和各种加权，不管如何处理，效果还不如01，归其原因作者认为加权的方式丢失了最重要的句子结构信息（也可以说是词序信息），而doc2vec的方法则保存了这种信息。
　　在刚刚结束的ACL2015上，似乎很多人提到了glove的方法，其思想是挖掘词共现信息的内在含义，据说是基于全局统计的方法（LSI为代表）与基于局部预测的方法（word2vec为代表）的折衷，而且输出的词向量在词聚类任务上干掉了word2vec的结果，也可以看看。《GloVe: Global Vectors forWord Representation》

本文标签：word2vec tf idf(1)tf idf计算文本相似度(1)

如何通过词向量技术来计算2个文档的相似度-word2vec tf idf,tf idf计算文本相似度

返回目录：word文档

相关阅读

如何通过词向量技术来计算2个文档的相似度-word2vec tf idf,tf idf计算文本相似度

word流程图-流程图不会画？10套通用流程图模板分享，直接套用

热门文章

Word图片排版，这3招你要会-word嵌入图片显示不全

什么是“样式”?如何在word文档中创建一个新样式-什么是word的样式,word样式类型是什么意思

Word文档文件怎么转换成福昕阅读器文件-word文档怎么转PD,<strong>word文档怎么转pdf&

如何将ppt中的内容全部复制到word中，需要详解谢谢-ppt内容导入word,ppt导入不了word文档

扫描文件转换成word-原来电脑上的扫描仪功能这么好用！纸质文档轻松转为电子格式

word文档解密-破解 Excel文档密码

聚合标签

ppt怎么做_excel表格制作_office365_word文档_365办公网