java <em>word分词</em>器怎样安装在java中-word分词,java实现分词器-乔山办公网

作者：乔山办公网日期：2020-06-10 00:46:34

返回目录：word文档

给个思路吧。
读取word用doc4j，然后就是百读成字符串进行处理了。
提取关键字首先是中文分词技术，就是把一段话划分成多个组成的词语，然后统计词语的出现次数，这个是度主要依据。这个是有实现的jar包的，可以去baidu搜，搜java 中文分词就行。
分词之后，记录词语出现位置，这个是辅助的依据，知记录词语一句话中的位置，越靠前越像关键字，权重越高。
甚至可能需要建立一个权重体系，次数设道置一个权重，整体位置设置一个权重，不同位置权重也不同。不了解权重可以理解成系回数（百分比的，然后计算那个词是关键词）。
同时需要答注意，可能需要排除一些常用词，哪些次需要排除，这个需要根据程序反复运行，读取不同word文章的结果来定。

word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。

如果需要安装word分词器可以参考下面的步骤：

1、确保电脑上已经安装了JDK软件和Eclispe工具，没有安装的可以到对应的官网下载安装：

JDK官网：http://

2、下载word分词器的相关e799bee5baa6e79fa5e98193e58685e5aeb9332jar包：

打开word分词器的官方github主页：https://github.com/ysc/word

下拉找到ReadME部分，点击“编译好的jar下载”：

页面将会跳转到到百度云盘的下载页面，按照需求下载指定的版本即可。

注意：word1.3需要JDK1.8。

下载完成之后解压到指定目录。

3、创建Java项目，导入word分词器的相关jar包：

打开Eclipse，右键创建Java project项目：

然后右键项目选择Build path打开导入页面，导入刚才下载的jar包到项目中：

导入成功之后就可以在自己的项目中使用word分词器了。

如何使用中文分词和自定义中文分词词典
可以使用下面的命令，启用中文分词。
1. CREATE EXTENSION zhparser;
2.
3. CREATE TEXT SEARCH CONFIGURATION testzhcfg (PARSER = zhparser);
4.
5. ALTER TEXT SEARCH CONFIGURATION testzhcfg ADD MAPPING FOR n,v,a,i,e,l WITH simple;
6.
7. --可选的参数设定e799bee5baa6e79fa5e98193e4b893e5b19e364
8. alter role all set zhparser.multi_short=on;
9.
10. --简单测试
11. SELECT * FROM ts_parse('zhparser','hello world! 2010年保障房建设在全国范围内获全面启动，从中央到地方纷纷加大了保障房的建设和投入力度。2011年，保障房进入了更大规模的建设阶段。住房城乡建设部党组书记、部长姜伟新去年底在全国住房城乡建设工作会议上表示，要继续推进保障性安居工程建设。');
12.
13. SELECT to_tsvector('testzhcfg','“今年保障房新开工数量虽然有所下调，但实际的年度在建规模以及竣工规模会超以往年份，相对应的对资金的需求也会创历史纪录。”陈国强说。在他看来，与2011年相比，2012年的保障房建设在资金配套上的压力将更为严峻。');
14.
15. SELECT to_tsquery('testzhcfg','保障房资金压力');

利用分词进行全文索引的方法如下。
1. --为T1表的name字段创建全文索引
2. create index idx_t1 on t1 using gin (to_tsvector('zhcfg',upper(name)));
3.
4. --使用全文索引
5. select*from t1 where to_tsvector('zhcfg',upper(t1.name))@@ to_tsquery('zhcfg','(防火)');

还可以使用自定义的中文分词词典，使用方法如下，注意自定义中文分词词典在内核小版本20160801和之后的版本才支持。
1. --确实的分词结果
2. SELECT to_tsquery('testzhcfg','保障房资金压力');
3.
4. --往自定义分词词典里面插入新的分词
5. insert into pg_ts_custom_word values ('保障房资');
6.
7. --使新的分词生效
8. select zhprs_sync_dict_xdb();
9.
10. --退出此连接
11. \c
12.
13. --重新查询，可以得到新的分词结果
14. SELECT to_tsquery('testzhcfg','保障房资金压力');

使用自定义分词的注意事项如下。
1. 最多支持1000000条自定义分词，超出部分不做处理，用户必须保证分词数量在这个范围之内。自定义分词与缺省的分词词典将共同产生作用。
2. 每个词的最大长度为128字节，超出部分将会截取。
3. 通过增删改分词之后必须执行selectzhprs_sync_dict_xdb();并且重新建立连接才会生效。

参考如下
1、快速体验
运行项目根目录下的脚本demo-word.bat可以快速体验分词效果
用法: command [text] [input] [output]
命令command的可选值为：demo、text、file
demo
text 杨尚川是APDPlat应用级产品开发平台的作者
file d:/text.txt d:/word.txt
exit

2、对文本进行分词
移除停用词：List<Word> words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者");
保留停用词：List<Word> words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者");
System.out.println(words);

输出：
移除停用词：[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者]
保留停用词：[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者]

3、对文件进行分词
String input = "d:/text.txt";
String output = "d:/word.txt";
移除停用词：WordSegmenter.seg(new File(input), new File(output));
保留停用词：WordSegmenter.segWithStopWords(new File(input), new File(output));

4、自定义配置文件
默认配置文件为类路径下的word.conf，打包在word-x.x.jar中
自定义配置文件为类路径下的word.local.conf，需要用户自己提供
如果自定义配置和默认配置相同，自定义配置会覆盖默认配置
配置文件编码为UTF-8

5、自定义用户词库
自定义用户词库为一个或多个文件夹或文件，可以使用绝对路径或相对路径
用户词库由多个词典文件组成，文件编码为UTF-8
词典文件的格式为文本文件，一行代表一个词
可以通过系统属性或配置文件的方式来指定路径，多个路径之间用逗号分隔开
类路径下的词典文件，需要在相对路径前加入前缀classpath:

指定方式有三种：
指定方式一，编程指定（高优先级）：
WordConfTools.set("dic.path", "classpath:dic.txt，d:/custom_dic");
DictionaryFactory.reload();//更改词典路径之后，重新加载词典
指定方式二，Java虚拟机启动参数（中优先级）：
java -Ddic.path=classpath:dic.txt，d:/custom_dic
指定方式三，配置文件指定（低优先级）：
使用类路径下的文件word.local.conf来指定配置信息
dic.path=classpath:dic.txt，d:/custom_dic

如未指定，则默认使用类路径下的dic.txt词典文件

6、自定义停用词词库
使用方式和自定义用户词库类似，配置项为：
stopwords.path=classpath:stopwords.txt，d:/custom_stopwords_dic

7、自动检测词库变化
可以自动检测自定义用户词库和自定义停用词词库的变化
包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径
如：
classpath:dic.txt，classpath:custom_dic_dir,
d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt

classpath:stopwords.txt，classpath:custom_stopwords_dic_dir，
d:/stopwords_more.txt，d:/STOPWORDS_DIR，d:/STOPWORDS2_DIR，stopwords_dir，remove.txt

8、显式指定分词算法
对文本进行分词时，可显式指定特定的分词算法，如：
WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationAlgorithm.BidirectionalMaximumMatching);

SegmentationAlgorithm的可选类型为：
正向最大e69da5e6ba907a686964616f366匹配算法：MaximumMatching
逆向最大匹配算法：ReverseMaximumMatching
正向最小匹配算法：MinimumMatching
逆向最小匹配算法：ReverseMinimumMatching
双向最大匹配算法：BidirectionalMaximumMatching
双向最小匹配算法：BidirectionalMinimumMatching
双向最大最小匹配算法：BidirectionalMaximumMinimumMatching
全切分算法：FullSegmentation
最少分词算法：MinimalWordCount
最大Ngram分值算法：MaxNgramScore

9、分词效果评估
运行项目根目录下的脚本evaluation.bat可以对分词效果进行评估
评估采用的测试文本有253 3709行，共2837 4490个字符
评估结果位于target/evaluation目录下：
corpus-text.txt为分好词的人工标注文本，词之间以空格分隔
test-text.txt为测试文本，是把corpus-text.txt以标点符号分隔为多行的结果
standard-text.txt为测试文本对应的人工标注文本，作为分词是否正确的标准
result-text-***.txt，***为各种分词算法名称，这是word分词结果
perfect-result-***.txt，***为各种分词算法名称，这是分词结果和人工标注标准完全一致的文本
wrong-result-***.txt，***为各种分词算法名称，这是分词结果和人工标注标准不一致的文本

本文标签：word分词(1)java实现分词器(1)

java <em>word分词</em>器怎样安装在java中-word分词,java实现分词器

返回目录：word文档

1、确保电脑上已经安装了JDK软件和Eclispe工具，没有安装的可以到对应的官网下载安装：

2、下载word分词器的相关e799bee5baa6e79fa5e98193e58685e5aeb9332jar包：

3、创建Java项目，导入word分词器的相关jar包：

相关阅读

java <em>word分词</em>器怎样安装在java中-word分词,java实现分词器

怎样在word中画横线-Word小技巧——快速添加不同类型的横线

热门文章

word乘号-如何让Word中的页眉根据章节标题自动变化？插入一个域就可以

wwwhack黑客软件免费下载-word软件免费下载

word哥-厉害了word哥，虐了800遍它还能照开不误！

图片文字转换成word-如何实现图片转文字的简单方法

拜拜扫描仪！1秒将纸质文件变电子文档，微信这个免费功能太赞了-扫描文件转换成word

word下载安装-Lighttpd SSL安装文档

聚合标签

ppt怎么做_excel表格制作_office365_word文档_365办公网