Releases: hankcs/HanLP
Releases · hankcs/HanLP
v1.2.9常规维护
- 修正隐马模型转移矩阵隐状态总数的统计和转移概率的计算
- 地名识别算法微调
- 改进数词识别效果, 修复数词识别导致的潜在问题
- 修复人名识别模块的问题
- 补充文档,整理代码
- 数据包依然兼容标准版data-for-1.2.8-standard.zip或完整版data-for-1.2.8-full.zip;海外用户请自由使用海外用户专用OneDrive链接
- Portable同步升级到v1.2.9
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.9</version>
</dependency>
v1.2.8新年快乐
- TextRankKeyword新增了一些接口,优化堆排序以实现TopN
- 新增一个有趣的“同义改写”功能:DemoRewriteText
- CoreStopWordDictionary支持自定义过滤逻辑
- 增强神经网络句法分析器对词表外词性的健壮性
- 允许用户在某些极端情况下(不标准的Java虚拟机,用户缺乏相关知识等)使用绝对路径下的配置文件
- 当用户词典与核心词典冲突时,进一步保证用户词典的优先级
- 微调了人名识别、机构名识别模型
- 微调了简繁转换词典
- 新版数据集:标准版data-for-1.2.8-standard.zip或完整版data-for-1.2.8-full.zip;海外用户请自由使用海外用户专用OneDrive链接
- Portable同步升级到v1.2.8
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.8</version>
</dependency>
v1.2.7基于神经网络模型的依存句法分析器
- 新增基于神经网络分类模型与转移系统的判决式依存句法分析器
NeuralNetworkDependencyParser
和对应的模型文件 - 新增流式ByteArrayStream,反序列化时内存占用减半
- CoNLLSentence支持for遍历
- 重构所有依存句法分析器
- 日本人名、机构名模型微调
- 新训练的CRF分词模型,与旧版本不兼容
- 新版数据包:data-for-1.2.7.zip
- Portable同步升级到v1.2.7,Maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.7</version>
</dependency>
v1.2.6用户词典优先级、CRF分词支持词典
- 改进:自定义词典的优先级高于核心词典
- 大幅补充了简繁分歧词典,对简繁转换和繁体中文分词支持更好
- CoreStopWordDictionary不过滤null词性
- 为CRFSegment添加自定义词典支持
- 修复了BinTrie和SegmentWrapper的潜在问题
- 一些模型、词典的人工微调
- 数据包依然兼容data-for-1.2.4.zip
v1.2.5繁体分词优化,CRF分词优化
- 新增加了一些工具,开放了对内部词库的动态读写
- CRFModel支持BiGram Feature Template,成为通用的模型类
- Suggester 增加removeAllSentences方法
- 优化繁体中文分词
- 优化CRF分词对标点的支持
- 数据包依然兼容data-for-1.2.4.zip
v1.2.4
- 调整用户词典作用为:分词后使用用户词典合并相邻词语
- KeywordExtractor排除空格换行等
- 优化地名识别模块对短地名的处理
- 词典加载期间提供更人性化的报错信息
- 默认关闭字符正规化
- 求解两个数组中最相近的数更新到一种O(n)时间的算法
- 自动校验CoreNatureDictionary.ngram.txt的缓存与CoreNatureDictionary.txt的缓存的一致性
- 词典微调,最新数据集:data-for-1.2.4.zip
- Portable同步升级到v1.2.4,Maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.4</version>
</dependency>
v1.2.3支持字符规范化
- 增加了字符正规化功能,该配置项位于hanlp.properties中,通过
Normalization=true
来开启 - 调整平滑参数,使得两个节点的代价一定比一个大
- 数词自动合并:零○〇一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟
- 防止原子分词造成图不连通
- 数据包依然兼容data-for-1.2.2.zip
v1.2.2并行化分词
1.分词器全面支持并行化分词:
segment.enableMultithreading(true); // 或者 segment.enableMultithreading(4);
2.修复JDK7下TextRankKeyword可能触发的issue #11
3.数据包小幅调整,修复了CRF标点黏着的问题:data-for-1.2.2.zip
4.Portable同步升级到v1.2.2,Maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.2</version>
</dependency>
v1.2.1
v1.2.0新增TnT分词器
- 分词器支持数词和数量词识别
- 消除CRF分词对句子开头的词语的错误合并
- 实现了一个基于HMM2-Trigram字符序列标注的分词器
- 加入了一些防止缓存不兼容的安全措施
- 词典减肥,新增TnT模型:data-for-1.2.0.zip
- 重构分词器