Releases: hankcs/HanLP
Releases · hankcs/HanLP
v1.5.0新词识别、词向量/文档向量模块
- 🚩《词向量》
- 🚩《新词识别》
- 数据包依然兼容data-for-1.3.3.zip: 国内网盘 或 海外連結
md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。 - Portable版同步升级到v1.5.0
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.5.0</version>
</dependency>
🎉感谢大快公司开源的新词识别与word2vec模块!
v1.4.0新增文本分类、情感分析模块
- 🚩请参考文档《文本分类与情感分析》
- 数据包依然兼容data-for-1.3.3.zip: 国内网盘 或 海外連結
md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。 - Portable版同步升级到v1.4.0
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.4.0</version>
</dependency>
🎉感谢大快公司开源的文本分类模块!
v1.3.5新特性、优化与维护
- 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment @TylunasLi
- 自定义词典支持热更新:#563 ,ngram模型支持热加载:#580
- 新增一个提高用户词典优先级的开关:#633
- 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"
- 开放TextRank关键词提取中的最大迭代次数参数:#577
- 为Term添加equal方法 @AnyListen
- TextRankKeyword 提取窗口相近词的强化 @tiandiweizun
- 文本摘要方法支持自定义句子分隔符 @wangdong
- 提高AC自动机健壮性,添加hasKeyword接口 @fnaith
- 修复BinTrie.remove不存在的key时导致的问题:#540
- 解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542
- CharTable.txt 添加上下标字符的对应关系 @AnyListen
- 将“\t”等不可打印的字符视作分隔符:#584
- 中文数词与阿拉伯数词切分开 @jian.li
- 修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。 @TylunasLi
- 校对CoreNatureDictionary.txt,删除以分号开头的错误词语:#221 (comment)
- 修复CoNLLWord中toString方法的bug @xu2333
- 微调人名识别模型:#562 删除人名识别模型中的高频动词D标签,降低误命中率,音译人名识别取消外国地名触发
- 修复Nature.fromString和IOUtil.loadDictionary:#626
- 修正简繁一多对应校验表,拼音等
- 数据包依然兼容data-for-1.3.3.zip: 国内网盘 或 海外連結
md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。
Portable版同步升级到v1.3.5
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.5</version>
</dependency>
🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!
v1.3.4修复Resin和部分集群IO
- 集群环境中CoreStopWordDictionary适配IOAdapter: #530
- 修复HDFS上的readBytesFromOtherInputStream:#536 (comment)
- 解决resin下自定义IOAdapter的IO异常:#528
- 修正TextUtility.isAllSingleByte:#526
- 修正了核心字典的”每xx"词性:#524
- 数据包依然兼容data-for-1.3.3.zip: 国内网盘 或 海外連結
md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包,请fork
一份并git clone https://github.com/YourName/HanLP.git
。
Portable版同步升级到v1.3.4
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.4</version>
</dependency>
特别鸣谢
@hx78
@realgzq
@junphine
@cicido
@AnyListen
🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!
v1.3.3常规维护
- CharType的二进制由程序自动生成,版本库内全部词典/模型实现明文文本储存维护
- 支持逗号分割的.csv格式词典(感谢@driventokill)
- 移除用于加载语料和训练模型的main方法,方便Spring用户:#391
- 在机构名识别的时候,词语保持自己的词性,而不是未##团的词性:#403 (comment)
- 增加一些方便语料处理的方法
- 机构名识别限定nrf为特征词的译名性前缀,删除一些类似于"的""之"等不能构成机构名的助词成分
- 修正一个拼音(感谢@mudsu)
- 移除TextRankKeyword中逻辑重复的语句(感谢@jsksxs360)
- 优化索引分词,以字典序保证子成分的顺序稳定:#496 (comment) ,改进索引分词的完整性,修复了索引分词中的各种问题(感谢@gxy0451和@panhaidong的issue)
- 微调BiGram模型、人名识别模型、机构名识别模型
- 去掉了portable版的文件存在校验逻辑,使其完整地支持root配置项和IOAdapter。旧版用户如果遇到兼容性问题,请参考升级指南
- 新版数据包data-for-1.3.3.zip: 网盘分流 或 电信下载 或 海外連結
md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
Portable版同步升级到v1.3.3
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.3</version>
</dependency>
🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!
v1.3.2新年快乐
🎁
- 机构名识别模式串匹配由AhoCorasick升级到AhoCorasickDoubleArrayTrie
- 人性化提示神经网络依存句法模型路径配置问题
- 索引模式支持用户词典全切分
- 默认停用词过滤器不再过滤单字
- 微调机构名识别模型,微调人名识别模型
- 修订简繁词典
- 新版数据包data-for-1.3.2.zip: 网盘分流 或 电信下载
- Portable版同步升级到v1.3.2
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.2</version>
</dependency>
v1.3.1常规维护
- 全部静态依存句法分析模型迁移到内存池
- 修复自定义词典的合并逻辑
- 数据包依然兼容data-for-1.3.0.zip
- Portable同步升级到v1.3.1
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.1</version>
</dependency>
v1.3.0新IO接口、内存池、臺灣正體、香港繁體
- 统一IO接口,实现com.hankcs.hanlp.corpus.io.IIOAdapter接口即可在不同的平台(Hadoop、Redis等)上运行HanLP
- 新的内存池:当内存足够时尽量缓存大模型,否则自动释放
- 支持简体、繁体、臺灣正體、香港繁體之间"一简对多繁""一繁对多简"极致转换
- 拼音转换可选保留无拼音的原字符:#307 (comment)
- 换行符的字符类型修改为分割符
- 新版数据包:data-for-1.3.0.zip
- Portable同步升级到v1.3.0,Maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.0</version>
</dependency>
v1.2.11常规维护
- portable版使用pathSeparator分割路径,自动补全/后缀
- 调整繁簡字典
- 微调人名、机构名识别模型
- 调整字符正规化表,采用文本形式维护
- 动态开启用户词性后依然支持隐马词性标注
- 修复部分JVM上的自定义词性功能
- 小优化:对于核心词典已存在的词语,用户词典直接覆盖其属性
- 新版数据包:data-for-1.2.11.zip
- Portable同步升级到v1.2.11,Maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.11</version>
</dependency>
v1.2.10支持自定义词性
- 实现了用户自定义词性,同时支持代码动态增加和词典文件增加用户词性;请参考demo
- 实现了URL识别,支持包括".中国"在内的大部分IANA顶级域名
- BinTrie实现了Externalizable接口,可直接序列化
- 修正BinTrie的remove方法
- DoubleArrayTrie小优化
- 为NShortSegment添加用户词典功能
- 拼音词库修正
-
回滚旧版简繁词典,调整简繁分词逻辑
- 人工校对了几个词语及词性
- 新版数据包:data-for-1.2.10.zip
- Portable同步升级到v1.2.10,Maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.10</version>
</dependency>