Releases · hankcs/HanLP

02 Nov 21:57

hankcs

v1.5.0

f06520b

v1.5.0新词识别、词向量/文档向量模块

🚩《词向量》
🚩《新词识别》
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.5.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.0</version>
        </dependency>

🎉感谢大快公司开源的新词识别与word2vec模块！

Assets 3

02 Nov 07:05

hankcs

v1.4.0

cc4bbeb

v1.4.0新增文本分类、情感分析模块

🚩请参考文档《文本分类与情感分析》
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.4.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.4.0</version>
        </dependency>

🎉感谢大快公司开源的文本分类模块！

Assets 3

22 Oct 05:55

hankcs

v1.3.5

08456f0

v1.3.5新特性、优化与维护

大幅优化CRF分词和二阶HMM分词，重构CharacterBasedGenerativeModelSegment @TylunasLi
自定义词典支持热更新：#563 ，ngram模型支持热加载：#580
新增一个提高用户词典优先级的开关：#633
支持98年人民日报的复合词语料格式，如"[中央/n 人民/n 广播/vn 电台/n]nt"
开放TextRank关键词提取中的最大迭代次数参数：#577
为Term添加equal方法 @AnyListen
TextRankKeyword 提取窗口相近词的强化 @tiandiweizun
文本摘要方法支持自定义句子分隔符 @wangdong
提高AC自动机健壮性，添加hasKeyword接口 @fnaith
修复BinTrie.remove不存在的key时导致的问题：#540
解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题：#542
CharTable.txt 添加上下标字符的对应关系 @AnyListen
将“\t”等不可打印的字符视作分隔符：#584
中文数词与阿拉伯数词切分开 @jian.li
修正全角年份识别中字符串长度错误，修正数字识别工具的错误，增加测试代码。支持读取包含BOM的文本文件。 @TylunasLi
校对CoreNatureDictionary.txt，删除以分号开头的错误词语:#221 (comment)
修复CoNLLWord中toString方法的bug @xu2333
微调人名识别模型：#562 删除人名识别模型中的高频动词D标签，降低误命中率，音译人名识别取消外国地名触发
修复Nature.fromString和IOUtil.loadDictionary：#626
修正简繁一多对应校验表，拼音等
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.3.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.5</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

22 May 02:29

hankcs

v1.3.4

01f8028

v1.3.4修复Resin和部分集群IO

集群环境中CoreStopWordDictionary适配IOAdapter： #530
修复HDFS上的readBytesFromOtherInputStream：#536 (comment)
解决resin下自定义IOAdapter的IO异常：#528
修正TextUtility.isAllSingleByte：#526
修正了核心字典的”每xx"词性:#524
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.3.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.4</version>
        </dependency>

特别鸣谢

@hx78
@realgzq
@junphine
@cicido
@AnyListen

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

07 May 01:56

hankcs

v1.3.3

336d215

v1.3.3常规维护

CharType的二进制由程序自动生成，版本库内全部词典/模型实现明文文本储存维护
支持逗号分割的.csv格式词典（感谢@driventokill）
移除用于加载语料和训练模型的main方法，方便Spring用户：#391
在机构名识别的时候，词语保持自己的词性，而不是未##团的词性：#403 (comment)
增加一些方便语料处理的方法
机构名识别限定nrf为特征词的译名性前缀，删除一些类似于"的""之"等不能构成机构名的助词成分
修正一个拼音（感谢@mudsu）
移除TextRankKeyword中逻辑重复的语句（感谢@jsksxs360）
优化索引分词，以字典序保证子成分的顺序稳定：#496 (comment) ，改进索引分词的完整性，修复了索引分词中的各种问题（感谢@gxy0451和@panhaidong的issue）
微调BiGram模型、人名识别模型、机构名识别模型
去掉了portable版的文件存在校验逻辑，使其完整地支持root配置项和IOAdapter。旧版用户如果遇到兼容性问题，请参考升级指南
新版数据包data-for-1.3.3.zip：网盘分流或电信下载或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.3.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

31 Dec 17:17

hankcs

v1.3.2

f0516cf

v1.3.2新年快乐

🎁

机构名识别模式串匹配由AhoCorasick升级到AhoCorasickDoubleArrayTrie
人性化提示神经网络依存句法模型路径配置问题
索引模式支持用户词典全切分
默认停用词过滤器不再过滤单字
微调机构名识别模型，微调人名识别模型
修订简繁词典
新版数据包data-for-1.3.2.zip：网盘分流或电信下载
Portable版同步升级到v1.3.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.2</version>
        </dependency>

Assets 3

07 Oct 03:38

hankcs

v1.3.1

bd34519

v1.3.1常规维护

全部静态依存句法分析模型迁移到内存池
修复自定义词典的合并逻辑
数据包依然兼容data-for-1.3.0.zip
Portable同步升级到v1.3.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.1</version>
        </dependency>

Assets 3

24 Sep 15:30

hankcs

v1.3.0

4e668b0

v1.3.0新IO接口、内存池、臺灣正體、香港繁體

统一IO接口，实现com.hankcs.hanlp.corpus.io.IIOAdapter接口即可在不同的平台（Hadoop、Redis等）上运行HanLP
新的内存池：当内存足够时尽量缓存大模型，否则自动释放
支持简体、繁体、臺灣正體、香港繁體之间"一简对多繁""一繁对多简"极致转换
拼音转换可选保留无拼音的原字符:#307 (comment)
换行符的字符类型修改为分割符
新版数据包：data-for-1.3.0.zip
Portable同步升级到v1.3.0，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.0</version>
        </dependency>

Assets 3

18 Aug 14:49

hankcs

v1.2.11

343be37

v1.2.11常规维护

portable版使用pathSeparator分割路径，自动补全/后缀
调整繁簡字典
微调人名、机构名识别模型
调整字符正规化表，采用文本形式维护
动态开启用户词性后依然支持隐马词性标注
修复部分JVM上的自定义词性功能
小优化：对于核心词典已存在的词语,用户词典直接覆盖其属性
新版数据包：data-for-1.2.11.zip
Portable同步升级到v1.2.11，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.11</version>
        </dependency>

Assets 3

21 Jun 11:22

hankcs

v1.2.10

f5c92a1

v1.2.10支持自定义词性

实现了用户自定义词性,同时支持代码动态增加和词典文件增加用户词性；请参考demo
实现了URL识别,支持包括".中国"在内的大部分IANA顶级域名
BinTrie实现了Externalizable接口,可直接序列化
修正BinTrie的remove方法
DoubleArrayTrie小优化
为NShortSegment添加用户词典功能
拼音词库修正

 回滚旧版简繁词典,调整简繁分词逻辑

人工校对了几个词语及词性
新版数据包：data-for-1.2.10.zip
Portable同步升级到v1.2.10，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.10</version>
        </dependency>

Assets 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

特别鸣谢

Releases: hankcs/HanLP

v1.5.0新词识别、词向量/文档向量模块

v1.4.0新增文本分类、情感分析模块

v1.3.5新特性、优化与维护

v1.3.4修复Resin和部分集群IO

特别鸣谢

v1.3.3常规维护

v1.3.2新年快乐

v1.3.1常规维护

v1.3.0新IO接口、内存池、臺灣正體、香港繁體

v1.2.11常规维护

v1.2.10支持自定义词性