Releases · hankcs/HanLP

25 Jun 06:56

hankcs

v1.6.5

b736074

v1.6.5跨平台稳定的自定义词性 Pre-release

Pre-release

Pre-release测试版

重构Nature枚举为类，避免反射，兼容最新JDK：#866
新增感知机分类器，基于此实现人名性别识别
新增一阶、二阶HMM
新增中文分词评测工具
支持使用环境变量HANLP_ROOT来代替hanlp.properties中的root
IOUtil读取空白文件时的稳定性，兼容 UTF8 file with BOM
IOUtil.loadDictionary支持标记整个词典的默认词性
DoubleArrayTrieSegment和AhoCorasickDoubleArrayTrieSegment支持构造自词典路径
修正感知机词法分析器在不进行命名实体识别时对字符的正规化 @wangzhe258369
微调人名识别模型、删除错误词条
修订CharTable，删除橙子和橘子的不合理的转换 @linuxsong
数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

21 May 02:19

hankcs

v1.6.4

515a919

v1.6.4常规维护

优化CorpusLoader、优化MutableFeatureMap的设计
优化新词发现，使结果不含分隔符:#826
TextRank提取关键词提升算法速度 @hlstudio
用户词典热更新时支持.csv @patrick_lin
增强词向量读取时的健壮性：#821
根据百度汉语和在线辞海修正拼音词典 @AnyListen
修订停用词词典 @duohappy
修复词法分析器禁用用户词典时发生的问题、修复词法分析器seg接口与命名实体识别的配合问题：https://github.com/hankcs/pyhanlp/issues/15#issuecomment-382583304 、修正结构化感知机多线程平均的问题
微调人名识别模型、新增月份词汇
数据包 data-for-1.6.4.zip md5=8b5b944f89c4052d0552bf8ad7479010
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

14 Apr 19:03

hankcs

v1.6.3

d535448

v1.6.3支持动态用户词典、自定义词性与优先级

词法分析器支持CustomDictionary.insert动态插入的用户词条
词法分析器支持用户词典中的自定义词性
词法分析器支持enableCustomDictionaryForcing提高用户词典优先级
NLPTokenizer默认使用感知机词法分析器
完善圆圈数字对应关系 @AnyListen
开放命名实体识别的特征提取方法
TextRankKeyword使用CoreStopWordDictionary的过滤器
删除人名识别中的BXD模式，优化日本人名识别
修复ViterbiSegment激活多个配置项带来的问题
微调bigram、微调人名识别模型
数据包兼容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.3</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

01 Apr 19:55

hankcs

v1.6.2

b035860

v1.6.2词法分析器支持词典、简繁和索引模式

所有词法分析器都支持用户词典、简繁、offset与全切分索引模式（需更新模型与CharTable）
CRF分词升级到CRF词法分析器，支持训练，与CRF++兼容
重构词法分析器，提供统一的接口。
HanLP.newSegment支持传入算法名称构造相应的分词器
Sentence支持翻译词性，方便记不住词性短码的初级用户
Sentence支持输出brat standoff format：http://brat.nlplab.org/standoff.html
修复DoubleArrayTrie的LongestSearcher
修订词库、修订CharTable、微调人名识别模型，解决：#772
新数据包 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
获取最新版的数据包，请fork并git clone一份仓库中的最新data。
Portable版同步升级到v1.6.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

23 Mar 16:19

hankcs

v1.6.1

a034ef9

v1.6.1常规维护

感知机分词性能评估、修正感知机词法分析器在空白字符串时的问题
感知机命名实体识别支持任意NER类型、开放词法分析器CWS、POS和NER的getter
修复MutableDoubleArrayTrieInteger遍历时可能产生的问题
优化角色标注人名识别的启发式规则
文本分句支持颗粒度
微调bigram、人名识别模型
依然兼容数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.6.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.1</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

15 Mar 23:40

hankcs

v1.6.0

ed29fdb

v1.6.0感知机词法分析器，动态双数组trie树 Pre-release

Pre-release

🚩《基于感知机的中文分词、词性标注与命名实体识别框架》
🚩《动态双数组trie树》
新数据包 data-for-1.6.0.zip md5=38d19afa881ddb00b213f4680259ce68
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。
Portable版同步升级到v1.6.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.0</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

16 Feb 18:06

hankcs

v1.5.4

e90d57c

v1.5.4常规维护

优化DoubleArrayTrieSegment的效率
废弃CRFDependencyParser：#730
改正CRF的Tag方法：#703 (comment)
加载核心词典词性转移矩阵失败时以IllegalArgumentException方式通知：#747
微调bigram、人名、机构名识别模型，修订繁体->台湾词典：#756 (comment)
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

31 Dec 04:09

hankcs

v1.5.3

7d11036

v1.5.3新年快乐

分词器多线程数默认系统CPU核心数
索引模式可选分词结果最小颗粒度：#670
识别带千位分隔符的数字，修复BaseNode中的toString()
微调人名识别模型、ngram；修订现代汉语补充词库、简繁词库
使word2vec命令行参数解析与原版兼容：#699
改正CRF的Tag方法：#703
修复word2vec缓存问题：#718
新词发现过滤使用LinkedList：#724
模型加载失败时统一throw new IllegalArgumentException，参考：#477 #116
数据包依然兼容data-for-1.5.3.zip：国内网盘或海外連結 md5=cadc96db94c3df070855706bb0f8429e
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.3</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户！

Assets 3

17 Nov 05:16

hankcs

v1.5.2

d449337

v1.5.2常规维护

优化CommonDictionary的加载速度
提高自定义词条以空格开头或结尾时的健壮性
数据包依然兼容data-for-1.3.3.zip：国内网盘或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包，请fork一份并git clone https://github.com/YourName/HanLP.git。

Portable版同步升级到v1.5.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

16 Nov 03:35

hankcs

v1.5.1

98b407d

v1.5.1常规维护

优化新词发现模块的内存占用：#667
word2vec优化，修复Vector类相关问题：#669
重构EnumItemDictionary，废弃了历史遗留的.trie .dat二次加载，用统一的.bin一次加载
数据包依然兼容data-for-1.3.3.zip：网盘分流或电信下载或海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c

Portable版同步升级到v1.5.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.5.1</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: hankcs/HanLP

v1.6.5跨平台稳定的自定义词性

v1.6.4常规维护

v1.6.3支持动态用户词典、自定义词性与优先级

v1.6.2词法分析器支持词典、简繁和索引模式

v1.6.1常规维护

v1.6.0感知机词法分析器，动态双数组trie树

v1.5.4常规维护

v1.5.3新年快乐

v1.5.2常规维护

v1.5.1常规维护