较上次release已经一年啦,这段时间内已经更新了很多版本增加了一些新功能,主要包括:
- 各种文本清洗
- 微博格式去除,URL字符正则化,HTML标签去除等
- 命名实体识别
- 并基于命名实体识别,实现了一个实体发现与别名自动挖掘(实验性)
- 实体拼写错误识别(entity_linking中指定参数,来自动发现)
- 依存句法分析
- 事件三元组抽取(实验性)
- 文本自动分段Texttile算法(实验性)
并且调整了一些旧的API,使其使用更加方便或灵活。
详情可看现在的README,还有新增的API文档
继续用HarvestText在文本中收获果实吧!