Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
blmoistawinde authored Dec 29, 2018
1 parent 1f7366c commit e92a293
Showing 1 changed file with 5 additions and 13 deletions.
18 changes: 5 additions & 13 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,9 +9,7 @@ Sow with little data seed, harvest much from a text field.
## 用途
HarvestText是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。

具体功能如下:

<a id="目录">目录:</a>
<a id="目录">具体功能如下:</a>
- [精细分词分句](#实体链接)
- 可包含指定词和类别的分词。充分考虑省略号,双引号等特殊标点的分句。
- [实体链接](#实体链接)
Expand All @@ -23,24 +21,18 @@ HarvestText是一个专注无(弱)监督方法,能够整合领域知识(
- [关系网络](#关系网络)
- 利用共现关系,获得关键词之间的网络。或者以一个给定词语为中心,探索与其相关的词语网络。
- [内置资源](#内置资源)
- 通用停用词,通用情感词,IT、财经、饮食、法律等领域词典。可直接用于以上任务。
- 通用停用词,通用情感词,IT、财经、饮食、法律等领域词典。可直接用于以上任务,以简单清晰的方式与本库的分词、分析等流程结合
- [新词发现](#新词发现)
- 利用统计规律(或规则)发现语料中可能会被传统分词遗漏的特殊词汇。也便于从文本中快速筛选出关键词。
- [文本摘要](#文本摘要)
- 基于Textrank得到一系列句子中的代表性句子中。
- [存取消除](#存取与消除)
- 可以本地保存模型再读取复用(pickle),也可以消除当前模型的记录。

在很多领域文本分析中,我们往往已经了解其中的一些关键词语或实体,例如小说文本分析中的人物名,电影评论中的演员名、角色名、影片名,足球评论文本中的球员、球队、乃至一些术语。在后面的分析中,它们可能是我们的重点关注对象,或者是可以利用它们来改进分词等基础任务、提供机器学习的一些基础特征。

内置停用词,特殊类型词,情感词等资源,并以简单清晰的方式与本库的分词、分析等流程结合。

本库就旨在于提供解决这些问题的一个简单易用的方案。
使用案例:
- [《三国演义》中的社交网络](https://blog.csdn.net/blmoistawinde/article/details/85344906)(实体分词,文本摘要,关系网络等)
- [2018中超舆情展示系统](https://blmoistawinde.github.io/SuperLegal2018Display/index.html)(实体分词,情感分析,新词发现\[辅助绰号识别\]等)

## 依赖
- jieba
- numpy, pandas
- networkx

## 用法

Expand Down

0 comments on commit e92a293

Please sign in to comment.