-
Notifications
You must be signed in to change notification settings - Fork 1.1k
双解释义
Linwei edited this page Apr 7, 2017
·
2 revisions
当然要双解,诸如 WordNet,wiktionary.org 等提供了大量开放的释义资料。同时针对各类考试大纲词汇,网上有不少带释义的单词表供人下载,这些数据有的有错误,有的格式不统一,有的缺音标,有的缺英文释义,有的却中文释义,质量层次补齐,需要书写必要的代码来一次次整理统计,纠正和补全。
索性类似 NodeBox, WordNet 之类的开放语料库提供了针对 Python 的自然语言处理工具包,可以 pip下载下来,直接分析词汇和定义,还有词形变化,反义词近义词等。
释义参考了大量资料,包括不限于:
名称 | 解释 |
---|---|
各类资料 | 各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0-1.rpm |
考试大纲 | 网上各种带释义的考试大纲词表 |
NodeBox | 自然语言工具包,带 11487个动词,4600个副词,2万个形容词及 11万个名词的资料 |
WordNet | 普林斯顿自然语言处理资料库和工具包 |
Wiktionary | 多种语言的释义维基百科资料,由各国用户贡献的各类词条 |
Wikepedia | 维基百科收录了大量词条解释 |
CEDIT | 中文到英文的开放词典数据库,根据中文到英文的释义,反解出英文到中文的释义 |
TheFreeDictionary.com | 多语言开放词典 |
Google Cloud Translation | |
foldoc.org | Free Online Dictionary Of Computing |
linguee.com | 数亿词条解释 |
Babylon | 各类词条数据来源聚合 |
Urban Dictionary | 俚语俗语释义 |
Plain Text English Dictionary | 提供免费开放的纯文本格式的 16万英文单词释义 |
屌丝词典 | 网友自制的开源英汉-汉英词典 - diaosi |
大量资料需要整合编辑校对,幸好有各种自然语言处理的开发包,可以用来做这件事情,制定评分标准,一个词语多个出处,选择最恰但准确的,核心词汇进行人工校对,部分不全的词条使用英翻中来解决。