加入收藏 | 设为首页 | 会员中心 | 我要投稿 潍坊站长网 (https://www.0536zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

为了背单词,我撸了一个插件

发布时间:2021-04-07 15:37:00 所属栏目:外闻 来源:互联网
导读:这是一份英文-中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。 创建者表示:最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的

这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。

创建者表示:最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。

其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。

数据格式

采用 CSV 文件存储所有词条数据,用 UTF-8 进行编码,用 Excel 的话,别直接打开,否则编码是错的。在 Excel 里选择数据,来自文本,然后设定逗号分割,UTF-8 编码即可

(编辑:潍坊站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读