古诗词相关词库

相关词库

1、人名语料库:
https://github.com/wainshine/Chinese-Names-Corpus
wainshine/Chinese-Names-Corpus
人名抽取功能 python package cocoNLP,欢迎试用(可用于中文分词、姓名识别)
2、古诗词库: https://github.com/panhaiqi/AncientPoetry
repo 更全的古诗词库
3、同义词库、反义词库、否定词库:
https://github.com/panhaiqi/AncientPoetryguotong1988/chinese_dictionary
4、各种中文词向量: https://github.com/Embedding/Chinese-Word-Vectors
中文词向量大全
5、 情感波动分析:https://github.com/CasterWx/python-girlfriend-mood/
词库已整理到本repo的data文件夹中.
本repo项目是一个通过与人对话获得其情感值波动图谱, 内用词库在data文件夹中.
6、中文问答数据集:链接 提取码: 2dva
7、句子、QA相似度匹配:MatchZoo https://github.com/NTMC-Community/MatchZoo
文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。
8、Texar - Toolkit for Text Generation and Beyond: https://github.com/asyml/texar
基于Tensorflow的开源工具包,旨在支持广泛的机器学习,特别是文本生成任务,如机器翻译、对话、摘要、内容处置、语言建模等
9、 中文事件抽取:https://github.com/liuhuanyong/ComplexEventExtraction
中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
10、NLP太难了系列: https://github.com/fighting41love/hardNLU
11、中文自然语言处理 语料/数据集:https://github.com/SophonPlus/ChineseNlpCorpus竞品:THUOCL(THU Open Chinese Lexicon)中文词库
12、分词语料库+代码:百度网盘链接https://pan.baidu.com/share/init?surl=MXZONaLgeaw0_TxZZDAIYQ

提取码: pea6
keras实现的基于Bi-LSTM + CRF的中文分词+词性标注
基于Universal Transformer +
CRF 的中文分词和词性标注 快速神经网络分词包 java version

13、文档图谱自动生成 https://github.com/liuhuanyong/TextGrapher

TextGrapher - Text Content Grapher based on keyinfo extraction by NLP method。输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示
14、基于依存句法与语义角色标注的事件三元组抽取https://github.com/liuhuanyong/EventTriplesExtraction
15、cnocr:用来做中文OCR的Python3包,自带了训练好的识别模型 https://github.com/breezedeus/cnocr
16、中文人物关系知识图谱项目 https://github.com/liuhuanyong/PersonRelationKnowledgeGraph

中文人物关系图谱构建
基于知识库的数据回标
基于远程监督与bootstrapping方法的人物关系抽取
基于知识图谱的知识问答等应用

17、一些关于自然语言的基本模型 https://github.com/lpty/nlp_base
18、中文知识图谱资料、数据及工具 https://github.com/husthuke/awesome-knowledge-graph
19、中文知识图谱:基于百度百科中文页面,抽取三元组信息,构建中文知识图谱 https://github.com/lixiang0/WEB_KG
20、中文命名实体识别:NeuroNER vs. BertNER
https://github.com/EOA-AILab/NER-Chinese
21、nlp4han:中文自然语言处理工具集(断句/分词/词性标注/组块/句法分析/语义分析/NER/N元语法/HMM/代词消解/情感分析/拼写检查 github
22、中文自然语言处理相关的开放任务,数据集, 以及当前最佳结果https://github.com/didi/ChineseNLP
23、brat rapid annotation tool: 序列标注工具http://brat.nlplab.org/index.html
24、大规模中文知识图谱数据::1.4亿实体 https://github.com/ownthink/KnowledgeGraphData
25、基于BERT的中文命名实体识别 https://github.com/lonePatient/BERT-NER-Pytorch
26、nlp相关的一些论文及代码, 包括主题模型、词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成(Text Generation)、文本相似性(Text Similarity)计算等,涉及到各种与nlp相关的算法,基于keras和tensorflow
https://github.com/msgi/nlp-journey
27、Python文本挖掘/NLP实战示例 https://github.com/kavgan/nlp-in-practice
28、Jiagu自然语言处理工具 - 以BiLSTM等模型为基础,提供知识图谱关系抽取 中文分词 词性标注 命名实体识别 情感分析 新词发现 关键词 文本摘要 文本聚类等功能 https://github.com/ownthink/Jiagu
29、中文关键短语抽取工具https://github.com/dongrixinyu/chinese_keyphrase_extractor
30、基于预训练模型的中文关键词抽取方法https://github.com/sunyilgdx/SIFRank_zh
31、中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html
32、本项目中的 NLP 数据集囊括了 NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集。具体而言,对于每一个数据集,项目作者都提供了数据集名称、更新时间、数据集提供者、说明、关键字、类别以及论文地址等几方面的信息。
项目地址:https://github.com/CLUEbenchmark/CLUEDatasetSearch

  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值