GitHub 热榜第一:最全中华古诗词数据库,收录30多万诗词

点击上方“深度学习技术前沿”,选择“星标”公众号

资源干货,第一时间送达

收录 5.5 万首唐诗,超过 28 万首宋词,还囊括了诗经、论语、蒙学等……

这个名为 “chinese-poetry”、号称 “最全中文诗歌古典文集数据库” 的项目,今日登顶 GitHub 热榜第一。

截止发稿,这一项目已获得近 2.5 万标星,Fork 超过 4600,受欢迎度可见一斑。

项目发起者名为 Jackey,在 Teambition 从事运维自动化工作。他解释了为什么要做这个仓库:

从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。

10 大数据集

整个项目最核心的内容,就是数据集了。

目前,仓库中一共有 10 个数据集,分别是:全唐诗、全宋诗、全宋词、五代・花间集、五代・南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。

这些数据,都来自互联网。如何采集的?项目发起者也分享了全宋词爬取过程及数据分析。

为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。

围绕着数据库,他也进行了一个初步的词频分析:

但这些数据集的应用,远远不止于此。

8 大案例展示

在项目中,作者也放上了使用数据集的应用案例。

有基于浏览器的诗词网站,有安卓版的应用 “离线全唐诗”,有简体唐诗生成 (char-RNN),也诗词桌面和相关小程序等等。

传送门:

而且这些项目,也大都在 GitHub 上开源了。

为了您的方便,点击阅读原文链接,便可直达项目地址:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值