自然语言处理的数据集（语料库）制作

最新推荐文章于 2024-04-02 10:56:56 发布

znsoft

最新推荐文章于 2024-04-02 10:56:56 发布

阅读量1.3k

点赞数 1

分类专栏：人工智能落地文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/znsoft/article/details/117618757

版权

数据抓取数据清理模型验证数据评价机器学习标注

关键词由CSDN通过智能技术生成

人工智能落地专栏收录该内容

20 篇文章

订阅专栏

最近在做一些敏感内容检测的研究工作。苦于数据集缺乏，折腾了很久后发现没有合适的数据集可供使用，遂决定自行开发数据集，并期望在这个数据集上发一系列的文章。

查看了很多资料后发现网上大部分资料描述的数据制作方法都不是一个完整的方案，查阅了一些论文和书籍后发现，目前最好的参考资料是 James Pusterjovsky 等著的《面向机器学习的自然语言标注》，机械工业出版社，2017版。

本书讲述了自然语言语料标注，语料库分析以及机器学习等知识，给大家成体系地讲述了数据集制作的一般方法与流程。

按我目前的需求，正在进行第一步：

１．　数据抓取

2. 数据清理

3. 模型验证

4. 数据评价

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。