从jieba分词到BERT-wwm——中文自然语言处理（NLP）基础分享系列（1）

最新推荐文章于 2024-03-20 09:34:41 发布

moronism189

最新推荐文章于 2024-03-20 09:34:41 发布

阅读量467

点赞数

文章标签：自然语言处理 bert 人工智能

本文链接：https://blog.csdn.net/weixin_49518391/article/details/126724688

版权

本文是自然语言处理（NLP）基础分享系列的一部分，旨在通过实际案例教授NLP基础知识。作者以识别假新闻为应用场景，使用Kaggle的WSDM - Fake News Classification数据集，探讨NLP在文本比较和分类中的应用。文章介绍了数据集结构，并说明将忽略英文翻译列，仅使用中文标题进行模型训练。

摘要由CSDN通过智能技术生成

`起源及致谢原作`

因为编写内部培训材料的需要，近期又重读了之前收藏的一篇博客《进入NLP 世界的最佳桥梁：写给所有人的自然语言处理与深度学习入门指南》
https://leemeng.tw/shortest-path-to-the-nlp-world-a-gentle-guide-of-natural-language-processing-and-deep-learning-for-everyone.html ，作者是东京工作的台湾数据科学家李孟，仍然颇感获益。
由于这毕竟只是一篇博客，对其中涉及的方法实现过程写得比较简略，加之作者是台湾人的缘故，语言上也有点别扭。
因此决定以该博客为蓝本，内容加以丰富和完善，写一个自然语言处理（NLP）基础知识分享系列。目的其一作为自己的知识沉淀，其二供感兴趣的初学者学习和python实践。

依据维基百科，NLP 的定义为：自然语言处理（NLP）是计算机科学以及人工智能的子领域，专注在如何让计算机处理并分析大量（人类的）自然语言数据。NLP 常见的挑战有语音辨识、自然语言理解、机器翻译以及自然语言的生成。
我们将围绕识别网络世界里的假新闻这个挑战场景，学习如何利用NLP知识进行工作，将使用来自Kaggle的公开数据集WSDM - Fake News Classification，

最低0.47元/天解锁文章

moronism189

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫