文本处理，nltk清洗+bert分词

最新推荐文章于 2024-07-22 21:21:48 发布

Wenliam

最新推荐文章于 2024-07-22 21:21:48 发布

阅读量94

点赞数 1

文章标签： bert 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weston95/article/details/132524407

版权

import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from transformers import BertTokenizer

# 读取Excel文件
file_path = 'Laos news overall.xlsx'
sheet_name = 'Sheet1'  # 修改为实际的工作表名称
data = pd.read_excel(file_path, sheet_name=sheet_name)

# 清除NaN值，将它们替换为一个空字符串
data['内容'].fillna('', inplace=True)

# NLTK停用词
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

# 使用NLTK进行文本清洗和分词
def preprocess_text(text):
    text = re.sub(r'[^\w\s]', '', text)  # 去除标点符号
    text = text.lower()  # 转换为小写
    tokens = nltk.word_tokenize(text)  # 分词
    tokens = [word for word in tokens if word not in stop_words]  # 去除停用词
    return tokens

data['cleaned_content'] = data['内容'].apply(preprocess_text)

# 使用BERT进行分词
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
data['bert_tokens'] = data['cleaned_content'].apply(lambda tokens: " ".join(bert_tokenizer.tokenize(" ".join(tokens))))

# 将分词结果保存为CSV文件
data.to_csv('news_bert_tokens.csv', index=False)

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本处理，nltk清洗+bert分词

tokens = [word for word in tokens if word not in stop_words] # 去除停用词。data['cleaned_content'] = data['内容'].apply(preprocess_text)text = re.sub(r'[^\w\s]', '', text) # 去除标点符号。tokens = nltk.word_tokenize(text) # 分词。data['内容'].fillna('', inplace=True)
复制链接

扫一扫

Wenliam

CSDN认证博客专家 CSDN认证企业博客

码龄4年

45: 原创

48万+: 周排名

23万+: 总排名

7644: 访问

: 等级

486: 积分

3: 粉丝

15: 获赞

6: 评论

21: 收藏

私信

关注

热门文章

最新评论

Python networkX共现图，通过LDA主题关键词共现
CSDN-Ada助手: 恭喜您写完了第19篇博客！标题看起来非常有趣，我很期待阅读您关于Python networkX共现图和LDA主题关键词共现的文章。您对这个主题的深入探索让我感到非常兴奋。不过，如果我可以提供一些建议的话，我希望您能在下一篇博客中进一步探讨一下如何使用这些工具来解决实际问题。希望您能够保持创作，并继续分享您的知识与见解！
Python制作gephi代码
CSDN-Ada助手: 恭喜您写了第20篇博客！阅读您的标题，我对您在Python制作gephi代码方面的专业知识和技能表示钦佩。您的持续创作展现了您对该领域的热情和才华。在下一步的创作中，我建议您可以考虑分享一些实践经验和技巧，或者深入探讨一些高级功能，以帮助读者更好地应用和理解Python制作gephi代码。期待您未来更多精彩的博客！
Coherence Score验证LDA主题分类水平
CSDN-Ada助手: 恭喜您写了第11篇博客！标题“Coherence Score验证LDA主题分类水平”听起来非常有深度。您的研究对于验证LDA主题分类的水平具有重要意义，这有助于提升主题模型的准确性和可解释性。接下来，我建议您可以考虑探索不同的主题模型评估指标，比如Perplexity指标，以便更全面地评估主题分类的效果。期待您未来更多的博客分享，谢谢您的努力！
LDA主题挖掘并通过一致性分数和困惑度进行验证
CSDN-Ada助手: 恭喜您写了第12篇博客！标题《LDA主题挖掘并通过一致性分数和困惑度进行验证》引起了我的兴趣。您对LDA主题挖掘的验证方法进行了深入研究，这是一个非常有价值的工作。我认为这篇博客的内容对于那些对主题挖掘感兴趣的读者来说一定很有帮助。在下一步的创作中，我希望您能继续探索LDA主题挖掘领域的一些挑战和解决方案。也许您可以尝试比较不同的验证方法，或者在实际应用中探索LDA主题挖掘的潜力。无论您选择哪个方向，我相信您的深入研究和实践经验将为读者提供更多有见地的观点和建议。请继续保持您的创作热情，并分享更多关于LDA主题挖掘的见解。期待您未来的博客！
两个新闻源发布新闻时间折线图对比
CSDN-Ada助手: 恭喜作者完成了第13篇博客！标题看起来非常有趣，我很期待阅读你的新文章。你的博客一直以来都提供了有价值的信息和观点，这次的主题似乎也很有潜力。如果可以的话，我建议你在博客中加入更多的数据和分析，以便读者更好地理解两个新闻源发布新闻时间的折线图对比。期待你的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。