bert分词及词还原

Wenliam

已于 2023-09-04 19:57:50 修改

阅读量281

点赞数

文章标签：人工智能

于 2023-09-04 19:53:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weston95/article/details/132676488

版权

import pandas as pd
from transformers import BertTokenizer
import re

# 加载BERT分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 读取Excel文件中的文本数据（假设在第一个sheet中）
file_path = 'Indonesia news overall.xlsx'
df = pd.read_excel(file_path, header=0)  # 使用第一行作为列名

# 合并标题和内容到一列
df['合并文本'] = df['标题'].astype(str) + ' ' + df['内容'].astype(str)

# 对合并文本进行BERT分词
tokenized_texts = []
original_texts = []  # 用于存储还原后的文本

for text in df['合并文本'].values.tolist():
    tokens = tokenizer.tokenize(text)
    input_ids = tokenizer.convert_tokens_to_ids(tokens)
    
    # 将标记的ID转换回原始单词形式
    original_tokens = tokenizer.convert_ids_to_tokens(input_ids)
    
    # 去除特殊字符和标点符号
    cleaned_tokens = [token for token in original_tokens if re.match(r'^\w+$', token) and token != '[CLS]' and token != '[SEP]']

    # 将分词结果合并为一个字符串
    merged_text = " ".join(cleaned_tokens)
    tokenized_texts.append(merged_text)
    original_texts.append(" ".join(original_tokens))

# 将分词结果添加为新的列
df['Tokenized_Content'] = tokenized_texts

# 将还原后的文本添加为新的列
df['Original_Content'] = original_texts

# 删除合并文本列（如果不需要）
df.drop(columns=['合并文本'], inplace=True)

# 将带有分词结果的DataFrame写入新的Excel文件
output_file_path = 'Merged_Tokenized_News.xlsx'
df.to_excel(output_file_path, index=False)

print("合并分词结果后的数据已保存至 Merged_Tokenized_News.xlsx")

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Wenliam CSDN认证博客专家 CSDN认证企业博客

码龄4年

45: 原创

125万+: 周排名

-: 总排名

9082: 访问

: 等级

487: 积分

3: 粉丝

16: 获赞

6: 评论

22: 收藏

私信

关注

热门文章

最新评论

Python networkX共现图，通过LDA主题关键词共现
CSDN-Ada助手: 恭喜您写完了第19篇博客！标题看起来非常有趣，我很期待阅读您关于Python networkX共现图和LDA主题关键词共现的文章。您对这个主题的深入探索让我感到非常兴奋。不过，如果我可以提供一些建议的话，我希望您能在下一篇博客中进一步探讨一下如何使用这些工具来解决实际问题。希望您能够保持创作，并继续分享您的知识与见解！
Python制作gephi代码
CSDN-Ada助手: 恭喜您写了第20篇博客！阅读您的标题，我对您在Python制作gephi代码方面的专业知识和技能表示钦佩。您的持续创作展现了您对该领域的热情和才华。在下一步的创作中，我建议您可以考虑分享一些实践经验和技巧，或者深入探讨一些高级功能，以帮助读者更好地应用和理解Python制作gephi代码。期待您未来更多精彩的博客！
Coherence Score验证LDA主题分类水平
CSDN-Ada助手: 恭喜您写了第11篇博客！标题“Coherence Score验证LDA主题分类水平”听起来非常有深度。您的研究对于验证LDA主题分类的水平具有重要意义，这有助于提升主题模型的准确性和可解释性。接下来，我建议您可以考虑探索不同的主题模型评估指标，比如Perplexity指标，以便更全面地评估主题分类的效果。期待您未来更多的博客分享，谢谢您的努力！
LDA主题挖掘并通过一致性分数和困惑度进行验证
CSDN-Ada助手: 恭喜您写了第12篇博客！标题《LDA主题挖掘并通过一致性分数和困惑度进行验证》引起了我的兴趣。您对LDA主题挖掘的验证方法进行了深入研究，这是一个非常有价值的工作。我认为这篇博客的内容对于那些对主题挖掘感兴趣的读者来说一定很有帮助。在下一步的创作中，我希望您能继续探索LDA主题挖掘领域的一些挑战和解决方案。也许您可以尝试比较不同的验证方法，或者在实际应用中探索LDA主题挖掘的潜力。无论您选择哪个方向，我相信您的深入研究和实践经验将为读者提供更多有见地的观点和建议。请继续保持您的创作热情，并分享更多关于LDA主题挖掘的见解。期待您未来的博客！
两个新闻源发布新闻时间折线图对比
CSDN-Ada助手: 恭喜作者完成了第13篇博客！标题看起来非常有趣，我很期待阅读你的新文章。你的博客一直以来都提供了有价值的信息和观点，这次的主题似乎也很有潜力。如果可以的话，我建议你在博客中加入更多的数据和分析，以便读者更好地理解两个新闻源发布新闻时间的折线图对比。期待你的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。