新浪微博数据预处理

最新推荐文章于 2025-02-16 22:14:37 发布

茄子子子子子

最新推荐文章于 2025-02-16 22:14:37 发布

阅读量7.7k

点赞数 6

分类专栏： python 新浪微博数据预处理文章标签：新浪微博数据预处理 emoji表情提取#和@ python

本文链接：https://blog.csdn.net/zln_whu/article/details/103439905

版权

这篇博客主要介绍了如何对新浪微博的数据进行预处理，包括去除HTML标签、提取话题#和人名@、使用jieba进行分词、停用词过滤，以及处理emoji表情。在处理过程中，遇到emoji存储到文件时的编码问题，通过将文件编码格式设置为utf8mb4解决了这一问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我是按用户爬取的微博内容，没有爬取评论，微博初始数据格式如下：预处理阶段包括去除html格式、去除链接、emoji表情处理、分词、去停用词，提取微博中的话题名称和@人名等等。

（1）首先去除文本中的html标签，这个是借鉴了其他博主的，具体来源记不清了：

# 过滤文本中的html链接等
def delete_html(text_context)
  re_tag = re.compile('</?\w+[^>]*>')  # HTML标签
  new_text = re.sub(re_tag, '', text_content)
  new_text = re.sub(",+", ",", new_text)  # 合并逗号
  new_text = re.sub(" +", " ", new_text)  # 合并空格
  new_text = re.sub("[...|…|。。。]+", "...", new_text)  # 合并句号
  new_text = re.sub("-+", "--", new_text)  # 合并-
  text_content = re.sub("———+", "———", new_text)  # 合并-
  return text_content

（2）提取微博中的话题名称#和人名@

def find_topic_and_name(content):
  topic_list=[]

最低0.47元/天解锁文章