我是按用户爬取的微博内容,没有爬取评论,微博初始数据格式如下:预处理阶段包括去除html格式、去除链接、emoji表情处理、分词、去停用词,提取微博中的话题名称和@人名等等。
(1)首先去除文本中的html标签,这个是借鉴了其他博主的,具体来源记不清了:
# 过滤文本中的html链接等
def delete_html(text_context)
re_tag = re.compile('</?\w+[^>]*>') # HTML标签
new_text = re.sub(re_tag, '', text_content)
new_text = re.sub(",+", ",", new_text) # 合并逗号
new_text = re.sub(" +", " ", new_text) # 合并空格
new_text = re.sub("[...|…|。。。]+", "...", new_text) # 合并句号
new_text = re.sub("-+", "--", new_text) # 合并-
text_content = re.sub("———+", "———", new_text) # 合并-
return text_content
(2)提取微博中的话题名称#和人名@
def find_topic_and_name(content):
topic_list=[]