东方财富网白酒吧的股评
爬取东方财富网股吧中白酒吧的评论和时间,下面分享两种方法。
第一种方法
from lxml import etree
# lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML
# 利用etree.HTML()将html字符串转化为element对象
import requests
from fake_useragent import UserAgent
# 生成随机请求头,反爬
import time
# 延迟,设置时间延迟
import csv
f = open('../白酒.csv', 'a', encoding='utf-8-sig', newline="") # 创建文件对象
# 修改文件名;mode指定文件写入方式为a,表示数据追加,w表示覆盖原文本,newline表示消除空行
csv_write = csv.DictWriter(f, fieldnames=['title', 'date']) #列名为title和date
csv_write.writeheader() #写入一次表头数据
#设置两个空列表
all_title = []
all_date = []
for i in range(1,3): #这里爬取两页数据,刚开始爬取一页可以去掉循环
print('##################正在抓取第{}页的数据#######################'.format(i))
url = 'http://guba.eastmoney.com/list,bk0896,f_{}.html'.format(str(i))
#复制自己的url
headers = {
'User-Agent': UserAgent().random # #生成随机请求头
}
response = requests.get(url=url, headers=headers) #发送http请求,获取响应数据
html = etree.HTML(response.text) #数据解析,服务器渲染需要去html中提取到我们想要的东西
title = html.xpath(