新浪财经爬虫(获取文本信息)
BiuBiu,接上一篇文章,这一次,我并没有用东方财富网站,而是新浪财经网,当然,也是因为个人需要啦。但是我看了一下,大差不差,只要看懂那些div,就能够爬取。
首先给大家看一下需求:获取新浪财经网上公司研究的研究报告整篇文章,如下图:
(按照我上一篇文章,只能做到获取这页的相关信息,但是不能获取里面的具体内容)
当然,也是看了几个爬虫视频过来的,然后按照自己的理解加上调试,搞出来的
话不多说,直接上代码了
'''导入相关库'''
from lxml import etree #解析文档
import bs4
import requests #获取网页
import pandas as pd #保存文件
'''构造循环爬取网页'''
#max_page = 3 #最大爬取页面
all_content = [] #内容
all_title = [] #爬取的标题存储在列表中
all_company = []
all_author = []
all_date = [] #爬取的时间存储在列表中
url = [] #研究报告网页链接
href = []
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) 537.36'
}#构造头文件,这是模拟真人登录(ps:有缺失,请自己动手)
获取网页以及文档