爬虫(二):新浪财经爬虫(获取文本信息)

新浪财经爬虫(获取文本信息)

BiuBiu,接上一篇文章,这一次,我并没有用东方财富网站,而是新浪财经网,当然,也是因为个人需要啦。但是我看了一下,大差不差,只要看懂那些div,就能够爬取。
首先给大家看一下需求:获取新浪财经网上公司研究的研究报告整篇文章,如下图:
在这里插入图片描述
(按照我上一篇文章,只能做到获取这页的相关信息,但是不能获取里面的具体内容)
当然,也是看了几个爬虫视频过来的,然后按照自己的理解加上调试,搞出来的
话不多说,直接上代码了

'''导入相关库'''
from lxml import etree     #解析文档
import bs4
import requests            #获取网页
import pandas as pd        #保存文件

'''构造循环爬取网页'''
#max_page = 3              #最大爬取页面
all_content = []          #内容
all_title = []             #爬取的标题存储在列表中
all_company = []
all_author = []
all_date = []              #爬取的时间存储在列表中
url = []                   #研究报告网页链接
href = []
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) 537.36'
    }#构造头文件,这是模拟真人登录(ps:有缺失,请自己动手)

获取网页以及文档

  • 9
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值