爬虫（二）：新浪财经爬虫（获取文本信息）

最新推荐文章于 2024-04-22 14:30:00 发布

小鬼207

最新推荐文章于 2024-04-22 14:30:00 发布

阅读量4.4k

点赞数 9

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_55857249/article/details/121377877

版权

新浪财经爬虫（获取文本信息）

BiuBiu，接上一篇文章，这一次，我并没有用东方财富网站，而是新浪财经网，当然，也是因为个人需要啦。但是我看了一下，大差不差，只要看懂那些div，就能够爬取。
首先给大家看一下需求：获取新浪财经网上公司研究的研究报告整篇文章，如下图：
在这里插入图片描述
（按照我上一篇文章，只能做到获取这页的相关信息，但是不能获取里面的具体内容）
当然，也是看了几个爬虫视频过来的，然后按照自己的理解加上调试，搞出来的
话不多说，直接上代码了

'''导入相关库'''
from lxml import etree     #解析文档
import bs4
import requests            #获取网页
import pandas as pd        #保存文件

'''构造循环爬取网页'''
#max_page = 3              #最大爬取页面
all_content = []          #内容
all_title = []             #爬取的标题存储在列表中
all_company = []
all_author = []
all_date = []              #爬取的时间存储在列表中
url = []                   #研究报告网页链接
href = []
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) 537.36'
    }#构造头文件，这是模拟真人登录（ps:有缺失，请自己动手）

获取网页以及文档

最低0.47元/天解锁文章

小鬼207

关注

9
点赞
踩
45

收藏

觉得还不错? 一键收藏
2
评论
爬虫（二）：新浪财经爬虫（获取文本信息）

新浪财经爬虫（获取文本信息）BiuBiu，接上一篇文章，这一次，我并没有用东方财富网站，而是新浪财经网，当然，也是因为个人需要啦。但是我看了一下，大差不差，只要看懂那些div，就能够爬取。首先给大家看一下需求：获取新浪财经网上公司研究的研究报告整篇文章，如下图：（按照我上一篇文章，只能做到获取这页的相关信息，但是不能获取里面的具体内容）当然，也是看了几个爬虫视频过来的，然后按照自己的理解加上调试，搞出来的...
复制链接

扫一扫