爬虫之爬取网页表格数据（四）

最新推荐文章于 2024-04-20 20:56:21 发布

木玉曾有约

最新推荐文章于 2024-04-20 20:56:21 发布

阅读量850

点赞数 1

分类专栏：爬虫 python 爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44439539/article/details/107052790

版权

爬虫同时被 2 个专栏收录

3 篇文章 1 订阅

订阅专栏

python 爬虫

3 篇文章 0 订阅

订阅专栏

使用BeautifulSoup、pandas解析网页，爬取数据

目标网站：http://s.askci.com/data/economy/00002/1/
第一种解析方法：使用BeautifulSoup代解析网页


import requests
import urllib3
urllib3.disable_warnings()
from bs4 import BeautifulSoup
from urllib.parse import urlencode

for i in range(1,3):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
                        'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
    }
    paras = {
        'reportTime':2020-6-30,
        'pageNum':i
    }
    #1.url
    url = 'https://s.askci.com/stock/a/0-0?' + urlencode(paras)
#2.请求资源
response = requests.get(url)
response.encoding = response.apparent_encoding
html = response.text
#3.解析网页   正则、xpath、bs4

# 第一种解析方法
soup = BeautifulSoup(html,'lxml')
#print(soup)
tr_list = soup.find_all('tbody')
for data in tr_list:
    print(data.text.split())

第二种解析方法：使用pandas解析网页

import pandas as pd
import requests
import urllib3
urllib3.disable_warnings()

url = "https://s.askci.com/data/economy/00002/1/"
response = requests.get(url,verify=False)

response.encoding = response.apparent_encoding
html = response.text

# 第二种解析方法
tb = pd.read_html(html,header=0)[0]
print(tb)
tb.to_csv("economic_indicators.csv")

第三种解析方法：还是使用pandas解析网页

import pandas as pd
import urllib3
urllib3.disable_warnings()

url = "https://s.askci.com/data/economy/00002/1/"
# 第三种解析方法
tb = pd.read_html(url,header=0)[0]
tb.to_csv("economic_indicators.csv")

最后一种解析方式最简洁，也易于理解

木玉曾有约

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
爬虫之爬取网页表格数据（四）

使用BeautifulSoup、pandas解析网页，爬取数据目标网站：http://s.askci.com/data/economy/00002/1/第一种解析方法：使用BeautifulSoup代解析网页import requestsimport urllib3urllib3.disable_warnings()from bs4 import BeautifulSoupfrom urllib.parse import urlencodefor i in range(1,3):
复制链接

扫一扫