利用Python爬取的数据存入Excel表格

本文介绍了如何使用Python进行网络爬虫,解析网页结构,然后将爬取的数据有效存储到Excel表格中,通过运行demo.py脚本,生成了名为qinshi.xlsx的文件。
摘要由CSDN通过智能技术生成

分析要爬取的内容的网页结构:

demo.py:

import requests    #requests是HTTP库
import re
from openpyxl import workbook  # 写入Excel表所用
from openpyxl import load_workbook  # 读取Excel表所用
from bs4 import BeautifulSoup as bs   #bs:通过解析文档为用户提供需要抓取的数据
import os
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

#我们开始利用requests.get()来获取网页并利用bs4解析网页:
def getData(src):

    html = requests.get(src).content    # requests.get(src)返回的是状态码<Response [200]>,加上.content以字节形式(二进制返回数据。   和前端一样,分为get post等  http://www.cnblogs.com/ranxf/p/7808537.html
    soup = bs(html,'lxml')   # lxml解析器解析字节形式的数据,得到完整的类似页面的html代码结构的数据
    print(soup)

    global ws
    Name = []
    Introductions = []
    introductions = soup.find_all("a",class_="book-i
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值