利用Python爬取的数据存入Excel表格

IT白鸽

于 2019-10-09 15:00:05 发布

阅读量7.9k

点赞数 2

文章标签： Python 后端编程语言 Python爬虫网络爬虫

本文链接：https://blog.csdn.net/weixin_45523154/article/details/102460910

版权

本文介绍了如何使用Python进行网络爬虫，解析网页结构，然后将爬取的数据有效存储到Excel表格中，通过运行demo.py脚本，生成了名为qinshi.xlsx的文件。

摘要由CSDN通过智能技术生成

分析要爬取的内容的网页结构：

demo.py:

import requests    #requests是HTTP库
import re
from openpyxl import workbook  # 写入Excel表所用
from openpyxl import load_workbook  # 读取Excel表所用
from bs4 import BeautifulSoup as bs   #bs:通过解析文档为用户提供需要抓取的数据
import os
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8') #改变标准输出的默认编码

#我们开始利用requests.get（）来获取网页并利用bs4解析网页：
def getData(src):

    html = requests.get(src).content    # requests.get(src)返回的是状态码<Response [200]>，加上.content以字节形式（二进制返回数据。   和前端一样，分为get post等  http://www.cnblogs.com/ranxf/p/7808537.html
    soup = bs(html,'lxml')   # lxml解析器解析字节形式的数据，得到完整的类似页面的html代码结构的数据
    print(soup)

    global ws
    Name = []
    Introductions = []
    introductions = soup.find_all("a",class_="book-i