当当网读书排行榜爬虫

该博客介绍了如何利用Python爬虫抓取当当网的五星图书排行榜信息,包括排名、图书封面、书名、作者、推荐数和价格,并将其存储到本地文件。通过正则表达式解析网页,使用requests库发送请求,以解决反复上网查看的不便。
摘要由CSDN通过智能技术生成

引言

课题背景

随着互联网的快速发展,网上购物逐渐成为一种广为人知的购物方式,并且深受人们的喜欢。读书可以增加一个人谈吐的质量和深度。读书,可以让你掌握知识,而知识就像呼吸 一样,吐纳之间,可以见人的气质与涵养。越来越多的人通过阅读来升华自己,而通过网上购买图书则成为了很多年轻人的首选。

目的和意义

对当当网Top500的爬取主要是为了将数据保存在本地文件,以方便随时查看。避免了反复上网查看的繁琐。

要实现的功能

将当当网五星排行榜中的排名,图片,书名,作者,100%推荐,五星评论数,价格爬取下来,并保存在记事本中。

开发环境

Win10, PyCharm

系统结构

先通过requests向网页发送请求,打开网页,然后通过re(正则表达式)获取网页数据,并通过time控制访问间隔时间,最后通过json将数据保存在记事本中。

实现代码

#导入模块
import requests
import re
import json
import time
import random


ua_list = [
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.0)'
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
    'Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12'
    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.472.33 Safari/534.3 SE 2.X MetaSr 1.0'
    ]
'''
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
}

#使用代理ip
proxies = {
    'http':'183.164.226.210:4216',
    'https':'183.164.226.210:4216',
}
'''

#加载页面
def get_html(url)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值