学习笔记:python爬虫(第一次写笔记,多多包涵)

        近来活得有点闲,就想给自己找点事做,也不知道怎么的就瞄上python了。

        因为是网上自学,所接触的知识点也是零零散散,看到什么就学什么,不成章法。而python里的知识又有如恒河沙数,数不胜数。在学了点python的基础之后就不知道该干什么了。一度迷茫啊!偶尔在牛客上刷个题,发现就两题不会(这题不会,那题也不会),总感觉自己每天都没有进步,难受!

        于是乎,我给自己找了个方向---->学爬虫。奔着吃牢饭的程度去。坚持写学习笔记(这里一个一个字都是我辛辛苦苦一个一个拼音拼出来的,好辛苦好慢啊,可能还有很多错别字),记录我自己的学习历程。

        今天搞个汽车之家的二手车数据抓取,废话少说,上代码:

'''
python 爬虫 汽车之家 二手车数据抓取
需要实现车辆图片、名称、里程、年份、售价等信息的数据抓取及本地保存
'''
import requests  # 模块导入
import re
import os

image = '二手车'
if not os.path.exists(image):
    os.mkdir(image) #创建文件夹
url = 'https://www.che168.com/guilin/a0_0msdgscncgpi1ltocsp{}exx0/?pvareaid=102179#currengpostion'
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'}
pattern = '<img alt=.*?//2sc2(.*?)" onerror=.*?<h4 class="card-name">(.*?)</h4>            <p class="cards-unit">(.*?)</p>.*?<em>(.*?)</em>万</span>.*?</div>'
a = 0
for i in range(1,4):  # 总共有7页,我就搞3页试试手
    response = requests.get(url.format(i))
    response.encoding = 'gb2312' # 汽车之家网页源码charset=gb2312
    result = re.findall(pattern,response.text)
    for j in result:
        img = requests.get('https://2sc2'+j[0],headers=headers) #写正则时之所以要截取到'//2sc2'这里,因为网页源码里搞了些鱼目混珠
        # print(img.status_code)
        s = j[0].split('.')[-1] # 截取地址末尾得到图片格式,如’jpg‘
        file = open(image+'/'+j[1]+'.'+s,mode='wb')
        file.write(img.content)  # j[2:]后面那些东西不知道写哪里,怎么写?
        a += 1
        print(a) # 记个数,刷个存在感

        别看现在这个代码从头到尾跑一遍没有啥问题,可是在写的时候报错报了十七零八会啊。目标大致实现了,就是后面那些里程,售价等不知道写哪里?怎么写?搞出来的东西长这个样子

这里写个句号。 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值