学习笔记：python爬虫（第一次写笔记，多多包涵）

最新推荐文章于 2024-10-08 12:37:10 发布

郑连辉241

最新推荐文章于 2024-10-08 12:37:10 发布

阅读量140

点赞数 3

分类专栏：学习笔记文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_71142140/article/details/125320765

版权

学习笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

近来活得有点闲，就想给自己找点事做，也不知道怎么的就瞄上python了。

因为是网上自学，所接触的知识点也是零零散散，看到什么就学什么，不成章法。而python里的知识又有如恒河沙数，数不胜数。在学了点python的基础之后就不知道该干什么了。一度迷茫啊！偶尔在牛客上刷个题，发现就两题不会（这题不会，那题也不会），总感觉自己每天都没有进步，难受！

于是乎，我给自己找了个方向---->学爬虫。奔着吃牢饭的程度去。坚持写学习笔记（这里一个一个字都是我辛辛苦苦一个一个拼音拼出来的，好辛苦好慢啊，可能还有很多错别字），记录我自己的学习历程。

今天搞个汽车之家的二手车数据抓取，废话少说，上代码：

'''
python 爬虫 汽车之家 二手车数据抓取
需要实现车辆图片、名称、里程、年份、售价等信息的数据抓取及本地保存
'''
import requests  # 模块导入
import re
import os

image = '二手车'
if not os.path.exists(image):
    os.mkdir(image) #创建文件夹
url = 'https://www.che168.com/guilin/a0_0msdgscncgpi1ltocsp{}exx0/?pvareaid=102179#currengpostion'
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'}
pattern = '<img alt=.*?//2sc2(.*?)" onerror=.*?<h4 class="card-name">(.*?)</h4>            <p class="cards-unit">(.*?)</p>.*?<em>(.*?)</em>万</span>.*?</div>'
a = 0
for i in range(1,4):  # 总共有7页，我就搞3页试试手
    response = requests.get(url.format(i))
    response.encoding = 'gb2312' # 汽车之家网页源码charset=gb2312
    result = re.findall(pattern,response.text)
    for j in result:
        img = requests.get('https://2sc2'+j[0],headers=headers) #写正则时之所以要截取到'//2sc2'这里，因为网页源码里搞了些鱼目混珠
        # print(img.status_code)
        s = j[0].split('.')[-1] # 截取地址末尾得到图片格式，如’jpg‘
        file = open(image+'/'+j[1]+'.'+s,mode='wb')
        file.write(img.content)  # j[2:]后面那些东西不知道写哪里，怎么写？
        a += 1
        print(a) # 记个数，刷个存在感

别看现在这个代码从头到尾跑一遍没有啥问题，可是在写的时候报错报了十七零八会啊。目标大致实现了，就是后面那些里程，售价等不知道写哪里？怎么写？搞出来的东西长这个样子