爬虫学习总结:
- 爬虫第一步:确定需求,今天爬虫的目的是什么。-
- 爬虫第二步:导入爬虫所需的库
import requests
import re
import time - 爬虫第三步:确认爬取所需的url 和请求头
url=‘http://www.爬取的网址/’
headers=={‘User-Agent’:’ 自己的user-agent '} - 爬虫第四步:requests 去获得网页数据
res=requests.get(headers=headers,url=url) - 爬虫第五步:解析网页数据,得到自己想要的部分。
- 爬虫第六步:将获得的数据存储
- 一点想法:
看了好多人的爬虫视频,也看了相关书籍,感觉自己目前最大的问题就是数据的解析部分,总是会出问题,也没想着爬取多难的数据,只是觉得,能够以下子从网页上爬取到很多东西,比如图片,一下子全部存储下来,真的很酷,希望在复习中学习。