今天本想练习一下爬虫,获取豆瓣T250的电影信息。奈何.......
那我就只放一个框架吧,代码需要私聊(数据没有)
"""
流程
#1、爬取网页
#2、逐一解析(一般边爬取边解析)
#3、保存数据
"""
def main():
baseur1="https://movie.douban.com/top250?start=0&filter="
#1、爬取网页
datalist=getData(baseur1)
savepath=""
#3、保存数据
saveData(savepath)
#爬取网页
def getData(baseur1):
datalist=[]
#2、逐一解析(一般边爬取边解析)
return datalist
#3、保存数据
def saveData(savepath):
个人感觉爬虫思路很简单,难在解析数据部分,因为每一个网页的规律不同 。爬虫笔记就到此为止吧。