python爬虫简易流程 爬取豆瓣TOP250部电影相关信息
python爬虫简单流程
1.前提准备:
借助Chrome开发者工具(F12)来分析网页,找到需要的数据位置
2.爬取网页:
利用urllib2库获取页面
对每一个页面调用askURL函数获取页面内容
urllib2.Request生成请求
urllib2.urlopen发送请求获取响应,read获取页面内容
3.得到网页内容
对爬取的html文件进行解析,提取数据
使用BeautifulSoup定位特定的标签位置
使用正则表达式找到具体的内容,抽取数据
4.保存数据
利用python中xlwt库将抽取的数
原创
2021-02-10 14:32:54 ·
1150 阅读 ·
1 评论