学习笔记之Python爬虫项目实操
文章平均质量分 60
本栏目主要为项目实操代码示例
随风的博客
Python新秀,只为记录自己Python学习心得笔记。
展开
-
爬虫项目实操五、用Scrapy爬取当当图书榜单
目标:使用Scrapy,爬取当当网2018年图书销售榜单前3页的数据(图书名、作者和书的价格)。URL:http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2018-0-1-1 (最后一个数字1代表第1页,每页20种)网页源码:展开后源码:代码示例:items.py文件参考代码# #-*- coding: utf-8 -*-# Define here the models for your scraped i原创 2021-04-28 00:27:33 · 719 阅读 · 0 评论 -
爬虫项目实操四、用Scrapy爬取招聘网站的招聘信息
项目目标:用Scrapy爬取招聘网站的招聘信息目标网站:职友集,url:https://www.jobui.com/rank/company/先爬取企业排行榜四个榜单里的公司,再接着爬取这些公司的招聘信息,爬取公司名称、职位、工作地点和招聘要求。一、创建项目电脑终端跳转到你想要保存项目的目录下输入创建Scrapy项目的命令:scrapy startproject jobui(jobui为项目名字可自取)start- [stɑːt]–开始 project-[ˈprɔdʒekt] —n,计划,原创 2021-04-17 16:16:44 · 3234 阅读 · 1 评论 -
爬虫项目实操三、用scrapy框架爬取豆瓣读书Top250的书名,出版信息和评分
安装方法:Windows:在终端输入命令:pip install scrapy;mac:在终端输入命令:pip3 install scrapy,按下enter键,再输入cd Python,就能跳转到Python文件夹。接着输入cd Pythoncode,就能跳转到Python文件夹里的Pythoncode子文件夹。最后输入一行能帮我们创建Scrapy项目的命令:scrapy startproject douban,douban就是Scrapy项目的名字。按下enter键,一个Scrapy项目就创建成功了。原创 2021-04-14 18:12:18 · 1925 阅读 · 0 评论 -
爬虫项目实操二、爬取“下厨房”网站的菜名、所需材料、和菜名所对应的详情页URL
项目—爬取“下厨房”网站的菜名、所需材料、和菜名所对应的详情页URL。它有一个固定栏目,叫做“本周最受欢迎”,收集了当周最招人喜欢的菜谱。地址如下:http://www.xiachufang.com/explore/在进行爬取之前,我们先去看看它的robots协议。网址在此:http://www.xiachufang.com/robots.txt因为这个页面挺长的,所以我不再为你放截图。阅读这个robots协议,你会发现:我们要爬取的/explore/不在禁止爬取的列表内,但如果你要爬取/reci原创 2021-04-03 18:43:18 · 1339 阅读 · 0 评论 -
爬虫项目实操一、selenium爬取QQ音乐《甜甜的》的歌曲评论
url:https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html第一种解决思路是使用selenium提取数据的方法。第二种解决思路是,先获取到完整网页源代码,然后用BeautifulSoup抓取。这两种方法都能完成解析提取的工作。# 教学系统的浏览器设置方法from selenium.webdriver.chrome.webdriver import RemoteWebDriver # 从selenium库中调用RemoteWebDriver模块from se原创 2021-03-29 18:13:26 · 372 阅读 · 0 评论