![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python项目练习
文章平均质量分 54
洋芋本人
如果有问题可以在文章下面提出,有空会挑着解答,祝大家学习愉快
展开
-
爬取当当网 --------分布式爬虫scrapy_redis--------python爬虫案例
爬取当当网一、分析二、代码实现(一)准备程序(二)setting.py文件(三)hr.py文件(四)item.py文件(五)middlewares.py文件(六)pipelines.py文件 一、分析 爬取对象:当当网 http://book.dangdang.com/ 要求:获取三级类目的名称,并得到详情页书名和图片url 思路:先实现普通的scrapy爬虫,然后在改写成scrapy_redis 第一步 页面分析 需求:大分类 二级分类 三级分类 图书的名字和图片的src 大分类 整个大分类原创 2021-06-26 21:18:21 · 481 阅读 · 2 评论 -
爬取小米应用商城所类目APP -- 进程 - 进程池 - 多线程 - python爬虫案例
爬取的是小米各个应用类目的各个应用信息 首先你得明确这是ajax动态加载的, from multiprocessing import Pool import csv import requests import json from fake_useragent import UserAgent import time from bs4 import BeautifulSoup class Spider: def __init__(self,cate_id,name): self.原创 2021-06-07 23:52:36 · 719 阅读 · 5 评论 -
爬取汽车之家图片 - scrapy - crawlspider - python爬虫案例
爬取汽车之家图片 需求:爬取汽车之家某一个汽车的图片 第一步 页面分析 目标url: https://car.autohome.com.cn/photolist/series/265/p1/ https://car.autohome.com.cn/photolist/series/265/p2/ 第二页 https://car.autohome.com.cn/photolist/series/265/p3/ 第三页 观察网页很明显265是该车型的编码 页数p1 p2编码 观察图片url:原创 2021-06-07 03:27:35 · 878 阅读 · 0 评论 -
爬取腾讯招聘网站 - scrapy - python爬虫案例
腾讯案例 今后用什么方式来爬取数据? - 先实现功能 - 优化程序 是根据自己掌握技术的优先级 需求: 爬取腾讯招聘岗位 翻页 https://careers.tencent.com/search.html?index=1 第一页 https://careers.tencent.com/search.html?index=2 第二页 https://careers.tencent.com/search.html?index=3 第三页 第一步 分析页面 目标url。页面是动态加载的,想要爬取的原创 2021-06-06 17:46:53 · 808 阅读 · 1 评论 -
爬取古诗文网站 - scarpy - python爬虫案例
爬取古诗文网站 - scarpy - python爬虫案例 需求: 爬取古诗文网站中的 诗词的 标题 作者 朝代 内容 以及翻页 并保存 第一步 页面分析 ‘gushiwen.org’ ‘gushiwen.cn’ https://www.gushiwen.cn/default.aspx?page=2 第二页 (无视了) https://www.gushiwen.org/default_1.aspx 第一页 https://www.gushiwen.cn/default_2.aspx 第二页 ht原创 2021-06-05 18:16:25 · 765 阅读 · 0 评论 -
简单抢铁路票代码-selenium
简单12306抢票代码 利用selenium进行抢票 知识点selenium ‘stations.csv’ 文件,就是目前你铁路开设的站点和他们代码信息,通过代码将站点信息传送给网页,文件链接,提取码:je47 初始化站点:因为出发点和目的地的值是有固定选项的,而传的值value是有独特的代码,所以我们要找到全部代码,能满足将中文输入的地址,返回相应的代码,同时该标签是hidden类型,不能直接用send_keys() import csv from selenium import webdriver原创 2021-05-25 22:20:25 · 2013 阅读 · 2 评论 -
爬取各城市的天气 - BeautifulSoup - python
爬取各城市的天气 参考的数据来源:http://www.weather.com.cn/textFC/hb.shtml 一、BeautifulSoup 这个方法最简单 import requests import csv headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36原创 2021-05-11 20:27:56 · 346 阅读 · 0 评论 -
百度贴吧帖子爬取 -正则表达式 - BeautifulSoup - selenium - python爬虫
百度贴吧帖子爬取 观察单个帖子的结构 <ul id="thread_list" class="threadlist_bright j_threadlist_bright"> ### 中间省略一些,后面帖子都是li为节点 <li class=" j_thread_list clearfix thread_item_box" data-field='{"id":7329474777,"author_name&am原创 2021-05-03 00:55:41 · 1950 阅读 · 0 评论 -
豆瓣电影TOP250-正则-xpath-BeautifulSoup-selenium四种方法保存成csv-python爬虫
豆瓣电影TOP250 单个电影的信息 <div class="info"> <div class="hd"> <a href="https://movie.douban.com/subject/1292052/" class=""> <span class="title">肖申克的救赎</span>原创 2021-05-02 15:36:40 · 565 阅读 · 0 评论 -
下载堆糖图片-正则-xpath-BeautifulSoup-selenium-python爬虫
小项目-下载堆糖网页图片-python 直接批量下载网页图片,简单几步 一、观察json代码 从网页的检查进去,点击右箭头的地方后,再将光标锁定在图片上,右边就会对应的代码 可以很容易的看出,每一张图片都存在以a开头的,带有img、有src属性的代码中,src接的内容就是图片链接地址 二、下载图片链接 ## 要用到的包 import requests import json from bs4 import BeautifulSoup url=r'https://www.duitang.com/searc原创 2021-03-07 14:29:38 · 202 阅读 · 0 评论