python项目
执笔写回憶
人生苦短,才学Python!
展开
-
selenium实现后台24小时平均温、全国降水量自动上传工作
注意: 需提前下载好四张图#!/usr/bin/env python# coding=utf-8# 实现pos24小时平均温、全国降水量自动上传工作# 1.jpg代表 旱涝监测预报# 2.jpg代表 全国降水量预报# 3.jpg代表 24小时平均温# 4.jpg代表 天气预报import time,osimport requestsfrom lxml import etreefrom selenium import webdriverfrom selenium.webdriv原创 2022-02-10 13:34:46 · 7541 阅读 · 0 评论 -
scrapy获取气象预警
qxyj.py:# -*- coding: utf-8 -*-import datetime,timefrom bs4 import BeautifulSoupimport requestsimport scrapyfrom QXYJ.items import QxyjItemclass QxyjSpider(scrapy.Spider): name = 'qxyj' allowed_domains = ['weather.com.cn'] # start_url原创 2021-09-26 15:24:44 · 185 阅读 · 0 评论 -
基于serializers,Django搭建服务器
写在前面:基于rest_framework,利用serializers序列化,完善django服务器api接口搭建,实现和微信小程序互通一、创建项目django-admin startproject wxPro二、注册app,进入到wxTest目录中python manage.py startapp api三、提前安装djangorestframework包四、在settings.py中添加rest_frameworkINSTALLED_APPS = [ 'dj.原创 2021-04-26 11:02:48 · 316 阅读 · 2 评论 -
python正则获取站长之家风景图,保存到本地
# -*- coding: utf-8 -*-# !/usr/bin/env python# 获取站长之家风景图:https://sc.chinaz.com/tupian/fengjingtupian.html,长时间爬取会出现图片响应超时的问题。# 首先从第一页中获取第一页所有图片详情页链接和下一页的链接# 对详情页就行解析下载,下载完毕请求下一页,并重复上一步操作,直到最后一页为止。# 在下载图片前,先获取所有已下载的图片名字,如果存在则不下载import os, re, timeim.原创 2020-12-20 17:08:59 · 226 阅读 · 0 评论 -
登录古诗文网,pytesseract图片验证码识别,最终获取我的收藏页面信息
# -*- coding: utf-8 -*-# !/usr/bin/env python# 登录古诗文网,图片验证码识别,最终获取我的收藏页面信息"""1、打开登录页面:https://so.gushiwen.cn/user/login.aspx2、输入用户名和密码3、下载验证码图片到本地,然后提示人工输入(或机器先识别,如果识别失败,则提示用户输入)4、登录成功,获取收藏页面信息:https://so.gushiwen.cn/user/collect.aspx"""import os.原创 2020-12-18 10:27:37 · 452 阅读 · 0 评论 -
Python+appium操作Android手机实现自动化
安装参考:http://www.python3.vip/tut/auto/appium/01/其他:https://www.cnblogs.com/king2/p/13683218.htmlimport timefrom appium import webdriverdesired_caps = { 'platformName': 'Android', # 被测手机是安卓 'platformVersion': '7', # 手机安卓版本 'deviceName': 'xx.原创 2020-11-16 19:07:48 · 1475 阅读 · 0 评论 -
scrapy获取陕西省政府采购网相关数据,存入MongoDB、Redis、MySQL数据库和本地表格(选用中间件随机请求头User-Agent和增加selenium操作)
1、创建Scrapy项目2.进入项目目录,使用命令genspider创建Spider3、定义要抓取的数据(处理items.py文件)4、编写提取item数据的Spider(在spiders文件夹下:allbooks.py)5.处理pipelines管道文件保存数据,可将结果保存到文件中(pipelines.py)6.配置settings文件(settings.py)7-选用,增加随机代理中间件(middlewares.py)7.记得提前打...原创 2020-11-12 15:28:06 · 714 阅读 · 1 评论 -
scrapy获取读书网书籍信息保存MongoDB、Redis、MySQL数据库和本地表格,并用ImagePipeline下载封面图
1、创建Scrapy项目scrapy startproject Dushu2.进入项目目录,使用命令genspider创建Spiderscrapy genspider dushu dushu.com3、定义要抓取的数据(处理items.py文件)import scrapyclass DushuItem(scrapy.Item): # 书籍ID book_id = scrapy.Field() # 书的链接地址 book_url = scrapy.原创 2020-11-04 13:08:42 · 333 阅读 · 1 评论 -
利用scrapy抓取读书网站关于多级分类书的信息,通过pipeline保存到MongoDB、Redis、MySQL数据库和本地表格
1、创建Scrapy项目scrapy startproject Dushu2.进入项目目录,使用命令genspider创建Spiderscrapy genspider dushu dushu.com3、定义要抓取的数据(处理items.py文件)import scrapyclass DushuItem(scrapy.Item): # 书籍ID book_id = scrapy.Field() # 书的链接地址 book_url = scrap..原创 2020-10-30 11:27:45 · 347 阅读 · 0 评论 -
scrapy获取起点完本书籍信息存入表格和MYSQL数据库,并用ImagePipeline下载封面图
1、创建Scrapy项目scrapy startproject qidian2.进入项目目录,使用命令genspider创建Spiderscrapy genspider wanben qidian.com3、定义要抓取的数据(处理items.py文件)import scrapyclass QidianItem(scrapy.Item): # define the fields for your item here like: # 书名 book_name原创 2020-09-16 15:04:35 · 252 阅读 · 0 评论 -
基于进程+线程实现多任务爬虫程序,爬取站长之家风景图片
#!/usr/bin/env python# coding=utf-8"""基于进程+线程实现多任务爬虫程序,爬取站长之家风景图片"""import timeimport uuidfrom multiprocessing import Queue, Processfrom threading import Threadimport requestsfrom lxml import etreefrom openpyxl import Workbookheaders = { .原创 2020-08-19 14:49:04 · 198 阅读 · 0 评论 -
简单爬取猫眼实时票房数据
https://piaofang.maoyan.com/dashboard# -*- coding: utf-8 -*-#!/usr/bin/env python# 猫眼票房:https://piaofang.maoyan.com/dashboardimport osimport timeimport datetimeimport jsonimport requestsfrom lxml import etreeclass PF(object): def __init__原创 2020-08-11 11:09:56 · 4671 阅读 · 0 评论 -
Python爬取拉勾网招聘信息,解决“您操作太频繁,请稍后访问”
# -*- coding: utf-8 -*-#!/usr/bin/env python# 爬取拉勾网职位信息import time,re,jsonimport requestsfrom urllib.parse import quotefrom lxml import etreeclass LG(object): def __init__(self,city): self.data_list = [] city = quote(city) .原创 2020-08-07 17:44:21 · 509 阅读 · 0 评论 -
selenium模拟点击京东商城搜索页产品
#!/usr/bin/env pythonimport timefrom selenium import webdriverfrom selenium.webdriver import ChromeOptionsfrom selenium.webdriver.common.keys import Keysclass JD(object): def __init__(self): # 反爬机制代码开始,采用此代码在F12控制台输入window.navigator.web.原创 2020-07-31 19:02:37 · 712 阅读 · 0 评论 -
利用scrapy_redis中间件增加代理简单爬取新片场前20页视频数据,并存入mysql数据库
1、创建Scrapy项目scrapy startprojectt XPC_REDIS2.进入项目目录,使用命令genspider创建Spider(注意后面允许爬取的域要增加)scrapy genspider xpc_redis xinpianchang.com3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass XpcRedisItem(scrapy.Item): # 视频id v原创 2020-07-30 17:47:11 · 333 阅读 · 0 评论 -
利用scrapy简单爬取新片场前20页视频数据,并存入mysql数据库
1、创建Scrapy项目scrapy startproject XPC2.进入项目目录,使用命令genspider创建Spiderscrapy genspider xpc xinpianchang.com openapi-vtom.vmovier.com3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass XpcItem(scrapy.Item): # 视频id v_id = sc原创 2020-07-29 10:10:20 · 739 阅读 · 0 评论 -
利用scrapy抓取国外图书网站关于书的信息,通过pipeline保存到MongoDB、Redis、MySQL数据库和本地表格(选用随机代理中间件)
1、创建Scrapy项目scrapy startproject AllBooks2.进入项目目录,使用命令genspider创建Spiderscrapy genspider allbooks allitebooks.org3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass AllbooksItem(scrapy.Item): book_name = scrapy.Field()原创 2020-07-23 17:58:34 · 10997 阅读 · 0 评论 -
采用bs4和xpath两种方法抓取国外图书网站关于书的信息,保存到MongoDB、Redis、MySQL数据库
# 抓取http://www.allitebooks.org/page/1/ 作者、书名、封面图链接import requestsimport jsonfrom lxml import etreefrom bs4 import BeautifulSoupclass AllBooks(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}" self..原创 2020-07-08 10:21:41 · 375 阅读 · 0 评论 -
python获取股市股票数据并播报和右下角弹窗提示,利用datetime和win32com模块,有针对性选择大盘晴雨表卡片
#!/usr/bin/env python# coding=utf-8# 获取股票数据并播报和弹窗提示import requests, reimport win32com.clientimport datetime,timefrom show_msg import TestTaskbarIconclass Check(): def __init__(self): ...原创 2019-05-14 11:05:37 · 1010 阅读 · 0 评论 -
获取迁木网QS世界大学排名信息
处理网址:http://www.qianmu.org/ranking/1528.htm# 获取qianmu迁木网QS世界大学排名信息import requestsfrom lxml import etreeimport redef fetch(start_url): '''请求并下载网页''' r = requests.get(start_url) if r.status_code != 200: r.raise_for_status() r原创 2020-07-03 18:06:48 · 457 阅读 · 0 评论 -
python查询POS后台获取指定时间和状态的订单存入到excel表格中
#!/usr/bin/env python# coding=utf-8# 查询pos后台指定时间和状态的订单import requestsimport refrom lxml import etreefrom openpyxl import Workbookimport time,osfrom requests.packages import urllib3from date...原创 2018-12-26 19:29:35 · 472 阅读 · 0 评论 -
scrapy爬取统计局的城乡代码,以目录文件夹形式生成,同时最后保存在excel中
1、创建Scrapy项目scrapy startproject Stats2.进入项目目录,使用命令genspider创建Spiderscrapy genspider stats stats.gov.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass StatsItem(scrapy...原创 2018-06-25 11:13:57 · 915 阅读 · 0 评论 -
Python3爬取西刺代理前2页国内高匿代理IP并验证有效性,若获取失败,使用快代理获取IP存入表格中
导入的ExcelUtil包:https://blog.csdn.net/z564359805/article/details/88874879#!/usr/bin/env python# coding=utf-8# 爬取西刺代理前2页国内高匿代理IP并验证有效性# 西刺代理若获取失败,使用快代理获取IP# https://www.xicidaili.com/nn/1import...原创 2019-03-28 18:18:18 · 2628 阅读 · 0 评论 -
python3利用selenium自动获取阿里社会招聘信息到表格(反爬selenium代码)
导入的debug_info包:https://blog.csdn.net/z564359805/article/details/85624881#!/usr/bin/env python# coding=utf-8# 自动获取阿里招聘信息from selenium import webdriverimport timefrom debug_info import Log_info...原创 2019-03-04 18:53:35 · 259 阅读 · 0 评论 -
Scrapy项目(东莞阳光网)---利用CrawlSpider爬取贴子内容,不含图片
1、创建Scrapy项目scapy startproject dongguan2.进入项目目录,使用命令genspider创建Spiderscrapy genspider -t crawl sunwz "wz.sun0769.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass D...原创 2018-06-14 13:50:26 · 488 阅读 · 0 评论 -
Scrapy项目(东莞阳光网)---利用Spider爬取贴子内容,包含图片(使用Pycharm)
1、创建Scrapy项目scapy startproject dongguan22.进入项目目录,使用命令genspider创建Spiderscrapy genspider xixi "wz.sun0769.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass Dongguan2I...原创 2018-06-14 15:46:09 · 372 阅读 · 0 评论 -
Scrapy项目(腾讯社会招聘)---利用Spider爬取招聘信息
1、创建Scrapy项目scrapy startproject tencent2.进入项目目录,使用命令genspider创建Spiderscrapy genspider TencentPosition "tencent.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapy# Item 定义...原创 2018-06-15 15:56:11 · 430 阅读 · 0 评论 -
Scrapy项目(腾讯社会招聘)---利用CrawlSpider爬取招聘信息
1、创建Scrapy项目scrapy startproject Tencent2Spider2.进入项目目录,使用命令genspider创建Spiderscrapy genspider -t crawl tencent "tencent.com"3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyc...原创 2018-06-15 16:29:27 · 494 阅读 · 0 评论 -
scrapy爬取新浪网导航页所有大类、小类、小类里的子链接,以及子链接页面的新闻内容
1、创建Scrapy项目scrapy startproject Sina2、进入项目目录,使用命令genspider创建Spiderscrapy genspider sina sina.com.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-# 爬取新浪网分类资讯# 爬取新浪网导航页下所有大类、小类、小类里的子链接,以...原创 2018-07-02 16:45:23 · 3642 阅读 · 0 评论 -
python爬取玉米、小麦、水稻信息数据到本地为网页形式和mysql数据库中
1、创建Scrapy项目scrapy startproject ExGrain2.进入项目目录,使用命令genspider创建Spiderscrapy genspider exgrain ex-grain.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass ExgrainItem(s...原创 2018-08-03 18:25:36 · 1268 阅读 · 0 评论 -
python3scrapy模块爬取国家粮油信息中心的政策法规和产业信息标题、文章内容等信息到数据库
1、创建Scrapy项目scrapy startproject Grain2.进入项目目录,使用命令genspider创建Spiderscrapy genspider grain grainoil.com.cn3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclass GrainItem(scr...原创 2018-08-10 13:59:40 · 1121 阅读 · 0 评论 -
python3利用scrapy_redis将cbs系统在线产品信息到excel表,以及封面图和详情图下载到本地
1、创建Scrapy项目scrapy startproject CbsProductRedis2.进入项目目录,使用命令genspider创建Spiderscrapy genspider cbsproductredis XXXX.com3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-# 获取cbs商家的在线产品信息,并保存...原创 2018-08-24 17:17:50 · 311 阅读 · 0 评论 -
python3利用scrapy_redis将pos后台数据包含价格、规格、起订量、销售区域等信息全部保存到excel中
1、创建Scrapy项目scrapy startproject PosProductRedis2.进入项目目录,使用命令genspider创建Spiderscrapy genspider posproductredis XXXX.com 3、定义要抓取的数据(处理items.py文件)# -*- coding: utf-8 -*-import scrapyclas...原创 2018-08-03 19:22:22 · 371 阅读 · 0 评论 -
selenium的webdriver.Chrome()模拟点击斗鱼页面
#!/usr/bin/env python# coding=utf-8from bs4 import BeautifulSoupimport unittestfrom selenium import webdriverimport timeclass Douyu(unittest.TestCase): # 初始化方法,必须是setUp def setUp(self...原创 2018-07-05 17:43:03 · 3370 阅读 · 0 评论 -
python3利用xlrd和openpyxl处理表格中以分号结尾固话和手机号的数据提取出手机号
导入的debug_info包:https://blog.csdn.net/z564359805/article/details/85624881表格形式如下:电话中是以分号分开的#!/usr/bin/env python# coding=utf-8# 处理蔬菜种植表格import xlrdfrom xlrd import xldate_as_tuplefrom ...原创 2019-03-08 15:21:14 · 670 阅读 · 0 评论 -
自动生成一个md格式文件,并在开头添加头部文件用于jekyll博客使用
当前目录下必须有“_posts”文件夹# coding=utf-8# 自动生成一个md格式文件,并在开头添加头部文件'''---layout: posttitle: Jekyll 语法简单笔记date: 2019-02-24 17:08:00 +0800categories: jekylltag: jekyll使用相关---* content{:toc}'...原创 2019-02-24 22:18:17 · 1628 阅读 · 0 评论 -
python3.6 scrapy模块查询POS后台获取指定时间和状态的订单存入到excel表格中
根据用户输入的日期区间,获取已完成和配送中的相关订单信息,并生成表格。一个订单可能包含多个产品,所以会有重复的订单号出现,其中运费、折扣金额、优惠券支付是根据当前订单中产品数量算出的平均值。1、创建Scrapy项目scrapy startproject Order2.进入项目目录,使用命令genspider创建Spiderscrapy genspider order XXXX...原创 2019-01-15 17:06:23 · 573 阅读 · 0 评论 -
python获取股票数据并播报,利用datetime和win32com模块
#!/usr/bin/env python# coding=utf-8# 获取股票数据并播报import requests,reimport win32com.clientimport datetimeclass Check(): def __init__(self): self.speaker = win32com.client.Dispatch("SA...原创 2019-01-04 11:02:49 · 591 阅读 · 0 评论 -
利用Python3的opencv等处理地展中采集的图片数据,生成表格后导入到网上示范田中
01_resize.py:修改图片尺寸为600*800或者800*600并保存到small文件夹中,若有错误会生成“第一步LOG日志.txt”文件。 #!/usr/bin/env python# coding=utf-8# 延伸阅读:https://www.cnblogs.com/shizhengwen/p/8719062.html# 修改图片尺寸为600*800或者800*600并保...原创 2018-11-24 16:33:11 · 816 阅读 · 0 评论 -
Python3图片文件批量重命名处理
#!/usr/bin/env python# coding=utf-8# 批量重命名图片名字从-2-01改成-1-01import osimport timeclass ImageRename(): def __init__(self): self.path = './' def rename(self): filelist = os....原创 2018-09-18 17:19:53 · 684 阅读 · 0 评论