python
瓶瓶罐罐的
一个热爱编程的女程序员,专注于web 开发,爬虫,大数据采集,处理
展开
-
django 中间件 和 模型
python :星矿项目复盘 -各个知识点一个项目的成功开发主要有测试环境配置文件和正式配置文件django settings 配置文件 的作用,中间件django 中间件是修改 django requests 和django response 对象的钩子 可以理解为 介于 Httprequest 与Httpresponse 之间的一道处理过程浏览器请求到响应的过程中 django 会有许多中间件来处理 如 session 中间件 token 中间件 csrftokrn中间件的作用 修改请求原创 2021-07-14 14:08:00 · 241 阅读 · 0 评论 -
ahocorasick 库 ac自动化 自动过滤违禁数据或者替换*
安装方式 pip install ahocorasick-python替换* 代码例子import ahocorasickweijin_list = ['小明','小红','啤酒']ac = ahocorasick.AhoCorasick(*weijin_list) # 从列表里匹配关键字def handle(old_str): if not old_str: return '' result = ac.search(old_str, True) str原创 2021-07-13 16:49:10 · 377 阅读 · 0 评论 -
spark在 python 中运用
RDD属性。只读:不能修改,只能通过转换操作生成新的 RDD。分布式:可以分布在多台机器上进行并行处理。弹性:计算过程中内存不够时它会和磁盘进行数据交换。基于内存:可以全部或部分缓存在内存中,在多次计算间重用# -*- coding: utf-8 -*-# uptime 8 月 26import requests# v36 二级违禁专项排查import timeimport jsonimport MySQLdb,zlibimport osimport syssys.path.原创 2021-07-13 16:35:16 · 708 阅读 · 0 评论 -
这段代码 在Python3下执行异常, python2 下 执行正常。
def test(): a='' try: raise Exception('111') except Exception as a: pass print(a)test()原创 2021-03-31 14:24:22 · 128 阅读 · 0 评论 -
分享一个 python 环境 执行 js 的库
目前用到的场景是,接口返回的是 js,用这个库之后,可以方便取值https://github.com/PiotrDabkowski/Js2Py原创 2021-03-31 14:14:12 · 141 阅读 · 0 评论 -
基于python 将表格 转化成html
安装包 pip install xlsx2htmlxlsx 表格样式如将excel 表格的内容转化成html ,并在页面中显示直接上代码# -*- coding: utf-8 -*-# 将表格 转化成htmlimport reimport osfrom xlsx2html import xlsx2htmldef re_html(name,proname): tb1_html = str(name).replace('.xlsx','c.html') tb2_html原创 2021-03-31 13:56:19 · 1864 阅读 · 0 评论 -
基于python 开发 微信机器人自动回复 app
基于python 开发 微信机器人自动回复 app# coding:utf-8__author__ = "zhou"# create by zhou on 2020/3/3from flask import Flask,render_template,requestimport threadingimport timeimport pywinautofrom pywinauto.controls.hwndwrapper import DialogWrapper, BaseWrapperim原创 2021-03-30 15:15:08 · 804 阅读 · 1 评论 -
从xlsx 文件中获取图片位置
从xlsx 文件中获取图片位置import base64import reimport xml.dom.minidom as xmldomimport osimport zipfileimport shutilimport xlrddef isfile_exist(file_path): if not os.path.isfile(file_path): print("It's not a file or no such file exist ! %s" % file原创 2021-03-30 14:05:43 · 444 阅读 · 0 评论 -
Python获取前几周的每周起止日期
一年中,前几月中,前几周中的每周起止时间-- coding: utf-8 --import datetimeimport timefrom datetime import timedeltacurrent = datetime.datetime.now()最近两个月的每周起止时间当前周前m周到后n周的每周开始日期和结束日期def every_weeks():m = -8n = 0# 当前日期now = datetime.datetime.now().date()period_lis原创 2020-05-23 10:41:42 · 1263 阅读 · 0 评论 -
Huey 和celery 的区别
huey配置简单,支持自动重试失败的任务轻量级;重在 轻量,代码也比较简单,没有 celery 功能强大,目前只支持redisHuey——负责协调可执行任务和队列后端Huey.task()——装饰器来指示可执行任务Huey.periodic_task() ——装饰器以指示以周期性间隔执行的任务TaskResultWrapper.get() ——从任务获取返回值crontab() ——用于定义执行周期性任务的间隔时间huey 组成 生产,消费,队列,Python main.py 是生产者,.原创 2020-05-23 10:40:53 · 1225 阅读 · 1 评论 -
跨域请求方式,jsonp,cors,ajax
同源策略(Same origin policy)是一种约定,它是浏览器最核心也最基本的安全功能,如果缺少了同源策略,则浏览器的正常功能可能都会受到影响。可以说Web是构建在同源策略基础之上的,浏览器只是针对同源策略的一种实现请求的url地址,必须与浏览器上的url地址处于同域上,也就是域名,端口,协议相同.端口不一样就说明跨域了被拦截了,说明他不是同源,被拦截了方法一: get 和post 请求都支持cors 跨域资源共享:pip install django-cors-headers原创 2020-05-23 10:39:51 · 198 阅读 · 0 评论 -
pip 豆瓣配置
mac 配置配置pip 豆瓣源:mkdir ~/.pip cd ~/.pip vim pip.conf[global]timeout = 60index-url = http://pypi.douban.com/simpletrusted-host = pypi.douban.comwindows 配置在users 文件夹的\Administrator的文件下创建pip 文件,在pip 文件下写入[global]index-url = https://pypi.dou原创 2020-05-23 10:38:23 · 456 阅读 · 0 评论 -
写出高级的python 代码59 个有效方法
131python 3 字节和字符串 返回Python 3 open 函数的区别1 个方法 针对open 打开 以后通用 rb 或者 wb2 针对代码的重复出现,使用函数封装成方法,随时随用3学会使用asset4 使用列表表达式 而不是 filter 和map5 在列表中避免超过两个表达式6 复杂地方考虑生成器表达式:7 enumerate 比 range 好用修改为这样的zip 的使用,用户可将迭代的对象作为参数,然后打包一个个元组8 在 for where 循环体避免使用else原创 2020-05-23 10:36:20 · 955 阅读 · 0 评论 -
查询僵尸进程并杀死僵尸进程
所谓僵尸进程,就父进程已经结束了,子进程还在运行中,并且windows 没有僵尸进程一说命令:ps -A -o stat,ppid,pid,cmd | grep -e '^[zZ]'代码实现:# -*- coding: utf-8 -*-import timeimport psutil# 查看僵尸进程def restart_process(): pids = psutil.pids() for pid in pids: try: pr原创 2020-05-23 10:28:06 · 1212 阅读 · 1 评论 -
删除 谷歌浏览器缓存
import osimport shutildef mv_dir(): delList = [] delDir = b"C:\Users\Administrator\AppData\Local\Google\Chrome\User Data" delList = os.listdir(delDir) for f in delList: filePath = os.path.join(delDir, f) if os.path.isfile原创 2020-05-23 10:09:45 · 256 阅读 · 0 评论 -
python读取微软邮箱的验证码
1首先得知道邮箱的账号和密码2 开头smtp pop代码奉上# 读取邮件信息获取验证码def recv_email_by_pop3(email_address, password): import imaplib # 这里的服务器根据需要选择 server = imaplib.IMAP4_SSL("outlook.office365.com",993) server.login(email_address, password) # 邮箱中的文件夹,默认为'IN原创 2020-05-23 10:02:07 · 1753 阅读 · 1 评论 -
用python自动生成出生日期
限制条件,用户的出生日期必须是成年以上# 生成出生日期def create_assist_date(): datestart = "1970-06-28" dateend = '2000-06-28' datestart = datetime.datetime.strptime(datestart, '%Y-%m-%d') dateend = datetime.datetime.strptime(dateend, '%Y-%m-%d') date_list = [原创 2020-05-23 09:59:34 · 3586 阅读 · 0 评论 -
python 爬取微博关键词搜索
# coding:utf-8import reimport randomimport requestsimport timeimport hashlibimport jsonimport MySQLdbimport multiprocessingfrom django.utils.http import urlquotemysql_config = {"host": "*****8", "port": ,原创 2020-05-22 16:42:33 · 3624 阅读 · 4 评论 -
python 爬取搜狗微信关键词
# -*- coding: utf-8 -*-import randomimport requestsfrom pyquery import PyQuery as pqfrom urllib.parse import urlencode, quoteimport uuidimport timeimport reimport timeimport hashlibfrom utils.img_to_tencent import img_to_tencentdef md5(str):原创 2020-05-22 16:35:57 · 1175 阅读 · 1 评论 -
python 爬取今日头条关键词搜索
使用python 获取今日头条的关键词的文章使用进程池代码如下:# -*- coding: utf-8 -*-import requestsimport randomimport requestsimport jsonimport timeimport hashlibfrom utils.img_to_tencent import img_to_tencentdef md5(str): return hashlib.md5(str.encode('utf-8')).he原创 2020-05-22 16:31:45 · 2353 阅读 · 2 评论 -
微信公众号扫码登陆Python版
基于python 实现公众扫码登陆前提 申请公众号服务,配置相关信息,并在相关平台进行配置,就这么多东西实现逻辑,使用临时临时二维码,带参数的二维码扫码登陆流程,用户已经扫码关注,在登陆页面直接扫码登陆,用户未关注,则需要点击关注后,直接登录,我们使用带参数的场景值来区别是哪个用户进行扫码登陆场景值用户可以自定义,但是必须是唯一的,我用的时间戳我现在要做的功能,有账户绑定需求,并且是前后端分离的情况下,流程1当用户已经关注过,并且绑定账号,直接扫码登陆,当用户已经关注过,未绑定,需要扫原创 2020-05-22 15:22:05 · 2132 阅读 · 3 评论 -
微信公众号,点击事件
@csrf_exemptdef weixin_main(request): # get 请求是验证 if request.method == "GET": # 接收微信服务器get请求发过来的参数 signature = request.GET.get('signature', None) timestamp = request.G...原创 2019-12-24 13:56:02 · 907 阅读 · 0 评论 -
微信公众号关注后,关键词回复
@csrf_exemptdef weixin_main(request): # get 请求是验证 if request.method == "GET": # 接收微信服务器get请求发过来的参数 signature = request.GET.get('signature', None) timestamp = request.G...原创 2019-12-24 13:54:13 · 548 阅读 · 0 评论 -
微信公众号扫码关注并回复信息
1 接收微信 服务器get 请求发过来的参数@csrf_exemptdef weixin_main(request): # get 请求是验证 if request.method == "GET": # 接收微信服务器get请求发过来的参数 signature = request.GET.get('signature', None) ...原创 2019-12-24 13:52:30 · 2173 阅读 · 0 评论 -
公众号创建自定义菜单
def create_menu(request): ''' 公众号自定义创建菜单 :param request: :return: ''' # 获取token access_token = get_access_token() scheme = config["starkeyword_antd"]["scheme"] host...原创 2019-12-24 13:49:05 · 168 阅读 · 0 评论 -
公众号jsapi 支付,前后端分离
支付流程:用户进入公众号,引导用户授权,将code 传给后端,后端使用code 获取openid 后端调用下单接口,返回给前端订单号,拉起微信支付在公众号进行首选进行 绑定js 域名 网页授权域名 并填写验证文件,2在商户号进行支付授权目录,目前已经支持在根目录进行配置下面是前后端分离的情况下,支付授权目录填写的前端目录,网页授权域名填写也是前端域名1 进行网页授权,授权域名在微信公众平台...原创 2019-12-24 13:45:39 · 1237 阅读 · 1 评论 -
python 3 环境安装 与python2 各个版本的却别 django 2 和Django1 的区别
python2 django==1.4.22reverse导入 from django.core.urlresolvers import reverseurl 直接使用 正则 路径不使用url 函数导包不同 可以同级导包:from widgets import UEditorWidgetconfigparser Python2.x 中名为 ConfigParserdjango1 事务...原创 2019-12-24 11:58:53 · 588 阅读 · 0 评论 -
django.core.exceptions.AppRegistryNotReady: Apps aren't loaded yet.
原因:修改 django 2 以上 所有 app 下的 init 文件 不能引入同级的views 和urls 也 不能引入 models 只是一个初始化,由问题2 引出问题3 将init 文件下models1 错误原因2 :django.core.exceptions.AppRegistryNotReady: Apps aren’t loaded yet.app 不能加载,修改 dj...原创 2019-12-24 11:55:54 · 4092 阅读 · 0 评论 -
spark对于多Python版本配置
spark版本推荐: >= 2.4.0假设新的python3的路径为/usr/bin/python3整体规划:pyspark spark-submit 调用python2pyspark3 spark-submit3 调用python3配置方式:cp pyspark pyspark3vim pyspark3在最后一行exce语句上面添加如下的语句:export PY...原创 2019-12-24 11:54:03 · 1915 阅读 · 0 评论 -
nsq 学习
nsq 简介:nsq 是实时分布式消息处理平台,是基于go 语言开发的特点是● 分布式 (Distributed) 去中心化拓扑● 可伸缩 (Scalable) 横向扩展● 操作友好 (Ops Friendly) 简单的配置&部署● 可集成 (Integrated) 各种lib主要模块nsq主要有3个守护进程组成● nsqd 负责接收, 保存( … 暂存?), 传送消息.●...原创 2019-12-24 11:51:10 · 200 阅读 · 0 评论 -
xld 的使用
1 创建对象:book = xlrd.open_workbook(‘历史记录报表.xls’)table = book.sheet_by_index(0)2 获取所有的行nrow = table.nrows3 获取所有的字段信息for q in range(3,nrow):num +=1start_visit_time = table.cell(q,1).value # 访问开始...原创 2019-05-24 17:32:56 · 1795 阅读 · 0 评论 -
Python 将 计时时间转为秒
def test(t):h,m,s = t.strip().split("原创 2019-05-24 17:31:15 · 806 阅读 · 0 评论 -
Python 从链接里提取域名
1 导入包import urlparse2first_url = ‘https:zhplz.com’domain = urlparse.urlparse(first_url).netlocprint domain原创 2019-05-24 17:29:33 · 1621 阅读 · 0 评论 -
Python 列表操作
示例:first_url = “https:zhplz.com&aadf&fsdak”if ‘e_keywordid’ in str(first_url): # # 关键词id(从搜词访问页面取)keyword_id = first_url.strip().split("&")len1 = len(keyword_id)keyword_id = keywor...原创 2019-05-24 17:26:58 · 161 阅读 · 0 评论 -
5分钟 学会scrapy 爬虫框架
创建一个scrapy 项目定义提取的item编写网站的spider 并提取item提取数据保存到数据库#创建项目 scrapy startproject bmlink![会显示这样的,scrapy.cfg :项目的配置文件bmlink :python 模块items.py item 文件pipelines.py 管道#定义item保存爬取数据的容器import s...原创 2018-10-11 11:23:27 · 454 阅读 · 0 评论 -
Python版,百度站长链接推送到百度
为了提高搜索效率,也让搜索引擎更容易发现自己的网站,需要把自己的链接提交到百度百度站长链接 链接提交方式 1主动推送,用代码写推送链接,建议将当天产出的新链接推送给百度 2sitemap 以站点地图的方式推送,将sitemap 提交到百度,百度会周期性的抓取sitemap推送实例Python版 多个URL实例import requestsurls = ['https://...原创 2018-09-17 14:24:45 · 2032 阅读 · 3 评论 -
微信小程序之dajngo后端开发
微信小程序后端开发微信小程序的后端与普通web 后端的区别微信小程序登录流程解决小程序post 问题微信小程序的后端与普通web 后端的区别微信小程序与普通的restful api 大致上相同,需注意以下几点限制 1 必须使用https 协议请求后端服务器 2 不支持cookie 3 不支持django 内置的user 登录,因为它使用的是微信用户系统,可以使用,...原创 2018-07-26 15:41:30 · 1538 阅读 · 0 评论