自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 多进程爬虫

# coding=utf-8import requestsfrom lxml import etree# from queue import Queue# import threadingfrom multiprocessing import Processfrom multiprocessing import JoinableQueue as Queueimport time...

2019-09-22 13:45:02 206

原创 多线程爬虫

# coding=utf-8import requestsfrom lxml import etreefrom queue import Queueimport threadingimport timeclass QiuBai: def __init__(self): self.temp_url = "http://www.qiushibaike.com/8...

2019-09-22 13:42:01 215

原创 线程池爬虫

# coding=utf-8import requestsfrom lxml import etreefrom queue import Queuefrom multiprocessing.dummy import Poolimport timeclass QiubaiSpider: def __init__(self): self.url_temp = "...

2019-09-22 12:48:44 336

原创 协程池爬虫

# -*- coding: utf-8 -*-import gevent.monkygevent.monky.path_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queueimport timeclass QiubaiSpider: ...

2019-09-22 12:45:31 278

原创 Mongodb笔记

官方文档:添加链接描述1.mongodb和python交互 from pymongo import MongoClient client = MongoClient(host,port) collection = client[db名][集合名]# 添加一条数据ret = collection.insert_one({"name":"test10010","age":33}) # d...

2019-09-22 12:10:37 184

原创 爬虫框架scrapy中setting文件

1.settingUSER_AGENT 设置uaROBOTSTXT_OBEY 是否遵守robots协议,默认是遵守CONCURRENT_REQUESTS 设置并发请求的数量,默认是16个DOWNLOAD_DELAY 下载延迟,默认无延迟COOKIES_ENABLED 是否开启cookie,即每次请求带上前一次的cookie,默认是开启的DEFAULT_REQUEST_HEADERS 设...

2019-09-21 20:16:21 224

原创 爬虫笔记---常见的反爬手段和解决思路

1.通过headers字段来反爬1.1 通过headers中的User-Agent字段来反爬1.2 通过referer字段或者是其他字段来反爬1.3 通过cookie来反爬2.通过js来反爬2.1 通过js实现跳转来反爬2.2 通过js生成了请求参数2.3 通过js实现了数据的加密3. 通过验证码来反爬4. 通过验证码来反爬5. 其他的反爬方式5.1 通过自定义字体来反爬5...

2019-09-20 10:52:12 432

原创 爬虫笔记---构造随机User-Agent

import randomdef get_ua(): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 140) os_type = [ '(Windows NT 6.1; WOW64)', '...

2019-09-20 10:47:01 254

原创 爬虫模块scrapy框架命令,requests模块,retrying模块,requests中session,response常用属性,json.dumps,json.loads,json.load

1.scrapy框架创建项目:scrapy startproject 项目名创建爬虫:cd 项目名下 ,scrapy genspider 爬虫名 allowed_domains(网站)开启爬虫:scrapy crawl 爬虫名

2019-09-20 00:51:14 448

原创 正则表达式sub,findall,split,match,re.compile()

1.sub(规则,替换成的变量, 所要替代的变量)ret = re.sub(r"\d+", '998', "python = 997") # 998s = re.sub('\d', "s", "123p") # sssp2.findall(规则,搜寻的变量)ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")...

2019-09-19 21:53:00 364

原创 爬虫中遇到的问题Crawled (404),[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to

1.错误1:start_url不存在Crawled (200) <GET http://www.itcast.cn/robots.txt> (referer: None)DEBUG: Crawled (404) <GET http://www.itcast.cn/channel/teacher.shtml/> (referer: None)解决:复制url的完全地址...

2019-09-19 21:15:51 4374

原创 项目中requirements文件

pip freeze > requirements.txt # 将环境中的包以及版本号生成到文件中pip install -r requirements.txt # 安装文件中所有的包

2019-09-19 11:37:51 362

原创 xpath helper下载

xpath helper提取码:ekbp1.解压2.将解压后的crx文件拖到chrome浏览器的扩展程序即可

2019-09-18 11:45:05 34559 18

原创 windows怎么安装Chromedriver和PhantomJS

下载地址:chrome driver1.将解压的chromedriver.exe复制到python安装目录即可2.测试from selenium import webdriverdriver = webdriver.Chrome()driver.get("http://www.baidu.com")>> 弹出一个chrome新窗口,显示百度网页即成功3.注意点:无需添...

2019-09-17 21:48:14 274

原创 网站图标设置favicon.ico

>>加入一句代码,href改为自己的路径,图片名称设置为favicon.ico<link rel="shortcut icon" href="../static/favicon.ico" />

2019-09-14 13:41:25 406

原创 flask数据库mysql错误:ERROR:info:(pymysql.err.InternalError) (1054, "Unknown column 'SourceTable.id' in 'f

>>错误ERROR:info:(pymysql.err.InternalError) (1054, “Unknown column ‘SourceTable.id’ in ‘field list’”)>>当在python中进行数据库查询时候,出现如上错误,很有可能是数据库没有主键---------------------------------------------...

2019-09-14 13:20:33 559

原创 flask中redirect用法

1.直接用,可以直接写完整链接,可以写视图函数路径@index_blu.route('/1111')def test(): return redirect('http://www.baidu.com')@index_blu.route('/3')def test3(): return redirect('1111')2.配合url_for一起用,url_for里面为函...

2019-09-14 09:02:21 8891

原创 flask中url参数设置

1.视图函数指定,默认为字符串类型,可以指定为<int:id>@app.route('/index/<int:id>')def index(id): return jsonify({"key": range(1, 3)})2.在路径中以?xx=xx&xx=xx在后端获取参数request.args.get("xx")...

2019-09-13 09:44:54 1333

原创 flask中jsonify遇到的坑

1.jsonify可以将字典转换成json对象传入前端data = { "movie": movie_list, "page": page, "dic_list": dic, "total_page": total_page }>>坑1字典的值不能为range(x,x),上图dic就是像range(x,x)...

2019-09-13 01:56:10 1058

原创 mysql中floa类型数据和mysql命令

参照MySQL数据类型详解1.float(m,n),m是精度,为显示位数,n是标度,显示小数位数2.mysql语法创建表:create table 表名 charset=utf8;-------------------------------------添加数据:insert into 表名 values(数据);insert into f1 values(3,1.2);------...

2019-09-13 00:56:43 464

原创 jQuery常用功能,局部刷新,移入移出动画

1.jquery想局部刷新,先$(".movie-form").html("");然后拼接代码window.location.reload()刷新当前页面.parent.location.reload()刷新父亲对象(用于框架)opener.location.reload()刷新父窗口对象(用于单开窗口)top.location.reload()刷新最顶端对象(用于多开窗口)...

2019-09-12 20:13:18 565 1

原创 ajax请求格式get,post,参数设置,转换参数类型

1.get请求(标准写法)$.ajax({ url:'http://127.0.0.1:5000/test', type:'get', dataType:'json', data: {"arr": arr.toString()}, success:function(resp){ alert(resp.data) consol...

2019-09-12 20:00:01 5200

原创 python中join,split,strip,eval,getattr,字典的值为列表,判断两个列表包含关系,python判断变量是否为int,str,list,tuple,dict

1.join(),可以对str、lsit、tuple、dict用,但是不能对int,str.join(sequence)t1 = ("a", "b", "c")s1 = "abc"l1 = ["a", "b", "c"]d1 = {"a": 1, "b": 2, "c": 3}n1 = 123456print(",".join(t1), type(",".join(t1)))p...

2019-09-11 16:53:32 415

原创 jquery中html(),text(),val(),怎么获取a标签的href值

1.html()是获取所选标签内的所有文字2.text()是获取所选标签内的所有内容3.val()是获取所选标签内的value值(一般是input标签的值)4.attr()是获取和修改属性的值 <div class="div1">div1</div> <div class="div2">waimian<span>div2<...

2019-09-11 16:35:50 4596

原创 记录html常用标签,css常用设置a,ul,video

1.a标签去除a标签下划线:text-decoration: none;2.ul中li标签去除li标签前面的点:list-style:none;3.video标签autoplay:"autoplay"----->自动播放controls:"controls"----->浏览器控件preload:"auto"----->页面加载后载入视频video标签一般和s...

2019-09-11 16:19:05 353

原创 【详解】flask分页处理、python与mysql交互

1.>>封装一个分页函数(这个函数可以码起来,分页都可以用)参照:https://blog.csdn.net/xudailong_blog/article/details/80428013def get_page(total, p): show_page = 7 # 显示的页码数 pageoffset = 3 # 偏移量 start = 1 #分...

2019-09-10 19:55:59 817

原创 pycharm连接远程mysql

1.连接远程主机(linux),在主机上面操作2.创建用户create user 用户名@'%' identified by "密码"@后面接主机地址,%表示所有主机,localhost表示只能本地访问3.授权>>授予用户管理此数据库的全部权限grant all privileges on 数据库名.* to 用户名@"%">>授予用户管理所有数据库的全部权限...

2019-09-10 10:21:38 2481

原创 flask和django中get,post请求获取参数url地址和数据

1.后端flask,前端jquery①post请求,传入参数为json>>>>后端获取参数>>>>前端请求格式(post)②get请求>>>>后端获取参数(json传入)>>>>后端获取参数(路径参数获取)/< int:news_id>路径后面一部分>&gt...

2019-09-08 23:30:20 782

原创 添加日志配置方法

def setup_log(config_name): """配置日志""" # 设置日志的记录等级 logging.basicConfig(level=config[config_name].LOG_LEVEL) # 调试debug级 # 创建日志记录器,指明日志保存的路径、每个日志文件的最大大小、保存的日志文件个数上限 file_log_h...

2019-09-08 11:37:21 497

原创 flask和django中mysql数据库迁移命令

1.flask数据库迁移命令manage.py 替换成自己的执行文件# 初始化python manage.py db initpython manage.py db migrate -m "注释"python manage.py db upgrade2.django数据库迁移命令manage.py 替换成自己的执行文件python manage.py makemigrations...

2019-09-08 00:22:25 408

原创 pycharm连接mysql数据库出现,Connection to @localhost failed. [08001] Could not create connection to database

错误视图(时区造成的错误)Host:localhost(如果是本机没有必要改)user:mysql用户名password:MySQL密码将url后面加上?serverTimezone=GMT

2019-09-07 23:34:05 1779 1

原创 windows怎么创建虚拟环境,ubuntu怎么创建虚拟环境

1.打开cdm,安装包pip install virtualenvpip install virtualenvwrapper # 这是对virtualenv的封装版本,一定要在virtualenv后安装 2.创建虚拟环境在windows中切换到指定目录E:virtualenv envname # 创建一个名字为envname的虚拟环境virtualenv -p python3 ...

2019-09-07 19:21:57 328

原创 django项目中开启异步任务

django项目中文件结构如下# 开启异步任务celery -A 应用路径(.包路径) worker -l infocelery -A celery_tasks.main worker -l info

2019-09-07 14:35:13 685

原创 scp连接出现permission denied,please try again

1.vim /etc/ssh/sshd_config2./etc/init.d/ssh restart3.scp 本地路径 远程用户名@IP地址:远程路径(复制本地文件到远程)4.scp 远程用户名@IP地址:远程路径 本地路径(复制远程文件到本地)...

2019-09-07 14:01:03 982

原创 【详解】xshell怎么连接阿里云服务器

1.打开阿里云,点击网络与安全-安全组-配置规则2.会跳到另一个链接,点击添加安全组规则(会弹出如下中间窗口)-按下图参数设置即可3.打开xshell或者Ubuntu操作系统,格式:ssh 用户名@ip地址(公网ip)...

2019-08-09 20:44:18 3651

转载 Python断言方法:assert

2019-07-26 17:28:39 293

转载 PyCharm之连接MySQL数据库

2019-07-26 00:12:30 246

转载 【详解html元素】块级元素(block)、行内元素(inline)以及行内块元素(inline-block)

1.

2019-07-19 09:55:34 644

转载 win10系统MySQL 8.0的下载安装超详细教程

2019-07-18 10:57:49 232

转载 jquery中html()、css()、prop()和attr()区别

2019-07-14 21:52:57 270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除