- 博客(89)
- 收藏
- 关注
原创 多进程爬虫
# coding=utf-8import requestsfrom lxml import etree# from queue import Queue# import threadingfrom multiprocessing import Processfrom multiprocessing import JoinableQueue as Queueimport time...
2019-09-22 13:45:02
206
原创 多线程爬虫
# coding=utf-8import requestsfrom lxml import etreefrom queue import Queueimport threadingimport timeclass QiuBai: def __init__(self): self.temp_url = "http://www.qiushibaike.com/8...
2019-09-22 13:42:01
215
原创 线程池爬虫
# coding=utf-8import requestsfrom lxml import etreefrom queue import Queuefrom multiprocessing.dummy import Poolimport timeclass QiubaiSpider: def __init__(self): self.url_temp = "...
2019-09-22 12:48:44
336
原创 协程池爬虫
# -*- coding: utf-8 -*-import gevent.monkygevent.monky.path_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queueimport timeclass QiubaiSpider: ...
2019-09-22 12:45:31
278
原创 Mongodb笔记
官方文档:添加链接描述1.mongodb和python交互 from pymongo import MongoClient client = MongoClient(host,port) collection = client[db名][集合名]# 添加一条数据ret = collection.insert_one({"name":"test10010","age":33}) # d...
2019-09-22 12:10:37
184
原创 爬虫框架scrapy中setting文件
1.settingUSER_AGENT 设置uaROBOTSTXT_OBEY 是否遵守robots协议,默认是遵守CONCURRENT_REQUESTS 设置并发请求的数量,默认是16个DOWNLOAD_DELAY 下载延迟,默认无延迟COOKIES_ENABLED 是否开启cookie,即每次请求带上前一次的cookie,默认是开启的DEFAULT_REQUEST_HEADERS 设...
2019-09-21 20:16:21
224
原创 爬虫笔记---常见的反爬手段和解决思路
1.通过headers字段来反爬1.1 通过headers中的User-Agent字段来反爬1.2 通过referer字段或者是其他字段来反爬1.3 通过cookie来反爬2.通过js来反爬2.1 通过js实现跳转来反爬2.2 通过js生成了请求参数2.3 通过js实现了数据的加密3. 通过验证码来反爬4. 通过验证码来反爬5. 其他的反爬方式5.1 通过自定义字体来反爬5...
2019-09-20 10:52:12
432
原创 爬虫笔记---构造随机User-Agent
import randomdef get_ua(): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 140) os_type = [ '(Windows NT 6.1; WOW64)', '...
2019-09-20 10:47:01
254
原创 爬虫模块scrapy框架命令,requests模块,retrying模块,requests中session,response常用属性,json.dumps,json.loads,json.load
1.scrapy框架创建项目:scrapy startproject 项目名创建爬虫:cd 项目名下 ,scrapy genspider 爬虫名 allowed_domains(网站)开启爬虫:scrapy crawl 爬虫名
2019-09-20 00:51:14
448
原创 正则表达式sub,findall,split,match,re.compile()
1.sub(规则,替换成的变量, 所要替代的变量)ret = re.sub(r"\d+", '998', "python = 997") # 998s = re.sub('\d', "s", "123p") # sssp2.findall(规则,搜寻的变量)ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")...
2019-09-19 21:53:00
364
原创 爬虫中遇到的问题Crawled (404),[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to
1.错误1:start_url不存在Crawled (200) <GET http://www.itcast.cn/robots.txt> (referer: None)DEBUG: Crawled (404) <GET http://www.itcast.cn/channel/teacher.shtml/> (referer: None)解决:复制url的完全地址...
2019-09-19 21:15:51
4374
原创 项目中requirements文件
pip freeze > requirements.txt # 将环境中的包以及版本号生成到文件中pip install -r requirements.txt # 安装文件中所有的包
2019-09-19 11:37:51
362
原创 xpath helper下载
xpath helper提取码:ekbp1.解压2.将解压后的crx文件拖到chrome浏览器的扩展程序即可
2019-09-18 11:45:05
34559
18
原创 windows怎么安装Chromedriver和PhantomJS
下载地址:chrome driver1.将解压的chromedriver.exe复制到python安装目录即可2.测试from selenium import webdriverdriver = webdriver.Chrome()driver.get("http://www.baidu.com")>> 弹出一个chrome新窗口,显示百度网页即成功3.注意点:无需添...
2019-09-17 21:48:14
274
原创 网站图标设置favicon.ico
>>加入一句代码,href改为自己的路径,图片名称设置为favicon.ico<link rel="shortcut icon" href="../static/favicon.ico" />
2019-09-14 13:41:25
406
原创 flask数据库mysql错误:ERROR:info:(pymysql.err.InternalError) (1054, "Unknown column 'SourceTable.id' in 'f
>>错误ERROR:info:(pymysql.err.InternalError) (1054, “Unknown column ‘SourceTable.id’ in ‘field list’”)>>当在python中进行数据库查询时候,出现如上错误,很有可能是数据库没有主键---------------------------------------------...
2019-09-14 13:20:33
559
原创 flask中redirect用法
1.直接用,可以直接写完整链接,可以写视图函数路径@index_blu.route('/1111')def test(): return redirect('http://www.baidu.com')@index_blu.route('/3')def test3(): return redirect('1111')2.配合url_for一起用,url_for里面为函...
2019-09-14 09:02:21
8891
原创 flask中url参数设置
1.视图函数指定,默认为字符串类型,可以指定为<int:id>@app.route('/index/<int:id>')def index(id): return jsonify({"key": range(1, 3)})2.在路径中以?xx=xx&xx=xx在后端获取参数request.args.get("xx")...
2019-09-13 09:44:54
1333
原创 flask中jsonify遇到的坑
1.jsonify可以将字典转换成json对象传入前端data = { "movie": movie_list, "page": page, "dic_list": dic, "total_page": total_page }>>坑1字典的值不能为range(x,x),上图dic就是像range(x,x)...
2019-09-13 01:56:10
1058
原创 mysql中floa类型数据和mysql命令
参照MySQL数据类型详解1.float(m,n),m是精度,为显示位数,n是标度,显示小数位数2.mysql语法创建表:create table 表名 charset=utf8;-------------------------------------添加数据:insert into 表名 values(数据);insert into f1 values(3,1.2);------...
2019-09-13 00:56:43
464
原创 jQuery常用功能,局部刷新,移入移出动画
1.jquery想局部刷新,先$(".movie-form").html("");然后拼接代码window.location.reload()刷新当前页面.parent.location.reload()刷新父亲对象(用于框架)opener.location.reload()刷新父窗口对象(用于单开窗口)top.location.reload()刷新最顶端对象(用于多开窗口)...
2019-09-12 20:13:18
565
1
原创 ajax请求格式get,post,参数设置,转换参数类型
1.get请求(标准写法)$.ajax({ url:'http://127.0.0.1:5000/test', type:'get', dataType:'json', data: {"arr": arr.toString()}, success:function(resp){ alert(resp.data) consol...
2019-09-12 20:00:01
5200
原创 python中join,split,strip,eval,getattr,字典的值为列表,判断两个列表包含关系,python判断变量是否为int,str,list,tuple,dict
1.join(),可以对str、lsit、tuple、dict用,但是不能对int,str.join(sequence)t1 = ("a", "b", "c")s1 = "abc"l1 = ["a", "b", "c"]d1 = {"a": 1, "b": 2, "c": 3}n1 = 123456print(",".join(t1), type(",".join(t1)))p...
2019-09-11 16:53:32
415
原创 jquery中html(),text(),val(),怎么获取a标签的href值
1.html()是获取所选标签内的所有文字2.text()是获取所选标签内的所有内容3.val()是获取所选标签内的value值(一般是input标签的值)4.attr()是获取和修改属性的值 <div class="div1">div1</div> <div class="div2">waimian<span>div2<...
2019-09-11 16:35:50
4596
原创 记录html常用标签,css常用设置a,ul,video
1.a标签去除a标签下划线:text-decoration: none;2.ul中li标签去除li标签前面的点:list-style:none;3.video标签autoplay:"autoplay"----->自动播放controls:"controls"----->浏览器控件preload:"auto"----->页面加载后载入视频video标签一般和s...
2019-09-11 16:19:05
353
原创 【详解】flask分页处理、python与mysql交互
1.>>封装一个分页函数(这个函数可以码起来,分页都可以用)参照:https://blog.csdn.net/xudailong_blog/article/details/80428013def get_page(total, p): show_page = 7 # 显示的页码数 pageoffset = 3 # 偏移量 start = 1 #分...
2019-09-10 19:55:59
817
原创 pycharm连接远程mysql
1.连接远程主机(linux),在主机上面操作2.创建用户create user 用户名@'%' identified by "密码"@后面接主机地址,%表示所有主机,localhost表示只能本地访问3.授权>>授予用户管理此数据库的全部权限grant all privileges on 数据库名.* to 用户名@"%">>授予用户管理所有数据库的全部权限...
2019-09-10 10:21:38
2481
原创 flask和django中get,post请求获取参数url地址和数据
1.后端flask,前端jquery①post请求,传入参数为json>>>>后端获取参数>>>>前端请求格式(post)②get请求>>>>后端获取参数(json传入)>>>>后端获取参数(路径参数获取)/< int:news_id>路径后面一部分>>...
2019-09-08 23:30:20
782
原创 添加日志配置方法
def setup_log(config_name): """配置日志""" # 设置日志的记录等级 logging.basicConfig(level=config[config_name].LOG_LEVEL) # 调试debug级 # 创建日志记录器,指明日志保存的路径、每个日志文件的最大大小、保存的日志文件个数上限 file_log_h...
2019-09-08 11:37:21
497
原创 flask和django中mysql数据库迁移命令
1.flask数据库迁移命令manage.py 替换成自己的执行文件# 初始化python manage.py db initpython manage.py db migrate -m "注释"python manage.py db upgrade2.django数据库迁移命令manage.py 替换成自己的执行文件python manage.py makemigrations...
2019-09-08 00:22:25
408
原创 pycharm连接mysql数据库出现,Connection to @localhost failed. [08001] Could not create connection to database
错误视图(时区造成的错误)Host:localhost(如果是本机没有必要改)user:mysql用户名password:MySQL密码将url后面加上?serverTimezone=GMT
2019-09-07 23:34:05
1779
1
原创 windows怎么创建虚拟环境,ubuntu怎么创建虚拟环境
1.打开cdm,安装包pip install virtualenvpip install virtualenvwrapper # 这是对virtualenv的封装版本,一定要在virtualenv后安装 2.创建虚拟环境在windows中切换到指定目录E:virtualenv envname # 创建一个名字为envname的虚拟环境virtualenv -p python3 ...
2019-09-07 19:21:57
328
原创 django项目中开启异步任务
django项目中文件结构如下# 开启异步任务celery -A 应用路径(.包路径) worker -l infocelery -A celery_tasks.main worker -l info
2019-09-07 14:35:13
685
原创 scp连接出现permission denied,please try again
1.vim /etc/ssh/sshd_config2./etc/init.d/ssh restart3.scp 本地路径 远程用户名@IP地址:远程路径(复制本地文件到远程)4.scp 远程用户名@IP地址:远程路径 本地路径(复制远程文件到本地)...
2019-09-07 14:01:03
982
原创 【详解】xshell怎么连接阿里云服务器
1.打开阿里云,点击网络与安全-安全组-配置规则2.会跳到另一个链接,点击添加安全组规则(会弹出如下中间窗口)-按下图参数设置即可3.打开xshell或者Ubuntu操作系统,格式:ssh 用户名@ip地址(公网ip)...
2019-08-09 20:44:18
3651
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅