xiaobai_IT_learn-CSDN博客

原创多进程爬虫

# coding=utf-8import requestsfrom lxml import etree# from queue import Queue# import threadingfrom multiprocessing import Processfrom multiprocessing import JoinableQueue as Queueimport time...

2019-09-22 13:45:02 206

原创多线程爬虫

# coding=utf-8import requestsfrom lxml import etreefrom queue import Queueimport threadingimport timeclass QiuBai: def __init__(self): self.temp_url = "http://www.qiushibaike.com/8...

2019-09-22 13:42:01 215

原创线程池爬虫

# coding=utf-8import requestsfrom lxml import etreefrom queue import Queuefrom multiprocessing.dummy import Poolimport timeclass QiubaiSpider: def __init__(self): self.url_temp = "...

2019-09-22 12:48:44 336

原创协程池爬虫

# -*- coding: utf-8 -*-import gevent.monkygevent.monky.path_all()from gevent.pool import Poolimport requestsfrom lxml import etreefrom queue import Queueimport timeclass QiubaiSpider: ...

2019-09-22 12:45:31 278

原创 Mongodb笔记

官方文档：添加链接描述1.mongodb和python交互 from pymongo import MongoClient client = MongoClient(host,port) collection = client[db名][集合名]# 添加一条数据ret = collection.insert_one({"name":"test10010","age":33}) # d...

2019-09-22 12:10:37 184

原创爬虫框架scrapy中setting文件

1.settingUSER_AGENT 设置uaROBOTSTXT_OBEY 是否遵守robots协议，默认是遵守CONCURRENT_REQUESTS 设置并发请求的数量，默认是16个DOWNLOAD_DELAY 下载延迟，默认无延迟COOKIES_ENABLED 是否开启cookie，即每次请求带上前一次的cookie，默认是开启的DEFAULT_REQUEST_HEADERS 设...

2019-09-21 20:16:21 224

原创爬虫笔记---常见的反爬手段和解决思路

1.通过headers字段来反爬1.1 通过headers中的User-Agent字段来反爬1.2 通过referer字段或者是其他字段来反爬1.3 通过cookie来反爬2.通过js来反爬2.1 通过js实现跳转来反爬2.2 通过js生成了请求参数2.3 通过js实现了数据的加密3. 通过验证码来反爬4. 通过验证码来反爬5. 其他的反爬方式5.1 通过自定义字体来反爬5...

2019-09-20 10:52:12 432

原创爬虫笔记---构造随机User-Agent

import randomdef get_ua(): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 140) os_type = [ '(Windows NT 6.1; WOW64)', '...

2019-09-20 10:47:01 254

原创爬虫模块scrapy框架命令，requests模块，retrying模块，requests中session，response常用属性，json.dumps，json.loads，json.load

1.scrapy框架创建项目：scrapy startproject 项目名创建爬虫：cd 项目名下，scrapy genspider 爬虫名 allowed_domains(网站)开启爬虫：scrapy crawl 爬虫名

2019-09-20 00:51:14 448

原创正则表达式sub,findall,split,match,re.compile()

1.sub(规则，替换成的变量，所要替代的变量)ret = re.sub(r"\d+", '998', "python = 997") # 998s = re.sub('\d', "s", "123p") # sssp2.findall(规则，搜寻的变量)ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")...

2019-09-19 21:53:00 364

原创爬虫中遇到的问题Crawled (404)，[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to

1.错误1：start_url不存在Crawled (200) <GET http://www.itcast.cn/robots.txt> (referer: None)DEBUG: Crawled (404) <GET http://www.itcast.cn/channel/teacher.shtml/> (referer: None)解决：复制url的完全地址...

2019-09-19 21:15:51 4374

原创项目中requirements文件

pip freeze > requirements.txt # 将环境中的包以及版本号生成到文件中pip install -r requirements.txt # 安装文件中所有的包

2019-09-19 11:37:51 362

原创 xpath helper下载

xpath helper提取码：ekbp1.解压2.将解压后的crx文件拖到chrome浏览器的扩展程序即可

2019-09-18 11:45:05 34559 18

原创 windows怎么安装Chromedriver和PhantomJS

下载地址：chrome driver1.将解压的chromedriver.exe复制到python安装目录即可2.测试from selenium import webdriverdriver = webdriver.Chrome()driver.get("http://www.baidu.com")>> 弹出一个chrome新窗口，显示百度网页即成功3.注意点：无需添...

2019-09-17 21:48:14 274

原创网站图标设置favicon.ico

>>加入一句代码，href改为自己的路径，图片名称设置为favicon.ico<link rel="shortcut icon" href="../static/favicon.ico" />

2019-09-14 13:41:25 406

原创 flask数据库mysql错误：ERROR:info:(pymysql.err.InternalError) (1054, "Unknown column 'SourceTable.id' in 'f

>>错误ERROR:info:(pymysql.err.InternalError) (1054, “Unknown column ‘SourceTable.id’ in ‘field list’”)>>当在python中进行数据库查询时候，出现如上错误，很有可能是数据库没有主键---------------------------------------------...

2019-09-14 13:20:33 559

原创 flask中redirect用法

1.直接用，可以直接写完整链接，可以写视图函数路径@index_blu.route('/1111')def test(): return redirect('http://www.baidu.com')@index_blu.route('/3')def test3(): return redirect('1111')2.配合url_for一起用，url_for里面为函...

2019-09-14 09:02:21 8891

原创 flask中url参数设置

1.视图函数指定，默认为字符串类型，可以指定为<int:id>@app.route('/index/<int:id>')def index(id): return jsonify({"key": range(1, 3)})2.在路径中以?xx=xx&xx=xx在后端获取参数request.args.get("xx")...

2019-09-13 09:44:54 1333

原创 flask中jsonify遇到的坑

1.jsonify可以将字典转换成json对象传入前端data = { "movie": movie_list, "page": page, "dic_list": dic, "total_page": total_page }>>坑1字典的值不能为range(x,x)，上图dic就是像range(x,x)...

2019-09-13 01:56:10 1058

原创 mysql中floa类型数据和mysql命令

参照MySQL数据类型详解1.float(m,n),m是精度，为显示位数，n是标度，显示小数位数2.mysql语法创建表：create table 表名 charset=utf8;-------------------------------------添加数据：insert into 表名 values(数据)；insert into f1 values(3,1.2);------...

2019-09-13 00:56:43 464

原创 jQuery常用功能，局部刷新，移入移出动画

1.jquery想局部刷新，先$(".movie-form").html("");然后拼接代码window.location.reload()刷新当前页面.parent.location.reload()刷新父亲对象（用于框架）opener.location.reload()刷新父窗口对象（用于单开窗口）top.location.reload()刷新最顶端对象（用于多开窗口）...

2019-09-12 20:13:18 565 1

原创 ajax请求格式get,post,参数设置，转换参数类型

1.get请求（标准写法）$.ajax({ url:'http://127.0.0.1:5000/test', type:'get', dataType:'json', data: {"arr": arr.toString()}, success:function(resp){ alert(resp.data) consol...

2019-09-12 20:00:01 5200

原创 python中join,split,strip,eval,getattr,字典的值为列表，判断两个列表包含关系，python判断变量是否为int,str,list,tuple,dict

1.join(),可以对str、lsit、tuple、dict用，但是不能对int，str.join(sequence)t1 = ("a", "b", "c")s1 = "abc"l1 = ["a", "b", "c"]d1 = {"a": 1, "b": 2, "c": 3}n1 = 123456print(",".join(t1), type(",".join(t1)))p...

2019-09-11 16:53:32 415

原创 jquery中html(),text(),val(),怎么获取a标签的href值

1.html()是获取所选标签内的所有文字2.text()是获取所选标签内的所有内容3.val()是获取所选标签内的value值（一般是input标签的值）4.attr()是获取和修改属性的值 <div class="div1">div1</div> <div class="div2">waimian<span>div2<...

2019-09-11 16:35:50 4596

原创记录html常用标签,css常用设置a,ul,video

1.a标签去除a标签下划线：text-decoration: none;2.ul中li标签去除li标签前面的点：list-style:none;3.video标签autoplay:"autoplay"----->自动播放controls:"controls"----->浏览器控件preload:"auto"----->页面加载后载入视频video标签一般和s...

2019-09-11 16:19:05 353

原创【详解】flask分页处理、python与mysql交互

1.>>封装一个分页函数(这个函数可以码起来，分页都可以用)参照：https://blog.csdn.net/xudailong_blog/article/details/80428013def get_page(total, p): show_page = 7 # 显示的页码数 pageoffset = 3 # 偏移量 start = 1 #分...

2019-09-10 19:55:59 817

原创 pycharm连接远程mysql

1.连接远程主机（linux），在主机上面操作2.创建用户create user 用户名@'%' identified by "密码"@后面接主机地址，%表示所有主机，localhost表示只能本地访问3.授权>>授予用户管理此数据库的全部权限grant all privileges on 数据库名.* to 用户名@"%">>授予用户管理所有数据库的全部权限...

2019-09-10 10:21:38 2481

原创 flask和django中get，post请求获取参数url地址和数据

1.后端flask，前端jquery①post请求，传入参数为json>>>>后端获取参数>>>>前端请求格式（post）②get请求>>>>后端获取参数（json传入）>>>>后端获取参数（路径参数获取）/< int:news_id>路径后面一部分>&gt...

2019-09-08 23:30:20 782

原创添加日志配置方法

def setup_log(config_name): """配置日志""" # 设置日志的记录等级 logging.basicConfig(level=config[config_name].LOG_LEVEL) # 调试debug级 # 创建日志记录器，指明日志保存的路径、每个日志文件的最大大小、保存的日志文件个数上限 file_log_h...

2019-09-08 11:37:21 497

原创 flask和django中mysql数据库迁移命令

1.flask数据库迁移命令manage.py 替换成自己的执行文件# 初始化python manage.py db initpython manage.py db migrate -m "注释"python manage.py db upgrade2.django数据库迁移命令manage.py 替换成自己的执行文件python manage.py makemigrations...

2019-09-08 00:22:25 408

原创 pycharm连接mysql数据库出现，Connection to @localhost failed. [08001] Could not create connection to database

错误视图（时区造成的错误）Host：localhost（如果是本机没有必要改）user：mysql用户名password：MySQL密码将url后面加上?serverTimezone=GMT

2019-09-07 23:34:05 1779 1

原创 windows怎么创建虚拟环境，ubuntu怎么创建虚拟环境

1.打开cdm，安装包pip install virtualenvpip install virtualenvwrapper # 这是对virtualenv的封装版本，一定要在virtualenv后安装 2.创建虚拟环境在windows中切换到指定目录E:virtualenv envname # 创建一个名字为envname的虚拟环境virtualenv -p python3 ...

2019-09-07 19:21:57 328