- 博客(25)
- 收藏
- 关注
原创 git相关操作
*原因:**我部署了一个Gitlab,拉取这个git的代码。git的地址变了,无法拉取代码了,我不想删掉原来的代码重新拉取。**解决方法:**更新远程仓库的地址以继续拉取代码。修改git地址完成,可以使用。
2024-05-30 19:37:10 233
原创 mysql的commit提交多条数据
mysql commit提交多条数据 # bbbb为主键字段或唯一索引字段 sql = 'INSERT INTO aaaa(bbbb)VALUES(%s);' cur.execute(sql % 31) conn.commit() for i in range(30, 35): time.sleep(1) try: # 当i=31时,这条数据提交不上去,其他数据能正常入库 cur.exe
2022-01-13 18:14:27 757
原创 使用xpath获取HTML代码
def extract_table2(): with open('1.html', 'r', encoding='utf8')as f: html_code = f.read() html_etree = etree.HTML(html_code) table = html_etree.xpath('//table[1]')[0] data = etree.tostring(table,encoding='utf-8').decode('utf-8')
2021-01-18 14:49:32 510
原创 mongo超百万数据时,插入数据时去重
pymongo超百万数据时,插入数据时去重做爬虫存数据库时都需要将数据去重刚开始我的数据量较少,去重的时候使用updata_oneimport hashlibimport pymongoclient = pymongo.MongoClient()db = client['text']item = {'id': '', 'url': 'https://www.baidu.com/'}# 对url进行MD5加密item['id'] = hashlib.md5(item['url'].enco
2020-11-07 11:58:47 547
原创 n个人围成一圈,第一个人从1开始数数,数到3的倍数的人离开,最后剩的人是第几个
n个人围成一圈,第一个人从1开始数数,数到3的倍数的人离开,最后剩下的人是第几个# coding=utf-8 n = int(input('输入人数:'))ren = [i + 1 for i in range(n)]# 数值 count = 1i = 0while True: if count % 3 == 0: ren[i] = 0
2020-11-07 10:30:21 417
原创 关于pymongo的find方法的错误总结
关于pymongo的find方法的错误总结当时我查询到数据后, 想要查看一下有多少条数据再遍历,但是遍历数据时总是不进入for循环, 代码如下:url_list = db['url'].find({}, {'_id': 0})url_list_len = len(list(url_list))for url in url_list: print(url)我用debug查看第一行数据, 发现数据很正常, 第二行也能输出数据库中的总数据量, 但是到第三行的时候, url_list中没有数据,
2020-11-03 16:41:05 2155 1
原创 爬虫与反爬
反爬策略通过user-agent客户端标识来判断是不是爬虫解决方法: 封装请求头:user-agent封ip解决方法: 设置代理ip通过访问频率来判断是否是非人类请求解决方法: 设置爬取间隔和爬取策略验证码解决方法: 识别验证码数据通过前端js异步获取解决方法: 1. 通过selenium+phantomjs来获取数据 2. 找到数据来源的接口...
2020-02-17 21:50:10 110
原创 headers信息修改
每次复制头信息都要花时间去改,比较浪费时间,写段代码来完成这项任务:def change_headers(headers): headers = headers.split('\n') result = {} for i in headers: i = i.split(': ') result[i[0]] = i[1] retur...
2020-02-15 11:08:07 898
原创 xpath
什么是xml?定义: 可扩展标记性语言(EXtensible Markup Language)特定: xml是具有自描述特性的半结构化数据。作用: xml主要用来传输数据xml和html的区别语法要求不同: xml的语法要求更严格在html中不区分大小写,在xml中严格区分在html中,有时不严格,如果上下文清楚地显示出段落或者列表键在何处结尾,那么你可以省略或者标记。在x...
2020-02-14 21:49:40 157
原创 正则表达式
元字符元字符意义^行首$行尾?[0,1]*[0,+∞]+[1,+∞]竖线a|b 匹配a或b.除换行以外的任意字符{m,}[m,+∞]{m,n}[m,n]{m}m[]匹配[]中的单个字符\d数字\w数字,(大小写)字母,下划线,汉字等\b单词边界\s空白字符(空...
2020-02-13 20:49:55 100
原创 re模块
re模块的使用import repattern = re.compile( r'正则表达式', # r表示按原样输出 '匹配模式', # 可以不指定 )正则匹配模式:re.S # 可以匹配换行符re.I # 忽略大小写pattern对象的方法:match, search, findall,finditer使用方法:match = pattern.matc...
2020-02-13 20:27:49 133
原创 cookie和session
1. 什么是cookie和session? cookie是网站用来辨别用户身份,进行会话跟踪,存储在本地终端上的数据。 session(会话)起来本含义是指有始有终的一系列动作和消息。在web中,session主要用来在服务器端存储特定用户对象会话所需要的信息。2. cookie和session产生的原因 http协议是一个无状态协议,在特定操作的时候,需要保存信息,进而产生了coo...
2020-02-12 20:39:26 107
原创 json数据处理
json数据处理import jsonjson.loads('json数据') # 转换为python的list或者字典json.dumps('python的list或者字典') # 转换为json字符串在response中可以直接使用json方法进行转换import requestsresponse = requests.post(url=url, headers=heade...
2020-02-11 20:59:10 92
原创 requests模块
requests模块requests模块的get方法response = requests.get( url='url地址', headers = 请求头字典, params=请求参数字典,)requests模块的post方法response = requests.post( url='url地址', headers = 请求头字典, p...
2020-02-11 20:57:50 118
原创 django保存图片
picture_obj = request.FILES.get('picture')path = 'static/img/' + picture_obj.namewith open(path, 'wb') as f: for content in picture_obj.chunks(): f.write(content)
2020-02-02 21:08:23 1754
原创 python模拟进度条下载
import timedef fun(number): loaded = number // 9 loading = number % 9 symbol = " ,| ,▏,▎,▍,▌,▋,▊,▉,█".split(",") unloaded = (10 - loaded) * symbol[0] loaded = loaded * symbol[9...
2020-01-17 15:00:58 370
原创 flask的cookie和session
cookie设置cookiefrom flask import Response@app.route("/cookie_set/")def cookie_set(): response = Response(render_template("cookie_set.html")) response.set_cookie("name", "zs") response....
2020-01-16 08:47:34 81
原创 flask+ajax
flask+ajax的get请求$("#button").click( function() { $.ajax({ url: "/url地址/?键=值", type: "GET", data: "", success: function (data) { ...
2020-01-15 08:14:34 1308 4
原创 python阿拉伯数字转汉字 , 金额转大写
最高支持九千万亿,还可以扩展,但是不支持零,不支持小数,不支持负数由于一万亿等于一兆,但是兆这个单位不常用,我这里用的是万亿如果发现bug欢迎及时反馈def fun(number, recursive_depth=0): str_number = str(number) if len(str_number) > 4: str_number = str_n...
2020-01-14 11:01:56 1760
原创 flask数据增删改查
数据添加添加一条数据user = User(name="张三",age=18)session = db.session()session.add(user)session.commit()添加多条数据user_list = [User(name=i[0], age=i[1]) for i in (('张三', 12), ('李四', 45), ('王五', 23))]sessio...
2020-01-13 09:58:44 259
原创 flask的ORM数据库映射
flask连接mysql数据库# mysql+pymysql://用户:密码@主机:端口/数据库?charset=utf8app.config["SQLALCHEMY_DATABASE_URI"] = "mysql+pymysql://root:123456@127.0.0.1:3306/flask_1?charset=utf8"app.config["SQLALCHEMY_COMMIT_...
2020-01-11 10:51:32 203
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人