- 博客(6)
- 收藏
- 关注
原创 【python】实用的文件操作-根据目录按顺序合并pdf文件-NLP技术的简单应用
【python】实用的文件操作–根据目录按顺序合并pdf文件-NLP技术的简单应用网上下载很多pdf有时候不是完整,需要多个文件合并才能组成一个完整的pdf文件。# -*- coding:utf-8*-# 利用PyPDF2模块合并同一文件夹下的所有PDF文件# 只需修改存放PDF文件的文件夹变量:file_dir 和 输出文件名变量: outfileimport osfrom PyPDF2 import PdfFileReader, PdfFileWriterimport time# 使用
2021-09-12 15:50:56 990 1
原创 【python】实用的文件操作-批量文件重命名
【python】实用的文件操作-批量文件重命名将一个目录下的所有文件批量重命名#coding=gbkimport osimport sysdef rename(): path=input("请输入路径(例如D:\\\\picture):") name=input("请输入开头名:") startNumber=input("请输入开始数:") fileType=input("请输入后缀名(如 .jpg、.txt等等):") print("正在生成以"+name
2021-09-12 14:48:40 108
原创 【python】实用的文件操作-多个excel文件的两种合并方式
自动化办公常用的几种文件批量处理操作【python】实用的文件操作-批量文件重命名#coding=gbkimport osimport sysdef rename(): path=input("请输入路径(例如D:\\\\picture):") name=input("请输入开头名:") startNumber=input("请输入开始数:") fileType=input("请输入后缀名(如 .jpg、.txt等等):") print("正在生成以"+n
2021-09-12 14:33:48 1877
原创 房屋租金的Python多元线性回归
回归分析简单多元回归import pandas as pd import numpy as npfrom sklearn.feature_extraction import DictVectorizerfrom sklearn import linear_model多元逐步回归含哑变量多元回归回归分析实战数据来源:网络爬取房屋租赁网站的租赁数据所用包import pandas as pd import numpy as npfrom sklearn.feature_extrac
2021-09-12 10:09:36 594
原创 python爬虫项目设置一个中断重连的程序
做爬虫项目时,我们需要考虑一个爬虫在爬取时会遇到各种情况(网站验证,ip封禁),导致爬虫程序中断,这时我们已经爬取过一些数据,再次爬取时这些数据就可以忽略,所以我们需要在爬虫项目中设置一个中断重连的功能,使其在重新运行时从之前断掉的位置重新爬取数据。实现该功能有很多种做法,我自己就有好几种思路,但是真要自己写出来就要费很大的功夫,下面我就把自己好不容易拼凑出来的代码展示出来吧。首先是来介绍代码...
2018-12-02 18:22:38 4725
原创 用xpath匹配属性中包含某些字段的节点 contains()
我在用python中xpath写爬虫时,要匹配一些所有属性都不完全相同的节点,比如说糗事百科可以看到,这些中,他们的class和id不完全相同,但是class比较相似,带包含“article block untagged mb15 ***”,但是后面还加有不同的字符,如:typs_long,typs_hot,typs_recent······。所以我就像有没有方法能匹配属性中含有相同字符字符...
2018-10-31 18:58:52 6874
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人