背景介绍
在学校参加了一个项目,是关于一个行业现代化研究方面的,不过研究过程中要
用到的数据量很嘈杂和庞大,所以我去学习了关于pyt语言关于爬虫实战方面相关的
技巧,但是随之而来出现了一些新的问题——对于爬取到excel表格(xls和xlsx文件
类型)中的数据进行分类保存。
excel是个很强大的软件,他和matlab,mathmatica之类的软件联合处理数据会
产生一些非常奇妙的数据化学反应。但是我们对他们的处理大多是手动的,人性化的
繁琐的鼠标点击步骤,所以用“程序语言”对大容量的数据进行处理是非常高效率和有
必要的。
而我实现的目的就是对特定类型的表格文件.xls和.xlsx文件进行操作—通过自己定义文件的名称来标定目标。
效果展示
老规矩:b站展示视频——传送门
下面是代码解释
import pandas as pd
import numpy as np
#我自己写的函数具体的物理意义在下面都有解释,我就不进行赘述了,直接说实现的功能
#我的目的是对excel的某一行的某几列或者某一列某几行单元格里的内容进行读取和保存
#并且将每个单元格里的元素分别放入到不同txt里面保存
#如果你想达到其他的目的,比如说全部保存在一个txt里,里面用换行或者空格隔开等欢#迎来私信我
def read_excel_hang(tip1,tip2, tip3,tip4):
data1 = pd.read_excel(str(tip1))
numpy_data = np.array(data1.iloc[int(tip4)-1, int(tip2)-1:int(tip3)-1]).astype(str)
data = numpy_data.tolist()
print(data)
for i in range(len(data)):
with open('test_%d.txt'%(i+1),'w') as file:
s = str(data[i]).replace("['",'').replace("']",'')
#s=s+'\n'
file.write(s)
def read_excel_lie(tip1,tip2, tip3,tip4):
data1 = pd.read_excel(str(tip1))
data2=data1.iloc[int(tip2)-1:int(tip3)-1,int(tip4)-1]#取出列的所有行
print(data2)
data3 = np.array(data2).astype(str)
data=data3.tolist()
#print(type(data))
print(data)
for i in range(len(data)):
with open('test_%d.txt'%(i+1),'w') as file:
s = str(data[i]).replace("['",'').replace("']",'')
#s=s+'\n'
file.write(s)
if __name__ == "__main__":
tip1 = input('请输入文件名:')
a=input('请输入选择的模式:\n1、对某一列进行操作\n2、对某一行进行操作\n')
a=int(a)
if a==1:
print(1)
tip2 = input('请输入起始列数: ')
tip3 = input('请输入结束列数(不包含结束列): ')
tip4 = input('请输入行数: ')
read_excel_hang(tip1,tip2, tip3,tip4)#'yuan.xlsx',2,169,4
if a==2 :
tip2 = input('请输入起始行数: ')
tip3 = input('请输入结束行数(不包含结束行): ')
tip4 = input('请输入列数: ')
read_excel_lie(tip1,tip2, tip3,tip4)
编写不易,求个点赞!!!!!!!
“你是谁?”
“一个看帖子的人。”
“看帖子不点赞啊?”
“你点赞吗?”
“当然点了。”
“我也会点。”
“谁会把经验写在帖子里。”
“写在帖子里的那能叫经验贴?”
“上流!”
cheer!!!