小白菜_spg-CSDN博客

原创 Day12:机器学习——线性回归梯度下降法

其中第一个数组是全为1的数组，第二个数组是原始特征矩阵 X。X = 2 * np.random.rand(100, 1)#生成一个大小为(100,1)的随机数数组，随机数在[0,2)范围之内。'''#其中的np.random.randn(100,1)这一部分是生成一个大小为 (100, 1) 的随机数数组，3.X_b.T.dot(y - X_b.dot(theta))求导后的梯度向量，包含每个参数的偏导数。X_b = np.c_[np.ones((m, 1)), X]#X_b是（100,4)的矩阵。

2023-09-18 14:02:11 77

原创 Day11:查询 Employee 表中第 n 高的工资。如果没有第 n 个最高工资，查询结果应该为 null

先排序#再删除重复值columns=[f'getNthHighestSalary({N})']#构建输出列表 else:

2023-09-13 16:32:54 109

原创 Day10:超过经理收入的员工（df.merge()用法——合并）

print(df1)print(df2)print(df3)

2023-09-11 11:31:18 129

原创 Day9:筛查过滤表格中不符合要求的信息，输出想要的信息

output=df[["product_id",'product_name']]#输出想要的列信息。["product_id"]#筛查不符合要求的。["product_id"]#保留符合要求的。]#映射到另一个表中。

2023-09-08 10:54:00 51 1

原创 Day8:在一个二维矩阵中，任意三点不共线，并且任意两点间的距离为10

注：我程序的问题是逐个找满足条件的点，显然是行不通的。实际上实现这一功能只需要做两件事，即删除共线的点和距离小于10的点，写两个函数就可以实现。

2023-08-30 10:53:07 33 1

原创 Day7:多进程的两种情况——使用进程池pool和不使用pool

pool = multiprocessing.Pool(processes=os.cpu_count()) # 根据cpu数分配线程。s1 = df.iloc[:10, :] # 取前10行。s2 = df.iloc[10:20, :] # 取后10行。#target：指定执行的函数名，args:使用元组的方式给指定函数传参。print(name+"吃一口……def drink(num,name):#实现功能二。def eat(num,name):#实现功能一。

2023-08-11 17:09:21 37 1

原创 Day6:查找一个文件夹里的所有csv结尾文件的路径

读入文件夹路径，并得到所有csv结尾文件路径。# 存放所有csv结尾文件路径list。#把目录和文件名合成一个路径。#遍历检索根，目录，文件。#如果文件名以csv结尾。

2023-08-11 15:38:26 173 1

原创 Day5:python的数据结构

"list"、"tuple"、"dict"和"set"是不同的数据类型，如果需要将它们之间进行转换，需要使用相应的转换函数，如"list()"、"tuple()"、"dict()"和"set()"。GitHub :在Python中，‘list’，“tuple”，"dict"和"set"是四种常见的数据类型，它们各自有不同的特点和用途。，每个键值对之间用冒号`:`分隔，键值对之间用逗号`,`分隔。字典支持通过键来访问值，也支持添加、删除、修改等操作。集合支持添加、删除、交集、并集、差集等操作。

2023-08-11 10:38:10 31 1

原创 Day4:day1的优化加速，使用numba中的njit

update_matrix(matrix_support, indices) # 使用Numba函数更新矩阵。indices = np.where(row == 1)[0]# 找出每一行中为1的索引。total=np.sum(data, axis=0)#计算每一列的和。print(f" 1耗时{end-start}")

2023-08-03 23:10:25 171

原创 Day3:接续day1的工作，将day1的输出结果支持度矩阵，转化为置信度矩阵，再转化为邻接矩阵，最后输出为字典

将结果存为字典，该字典的key是邻接矩阵的行号，value是每一行中元素为1的列数索引值，由列表组成。#求置信度矩阵.将supportdata每一行的元素和data每一列的和相除，得到置信度矩阵。#邻接矩阵，将置信度矩阵中结果<=0.5的元素置为0，将置信度矩阵中结果>0.5的元素置为1。#求出data矩阵每一列的和，shape=(1,data.shape[1])#将结果sumcol转置，shape=(data.shape[1],1)#获取元素为1的列位置索引。#将结果输出为txt文件。

2023-08-03 17:30:06 41

原创 Day2:torch的数组运算

print( torch.argmin(a, dim=0))##求每一列的最小值的索引值。print( torch.argmin(a, dim=1))##求每一行的最小值的索引值。print(torch.argmax(a, dim=0))##求每一列的最大值的索引值。# 本例输出的结果就是统计0 出现多少次，1 出现多少次，2 出现多少次。print(torch.prod(a, dim=1))##求每一行所有元素的乘积。print(torch.mean(a, dim=0))##求每一列的平均值。

2023-08-03 17:14:41 97

原创处理pkl文件，并将结果映射到另一个二维矩阵中

np.savetxt(r"D:\python_learn\numpy_data.pkl",datacopy ,fmt="%d")#将结果保存为pkl文件。index=np.where(data[i]==1)#找到每一行中数值为1元素的列坐标，type=nparray。datacopy = np.zeros((4000, 4000))#生成一个全0的二维矩阵。index=np.where(data[i]==1)#获取元素为1的列位置索引。total=np.sum(data, axis=0)#计算每一列的和。

2023-08-01 20:13:33 92 1

原创请问，怎么优化for循环呢，我对excel表中的数据进行筛查，根据每一列的正则表达式来判断数据是否合格，当有数据不合格时，df[‘detection_status‘]则设置为1，如何优化提速呢？感谢

2023-07-12 18:42:42 40 1

weixin_43867228的博客