weixin_45827577-CSDN博客

原创 0819zuoye

三、作业（1）请详细阐述线性回归模型得最小二乘法表达最小二乘法即为求解未知参数，使残差（理论值与观测值之差）的平方和达到最小。对残差二范数的平方和表达式求导，得到使表达式的值最小时的w（2）在线性回归模型中，极大似然估计与最小二乘估计有什么联系与区别吗区别：原理上：最小二乘估计，最合理的参数估计量应该使得模型能最好地拟合样本数据，也就是估计值和观测值之差的平方和最小；而最大似然法，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大，也就是概率分布函数或者说是似然函数最大。函数上：

2021-08-19 20:01:01 55

原创 2021-08-17

2021-08-17 22:40:34 44

原创 2021-07-29

支持向量机import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sbfrom scipy.io import loadmatraw_data = loadmat(‘data/ex6data1.mat’)raw_datadata = pd.DataFrame(raw_data[‘X’], columns=[‘X1’, ‘X2’])data[‘y’] = raw_data[‘y

2021-07-29 22:50:07 87

原创啃西瓜——第一二章0713

绪论1.2 基本术语数据集 data set / 样本属性（attribute）/ 特征（feature)属性空间（attribute space）特征向量（feature vector）分类（classification) 预测离散值：正类（positive class）/反类（negative class）聚类 (clustering)根据训练数据是否拥有标记信息，学习任务分为两大类：监督学习（supervised learning）/无监督学习（unsupervised learni

2021-07-13 23:01:54 48

原创 2021-6-23

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image#读取训练数据集train = pd.read_csv(‘C:/Users/L/Desktop/da_data/part3/train.csv’)train.head()缺失值填充对分类变量缺失值：填充某个缺失值字符（NA)、用最多的类别进行填充

2021-06-23 22:36:57 79

原创 6-21matplotlib

import numpy as npimport pandas as pdimport matplotlib.pyplot as plttext = pd.read_csv(‘C:/Users/L/Desktop/da_data/part2/data/result.csv’)text.head()#柱状图sex = text.groupby(‘Sex’)[‘Survived’].sum()sex.plot.bar()

2021-06-21 21:36:26 33

原创数据重构6-18

数据的合并1.concat方向链接2.join3.merge4.appendimport numpy as npimport pandas as pd#载入数据text_left_up = pd.read_csv(‘C:/Users/L/Desktop/da_data/part2/data/train-left-up.csv’)text_right_up = pd.read_csv(‘C:/Users/L/Desktop/da_data/part2/data/train-right-up.

2021-06-19 22:12:23 60

原创 2021-06-17

#加载所需数据库import numpy as npimport pandas as pd#加载数据df = pd.read_csv(‘C:/Users/L/Desktop/da_data/part 1/train.csv’)df.head()一.缺失值观察与处理1.缺失值观察df.info()dataframe 使用 series不可使用df.isnull().sum()2.缺失值处理删除 df.dropna()填充 df.fillna()二.重复值观察与处理1.重复

2021-06-17 21:27:18 84

原创 2021-06-14

Part 1 数据加载、、、//address = ‘C:/Users/L/Desktop/da_data/part 1/train.csv’df = pd.read_csv(address,names = [‘乘客ID’,‘是否幸存’,‘仓位等级’,‘姓名’,‘性别’,‘年龄’,‘兄弟姐妹个数’,‘父母子女个数’,‘船票信息’,‘票价’,‘客舱’,‘登船港口’],index_col = ‘乘客ID’,header = 0)df.head()address = ‘C:/Users/L/Deskto

2021-06-15 22:20:34 71

weixin_45827577的博客