johnnyhan321-CSDN博客

原创 Logistic回归和KMEANS算法

Logistic回归算法损失函数误差平方和是凸函数，有全局最优解对数似然损失：多个局部最小值梯度下降求解：1.多次随机初始化，多次比较最小值2.求解过程当中，调整学习率from sklearn.linear_model import LogisticRegression（）调用方法雷同log=LogisticRegression（）log.fit（x_train,x_test）log.coef_ # 返回回归系数eg：替换数据中的?为空值df.replace(to_repla

2021-01-18 15:46:55 397

原创欠拟合和过拟合

欠拟合原因以及解决办法原因：学习到数据的特征过少解决办法：增加数据的特征数量过拟合原因以及解决办法原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点解决办法：进行特征选择，消除关联性大的特征(很难做)，交叉验证(让所有数据都有过训练)正则化(了解)L2正则化：可以使得W的每个元素都很小，都接近于0优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象岭回归sklearn.linear_model.Rid

2021-01-16 21:17:55 112 1

原创线性回归

线性回归目标函数：损失函数sklearn.linear_model.LinearRegressionsklearn.linear_model.SGDRegressoreg:以波士顿房价数据为例import numpy as npimport pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitimpo

2021-01-16 02:02:25 88

原创决策树和随机森林

决策树ID3信息增益最大的准则C4.5信息增益比最大的准则CART回归树: 平方误差最小分类树: 基尼系数最小的准则在sklearn中可以选择划分的原则class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)决策树分类器criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’max_depth:树的深度大小ra

2021-01-14 16:30:02 190

原创模型常用评估和调参

模型评估sklearn.metrics.classification_reportsklearn.metrics.classification_report(y_true, y_pred, target_names=None)y_true：真实目标值y_pred：估计器预测目标值target_names：目标类别名称return：每个类别精确率与召回率#导包from sklearn.metrics import classification_report#放入y和yhatprint(

2021-01-13 11:37:13 287

原创朴素贝叶斯

朴素贝叶斯'朴素’指的就是相互独立----p(ab)=p(a)p(b) 的前提????(????│????1,????2,…)=(????(????1,????2,… │????)????(????))/(????(????1,????2,…))-拉普拉斯平滑系数????(????1│????)=(????????+????)/(????+????????)????为指定的系数一般为1，m为训练文档中统计出的特征词个数sklearn.naive_bayes.MultinomialNBskle

2021-01-12 22:51:07 55

原创 KNN算法-测试分类iris数据集

K近邻算法原理：核心原理：越相近越相似，根据最近的K个近邻特征的距离，来判断归属于哪个蔟。关键词：距离，K个近邻1.一般距离计算有欧式距离，曼哈顿距离，等等，这里默认欧氏距离（方便计算）2.近邻数K的取值，直接影响到算法的结果。*值的思考的是，根据距离最近的K个近邻所属的蔟，以类似投票制的方式，是否合理？距离是否需要加上权重？以iris数据集为例，简单运行下KNN的算法：#导入常规要用的包from sklearn.datasets import load_irisfrom sklearn.n

2021-01-12 18:05:32 840 1

原创特征的基本处理

一.特征抽取1.字典特征提取sklearn.feature_extraction.DictVectorizer语法使用：DictVectorizer(sparse=True) # sparse默认为True，返回sparse矩阵DictVectorizer.fit_transform(X)X:字典或包含字典的迭代器返回值：返回sparse矩阵DictVectorizer.inverse_transform(X) # 不常用X:array数组或sparse矩阵返

2021-01-11 18:33:50 147

原创 Linux基础操作（一）：基本命令及远程连接

内容较多，参考思维导图

2021-01-05 00:27:37 97

原创 pandas分组及时间序列案例

分组案例一：import numpy as npimport pandas as pdimport timefrom datetime import datetimedf2=pd.read_csv(r"E:\拜师\14100_HM数据科学库课件\14100_HM数据科学库课件\day05\code\starbucks_store_worldwide.csv")df2.head() # 星巴克训练数据df2.columns要求统计中国各个城市的店铺数量df2.loc[df2[‘Count

2021-01-02 20:33:40 432

原创 pandas基础操作--统计案例

案例一：统计电影演员import numpy as npimport pandas as pddf=pd.read_csv(r"E:\拜师\14100_HM数据科学库课件\14100_HM数据科学库课件\day05\code\IMDB-Movie-Data.csv")df.head()Actors中为电影演员，存在重复，需要统计所有演员（去重）人数df.Actorsa=[]for i in df.Actors:i=i.split(’,’)for j in range(len(i)):

2021-01-02 19:53:34 232

原创 matplotlib直方图绘制

import randomrandom.seed(101)a=[random.randint(70,200) for i in range(250)]plt.figure(figsize=(20,8),dpi=80)d=3num_bins=(max(a)-min(a))//dplt.xticks(range(min(a),max(a)+d,d))plt.yticks(range(12))plt.xlabel(‘电影时长’,fontproperties=my_font)plt.ylabel(

2021-01-02 19:24:49 84

原创 matplotlib中多组数据折线图绘制及柱状图绘制

两组数据折线图对比a=[1,0,1,1,2,4,3,2,3,4,5,6,5,4,3,3,1,1,1,1]b=[1,0,3,1,2,2,3,3,2,1,2,1,1,1,1,1,1,1,1,1]x=range(11,31)plt.figure(figsize=(20,8),dpi=80)_x_ticks=[‘age:{}’.format(i) for i in x]plt.xticks(x,_x_ticks,rotation=45) #rotation设置轴标签旋转角度plt.yticks(ran

2021-01-02 19:23:34 2473 1

原创 matplotlib中散点图绘制

单张散点图x=range (2,25,2)y=[11,13,24,29,30,16,33,24,22,22,26,20]plt.xticks(range(30))plt.scatter(x,y)一张散点图展示2组数据import random#y轴random.seed(100)a=[random.randint(20,40) for i in range(30)]random.seed(101)b=[random.randint(20,40) for i in range(30)]

2021-01-02 19:05:26 416 1

原创 matplotlib基础画图

基础画图，传入X,Y，设置x(y)ticks及x(y)labelfrom matplotlib import pyplot as pltimport matplotlibx=range (2,25,2)y=[11,13,24,29,30,16,33,24,22,22,26,20]plt.figure(figsize=(20,8),dpi=80)x_ticks=[‘10: {}’.format(i) for i in list(x)]plt.xticks(x,x_ticks)plt.ytick

2021-01-02 18:56:43 62

weixin_52143641的博客