自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Logistic回归和KMEANS算法

Logistic回归算法损失函数误差平方和是凸函数,有全局最优解对数似然损失:多个局部最小值梯度下降求解:1.多次随机初始化,多次比较最小值2.求解过程当中,调整学习率from sklearn.linear_model import LogisticRegression()调用方法雷同log=LogisticRegression()log.fit(x_train,x_test)log.coef_ # 返回回归系数eg:替换数据中的?为空值df.replace(to_repla

2021-01-18 15:46:55 397

原创 欠拟合和过拟合

欠拟合原因以及解决办法原因:学习到数据的特征过少解决办法:增加数据的特征数量过拟合原因以及解决办法原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点解决办法:进行特征选择,消除关联性大的特征(很难做),交叉验证(让所有数据都有过训练)正则化(了解)L2正则化:可以使得W的每个元素都很小,都接近于0优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象岭回归sklearn.linear_model.Rid

2021-01-16 21:17:55 112 1

原创 线性回归

线性回归目标函数:损失函数sklearn.linear_model.LinearRegressionsklearn.linear_model.SGDRegressoreg:以波士顿房价数据为例import numpy as npimport pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.model_selection import train_test_splitimpo

2021-01-16 02:02:25 88

原创 决策树和随机森林

决策树ID3信息增益 最大的准则C4.5信息增益比 最大的准则CART回归树: 平方误差 最小分类树: 基尼系数 最小的准则 在sklearn中可以选择划分的原则class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)决策树分类器criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy’max_depth:树的深度大小ra

2021-01-14 16:30:02 190

原创 模型常用评估和调参

模型评估sklearn.metrics.classification_reportsklearn.metrics.classification_report(y_true, y_pred, target_names=None)y_true:真实目标值y_pred:估计器预测目标值target_names:目标类别名称return:每个类别精确率与召回率#导包from sklearn.metrics import classification_report#放入y和yhatprint(

2021-01-13 11:37:13 287

原创 朴素贝叶斯

朴素贝叶斯'朴素’指的就是相互独立----p(ab)=p(a)p(b) 的前提????(????│????1,????2,…)=(????(????1,????2,… │????)????(????))/(????(????1,????2,…))-拉普拉斯平滑系数????(????1│????)=(????????+????)/(????+????????)????为指定的系数一般为1,m为训练文档中统计出的特征词个数sklearn.naive_bayes.MultinomialNBskle

2021-01-12 22:51:07 55

原创 KNN算法-测试分类iris数据集

K近邻算法原理:核心原理:越相近越相似,根据最近的K个近邻特征的距离,来判断归属于哪个蔟。关键词:距离,K个近邻1.一般距离计算有欧式距离,曼哈顿距离,等等,这里默认欧氏距离(方便计算)2.近邻数K的取值,直接影响到算法的结果。*值的思考的是,根据距离最近的K个近邻所属的蔟,以类似投票制的方式,是否合理?距离是否需要加上权重?以iris数据集为例,简单运行下KNN的算法:#导入常规要用的包from sklearn.datasets import load_irisfrom sklearn.n

2021-01-12 18:05:32 840 1

原创 特征的基本处理

一.特征抽取1.字典特征提取sklearn.feature_extraction.DictVectorizer语法使用:DictVectorizer(sparse=True) # sparse默认为True,返回sparse矩阵DictVectorizer.fit_transform(X)X:字典或包含字典的迭代器返回值:返回sparse矩阵DictVectorizer.inverse_transform(X) # 不常用X:array数组或sparse矩阵返

2021-01-11 18:33:50 147

原创 Linux基础操作(一):基本命令及远程连接

内容较多,参考思维导图

2021-01-05 00:27:37 97

原创 pandas分组及时间序列案例

分组案例一:import numpy as npimport pandas as pdimport timefrom datetime import datetimedf2=pd.read_csv(r"E:\拜师\14100_HM数据科学库课件\14100_HM数据科学库课件\day05\code\starbucks_store_worldwide.csv")df2.head() # 星巴克训练数据df2.columns要求统计中国各个城市的店铺数量df2.loc[df2[‘Count

2021-01-02 20:33:40 432

原创 pandas基础操作--统计案例

案例一:统计电影演员import numpy as npimport pandas as pddf=pd.read_csv(r"E:\拜师\14100_HM数据科学库课件\14100_HM数据科学库课件\day05\code\IMDB-Movie-Data.csv")df.head()Actors中为电影演员,存在重复,需要统计所有演员(去重)人数df.Actorsa=[]for i in df.Actors:i=i.split(’,’)for j in range(len(i)):

2021-01-02 19:53:34 232

原创 matplotlib直方图绘制

import randomrandom.seed(101)a=[random.randint(70,200) for i in range(250)]plt.figure(figsize=(20,8),dpi=80)d=3num_bins=(max(a)-min(a))//dplt.xticks(range(min(a),max(a)+d,d))plt.yticks(range(12))plt.xlabel(‘电影时长’,fontproperties=my_font)plt.ylabel(

2021-01-02 19:24:49 84

原创 matplotlib中多组数据折线图绘制及柱状图绘制

两组数据折线图对比a=[1,0,1,1,2,4,3,2,3,4,5,6,5,4,3,3,1,1,1,1]b=[1,0,3,1,2,2,3,3,2,1,2,1,1,1,1,1,1,1,1,1]x=range(11,31)plt.figure(figsize=(20,8),dpi=80)_x_ticks=[‘age:{}’.format(i) for i in x]plt.xticks(x,_x_ticks,rotation=45) #rotation设置轴标签旋转角度plt.yticks(ran

2021-01-02 19:23:34 2473 1

原创 matplotlib中散点图绘制

单张散点图x=range (2,25,2)y=[11,13,24,29,30,16,33,24,22,22,26,20]plt.xticks(range(30))plt.scatter(x,y)一张散点图展示2组数据import random#y轴random.seed(100)a=[random.randint(20,40) for i in range(30)]random.seed(101)b=[random.randint(20,40) for i in range(30)]

2021-01-02 19:05:26 416 1

原创 matplotlib基础画图

基础画图,传入X,Y,设置x(y)ticks及x(y)labelfrom matplotlib import pyplot as pltimport matplotlibx=range (2,25,2)y=[11,13,24,29,30,16,33,24,22,22,26,20]plt.figure(figsize=(20,8),dpi=80)x_ticks=[‘10: {}’.format(i) for i in list(x)]plt.xticks(x,x_ticks)plt.ytick

2021-01-02 18:56:43 62

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除