CHEN的小喵-CSDN博客

原创 Xgboost

梯度提升树class xgboost.XGBRegressor (max_depth=3, learning_rate=0.1, n_estimators=100, silent=True,objective='reg:linear', booster='gbtree', n_jobs=1, nthread=None, gamma=0, min_child_weight=1, max_delta_step=0,subsample=1, colsample_bytree=1, colsample_byl

2022-04-25 22:01:23 2254

原创 sklearn-线性回归

1 sklearn中的线性回归sklearn中的线性模型模块是linear_model，我们曾经在学习逻辑回归的时候提到过这个模块。linear_model包含了多种多样的类和函数：普通线性回归，多项式回归，岭回归，LASSO，以及弹性网。2 多元线性回归LinearRegression其中右下角的2表示向量的L2范式，也就是我们的损失函数所代表的含义。在L2范式上开平方，就是我们的损失函数。这个式子，也正是sklearn当中，用在类Linear_model.LinerReg.

2022-04-21 22:23:54 13408

原创机器学习-支持向量机（下）

1 二分类SVC中的样本不均衡问题：重要参数class_weight可输入字典或者"balanced”，可不填，默认None 对SVC，将类i的参数C设置为class_weight [i] * C。如果没有给出具体的class_weight，则所有类都被假设为占有相同的权重1，模型会根据数据原本的状况去训练。如果希望改善样本不均衡状况，请输入形如{"标签的值1"：权重1，"标签的值2"：权重2}的字典，则参数C将会自动被设为：标签的值1的C：权重1 * C，标签的值2的C：权重2*C 或者，可以.

2022-04-15 17:08:28 1151

原创机器学习-支持向量机

1. 线性SVM决策过程的可视化我们可以使用sklearn中的式子来为可视化我们的决策边界，支持向量，以及决策边界平行的两个超平面。画决策边界：理解函数contourmatplotlib.axes.Axes.contour([X, Y,] Z, [levels], **kwargs)Contour是我们专门用来绘制等高线的函数。等高线，本质上是在二维图像上表现三维图像的一种形式，其中两维 X和Y是两条坐标轴上的取值，而Z表示高度。Contour就是将由X和Y构成平面上的所有点中，高度一致的点

2022-04-14 15:49:03 166

原创 sklearn-逻辑回归

1 sklearn中的逻辑回归linear_model.LogisticRegressionclass sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’, max_iter=100, mult

2022-04-02 19:02:57 15120

原创 sklearn-降维算法

sklearn中的降维算法主成分分析PCAclass sklearn.decomposition.PCA (n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, iterated_power=’auto’, random_state=None)特征选择是从已存在的特征中选取携带信息最多的，选完之后的特征依然具有可解释性，我们依然知道这个特征在原数据的哪个位置，代表着原数据上的什么含义。而PCA，是将

2022-03-31 17:00:11 3165

原创 sklearn-数据预处理与特征工程

1 数据预处理 Preprocessing & Imputepreprocessing.MinMaxScaler数据归一化MinMaxScaler有一个重要参数， feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]。使用 feature_range控制参数范围当X中的特征数量非常多的时候，fit会报错并表示，数据量太大了我计算不了，此时使用partial_fit作为训练接口，scaler = scaler.partial_fit(data).

2022-03-28 17:49:43 1881

原创 sklearn-机器学习-随机森林

RandomForestRegressor随机森林回归class sklearn.ensemble.RandomForestRegressor (n_estimators=’warn’, criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, min_impurity_d

2022-03-24 18:49:13 2254

原创机器学习算法基础day10

1 逻辑回归——解决二分类问题的利器逻辑回归公式逻辑回归与线性回归原理相同,但由于是分类问题，损失函数不一样，只能通过梯度下降求解sklearn逻辑回归API•sklearn.linear_model.LogisticRegression构造列标签的名字：column = ['列标签名1','列标签名2', '列标签名3','列标签名4']# 读取数据data = pd.read_csv('网址',names=column良／恶性乳腺癌肿分类实例.

2022-03-03 23:08:34 278

原创机器学习算法基础day9

1 线性回归定义：线性回归通过一个或者多个自变量与因变量之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合一元线性回归：涉及到的变量只有一个多元线性回归：涉及到的变量两个或两个以上损失函数(误差大小)又称最小二乘法减少损失函数方法一：最小二乘法之正规方程减少损失函数方法二：最小二乘法之梯度下降sklearn线性回归正规方程APIsklearn.linear_model.LinearRegression回归性能评估..

2022-03-03 19:32:19 456

原创机器学习算法基础day8

1 常见决策树使用的算法ID3信息增益最大的准则C4.5信息增益比最大的准则CART 回归树: 平方误差最小分类树: 基尼系数最小的准则在sklearn中可以选择划分的原则2sklearn决策树API3泰坦尼克号乘客生存分类模型(1)pd读取数据(2)选择有影响的特征，处理缺失值(3)进行特征工程，pd转换字典，特征抽取x_train.to_dict(orient="records")(4)决策树估计器流程决策树的结构、本地保...

2022-02-27 22:35:55 1634

原创机器学习算法基础day6-7

1sklearn k-近邻算法API数据的处理（1）缩小数据集范围DataFrame.query()（2）处理日期数据pd.to_datetimepd.DatetimeIndex（3）增加分割的日期数据（4）删除没用的日期数据pd.drop（5）将签到位置少于n个用户的删除place_count =data.groupby('place_id').aggregate(np.count_nonzero)tf = place_count[place_count..

2022-02-11 00:17:30 717

原创机器学习算法基础day4-5

1sklearn数据集划分APIsklearn.model_selection.train_test_split

2022-01-15 00:46:20 452

原创机器学习算法基础day1-3

1. sklearn特征抽取•sklearn.feature_extraction作用：对字典数据进行特征值化类：sklearn.feature_extraction.DictVectorizer•DictVectorizer.fit_transform(X) •X:字典或者包含字典的迭代器•返回值：返回sparse矩阵•DictVectorizer.inverse_transform(X)•X:array数组或者sparse矩阵•返回值:转换之前...

2022-01-10 19:36:38 81

转载机器学习-科学数据库day6

1.pd.date_range(start=None, end=None, =None, freq='D')start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引2在DataFrame中使用时间序列index=pd.date_range("20170101",periods=10)df = pd.DataFrame(np.r...

2022-01-06 22:12:50 68

原创机器学习-科学数据库day5

1 例题：现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情况，那么应该怎么办？输出：美国13608，中国2734输出：（截取输出的一部分）grouped = df.groupby(by="columns_name")grouped是一个DataFrameGroupBy对象，是可迭代的grouped中的每一个元素是一个元组元组里面是（索引(分组的值)，分组之后的DataFrame）.

2022-01-05 16:28:09 796

原创机器学习-科学数据库day4

1.pandas常用数据类型（1）Series 一维，带标签数组（2）DataFrame 二维，Series容器 2.pandas之Series切片和索引t 的输出：DataFrame对象既有行索引，又有列索引行索引，表明不同行，横向索引，叫index，0轴，axis=0列索引，表名不同列，纵向索引，叫columns，1轴，axis=13 用pandas读取的狗名字统计数据前一百4pandas之loc...

2022-01-04 17:59:20 1151

原创机器学习-科学数据库day3

1 numpy 创建数组np.array([1, 2, 3])通过列表创建一维数组np.array([(1, 2, 3), (4, 5, 6)])通过列表创建二维数组np.zeros((3, 4))创建全为0的二维数组np.ones((2, 3, 4))创建全为1的三维数组np.full((3, 4), 2) full函数，创建任意大小的数组并填充任意数字此时为2np.arange(5)创建一维等差数组np.arange(6).reshape(2, 3) 创建二维等差数组n.

2021-12-30 22:54:34 1340

原创机器学习-数据科学库day2

例题1 假设通过爬虫你获取到了北京2016年3,10月份每天白天的最高气温(分别位于列表a,b),那么此时如何寻找出气温和随时间(天)变化的某种规律?例题2 假设你获取到了2017年内地电影票房前20的电影(列表a)和电影票房数据(列表b),那么如何更加直观的展示该数据?a = ["战狼2","速度与激情8","功夫瑜伽","西游伏妖篇","变形金刚5：最后的骑士","摔跤吧！爸爸","加勒比海盗5：死无对证","金刚：骷髅岛","极限特工：终极回归","生化危机6：终章"...

2021-12-29 16:37:55 104

原创机器学习-数据科学库day1

例题1 如果列表a表示10点到12点的每一分钟的气温,如何绘制折线图观察每分钟气温的变化情况? a= [random.randint(20,35) for i in range(120)]效果图例题2 假设大家在30岁的时候,根据自己的实际情况,统计出来了从11岁到30岁每年交的女(男)朋友的数量如列表a,请绘制出该数据的折线图,以便分析自己每年交女(男)朋友的数量走势a = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]...

2021-12-28 17:21:13 452

原创 python数据结构与算法day6

1树（英语：tree）是一种抽象数据类型（ADT）或是实作这种抽象数据类型的数据结构，用来模拟具有树状结构性质的数据集合。它是由n（n>=1）个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：每个节点有零个或多个子节点；没有父节点的节点称为根节点；每一个非根节点有且只有一个父节点；除了根节点外，每个子节点可以分为多个不相交的子树；2 树的术语节点的度：一个节点含有的子树的个数称为该节点的度；...

2021-12-27 16:48:57 63

原创 python数据结构与算法day5

1 冒泡排序（英语：Bubble Sort）是一种简单的排序算法。它重复地遍历要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下：比较相邻的元素。如果第一个比第二个大（升序），就交换他们两个。对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。针对所有的元素重复以上的.

2021-12-26 17:17:52 121

原创 python数据结构与算法day4

1.单项循环列表头部添加元素尾部添加元素指定位置添加元素删除元素查找元素测试：输出：2.栈栈（stack），有些地方称为堆栈，是一种容器，可存入数据元素、访问元素、删除元素，它的特点在于只能允许在容器的一端（称为栈顶端指标，英语：top）进行加入数据（英语：push）和输出数据（英语：pop）的运算。没有了位置概念，保证任何时候可以访问、删除的元素都是此前最后存入的那个元素，确定了一种默认的访问顺序。由于栈数据结构...

2021-12-23 18:33:48 76

转载 python数据结构与算法day3

1.链表的定义链表（Linked list）是一种常见的基础数据结构，是一种线性表，但是不像顺序表一样连续存储数据，而是在每一个节点（数据存储单元）里存放下一个节点的位置信息（即地址）。2单向链表单向链表也叫单链表，是链表中最简单的一种形式，它的每个节点包含两个域，一个信息域（元素域）和一个链接域。这个链接指向链表中的下一个节点，而最后一个节点的链接域则指向一个空值。表元素域elem用来存放具体的数据。链接域next用来存放下一个节点的位置（python中的标识）变量p指向.

2021-12-21 19:06:00 59

原创 python数据结构与算法day2

1.顺序表：将元素顺序地存放在一块连续的存储区里，元素间的顺序关系由它们的存储顺序自然表示。链表：将元素存放在通过链接构造起来的一系列存储块中。2.顺序表的结构一个顺序表的完整信息包括两部分，一部分是表中的元素集合，另一部分是为实现正确操作而需记录的信息，即有关表的整体情况的信息，这部分信息主要包括元素存储区的容量和当前表中已有的元素个数两项。3顺序表的两种基本实现方式图a为一体式结构，存储表信息的单元与元素存储区以连续的方式安排在一块存储区里，两部分数据的整体形成一个完..

2021-12-19 22:11:23 60

原创 python数据结构与算法day1

1.时间复杂度与“大O记法”对于算法的时间效率，我们可以用“大O记法”来表示。“大O记法”：对于单调的整数函数f，如果存在一个整数函数g和实常数c>0，使得对于充分大的n总有f(n)<=c*g(n)，就说函数g是f的一个渐近函数（忽略常数），记为f(n)=O(g(n))。也就是说，在趋向无穷的极限意义下，函数f的增长速度受到函数g的约束，亦即函数f与函数g的特征相似。时间复杂度：假设存在函数g，使得算法A处理规模为n的问题示例所用时间为T(n)=O(g(n))，则称O(g(n))为算

2021-12-17 16:07:53 72

原创 python基础知识day11

1.模块的创建和测试代码每个模块都有一个名称，通过特殊变量__name__可以获取模块的名称。在正常情况下，模块名字对应源文件名。仅有一个例外，就是当一个模块被作为程序入口时（主程序、交互式提示符下），它的__name__的值为“__main__”。我们可以根据这个特点，将模块源代码文件中的测试代码进行独立的处理。例如：import mathmath.__name__ #输出'math'【示例】通过__name==“__main__”独立处理模块的测试代码2.模块的导入(1)..

2021-12-15 18:26:37 1024

原创 python基础知识day10

1Python标准库中，文件操作相关的模块2.创建文件对象open()示例：f=open(r"d:\b.txt","w")文本文件的写入一般就是三个步骤：（1）创建文件对象（2）写入数据（3）关闭文件对象执行结果：3.中文乱码问题windows操作系统默认的编码是GBK，Linux操作系统默认的编码是UTF-8。当我们用open()时，调用的是操作系统打开的文件，默认的编码是GBK。【示例】中文字符文件，乱码出现测试我们在文件编辑区单击右键，选择Fi...

2021-12-14 19:51:27 473

原创 Python基础知识day8

1.方法的动态性2.私有属性和私有方法关于私有属性和私有方法，有如下要点：（1）通常我们约定，两个下划线开头的属性是私有的(private)。其他为公共的(public)。（2）类内部可以访问私有属性(方法)（3）类外部不能直接访问私有属性(方法)（4）类外部可以通过“_类名__私有属性(方法)名”访问私有属性(方法)输出：孙小喵我的公司是：百战程序员孙小喵的年龄是： 23磨刀不误砍柴工，读完硕士再打工！233.@property装饰器@prop...

2021-12-11 16:41:35 71

原创 Python基础知识day7

1.嵌套函数输出：孙小喵xiaomiaosun2.nonlocal关键字nonlocal用来声明外层的局部变量。global用来声明全局变量。输出：inner b: 10outer b: 20a： 1000

2021-12-09 16:20:25 595

原创 Python基础知识day6

1.Python函数的分类：（1）内置函数，我们前面使用的str()、list()、len()等这些都是内置函数，我们可以拿来直接使用。（2）标准库函数，我们可以通过import语句导入库，然后使用其中定义的函数（3）第三方库函数，Python社区也提供了很多高质量的库。下载安装这些库后，也是通过import语句导入，然后可以使用这些第三方库的函数（4）用户自定义函数用户自己定义的函数，显然也是开发中适应用户自身需求定义的函数。2.要点：（1）我们使用def来定义函数，然后就是一个空格和函数名称；-

2021-12-08 00:41:41 470

weixin_58975360的博客