weixin_46121800-CSDN博客

原创 Datawhale_数学基础1

感想：刚开始主要讲述了函数极限，函数极限的定义主要是基于趋近这一概念，而epsilon实则是为了定义趋近多少的概念，函数极限的定义后解释了保号性，有界性等性质。在解无穷小量等问题时，主要有三种方法，等价无穷小（记忆公式）；洛必达法则；泰勒公式。写的作业题相对比较常规，熟练运用好公式和性质能较快解决。...

2021-08-18 23:03:57 85

求解Rosenbrock函数最小值定义a=1，b=100图像如：采用梯度下降：xn+1=xn−α∇f(xn),n≥0x_{n+1}=x_n-\alpha \nabla f(x_n),\quad n\geq0xn+1=xn−α∇f(xn),n≥0import numpy as npimport matplotlib.pyplot as pltfrom matplotlib import tickerdef f(x, y): return (1 - x) ** 2 +

2021-07-13 23:01:46 87

原创 Linux学习_task05

Linux 磁盘管理磁盘是利用磁记录技术存储数据的存储器。运行原理多个盘片靠主轴连接，电机带动主轴做旋转运动，通过多个磁头臂的摇摆和磁盘的旋转，磁头可以在磁盘旋转的过程中读取到磁盘中存储的数据磁盘的扇区、磁道、柱面1、磁道：磁盘的每个盘面被划分为许多同心圆，划分的线条叫做磁道2、扇区：硬盘的盘片被磁道划分成多个扇区，扇区为基本单位3、柱面：每一个盘片同一大小同心圆连在一起，可以看成一个柱面磁盘管理可以分为五步，分别为添加硬盘、做RAID或逻辑卷LVM、分区、分区格式化、挂载到文件系统

2021-06-26 23:40:32 102 2

原创 linux_task04

Linux目录Linux中目录为树状结构，以/为起始，也称为根目录，是文件系统的入口，每一个文件和目录都是从这开始。根据FHS标准，Linux目录分为四种交互状态：&shareableunshareablestatic/usr & /opt/etc & /bootvariablevar/mail & /var/spool/news/var/run & /var/lock‘shareable’：指可以存储在一台主机上并在

2021-06-23 23:51:13 72

原创 Linux_task03

用户和组管理1.1 什么是用户Linux是多用户多任务的操作系统，可以多个用户同时登陆并执行不同任务。用户在需要使用系统资源时需申请账户进入系统，不同用户拥有不同权限；用户又分为超级用户和普通用户，超级用户即系统管理员root1.2 什么是用户组当我们需要让多个用户都有某一权限，可以将他们放进同一个用户组里，方便集中管理。用户组分为：1：主用户组（primary group）2：次用户组（secondary group）主用户组的信息保存在 /etc/passwd 文件中；次用户组的信息保存

2021-06-19 23:11:47 59

原创 Linux学习_task02

工具以及版本简介本次推荐虚拟机为Oracle VM VirtualBoxUbuntu版本:20.04创建虚拟机在安装好虚拟机后，提前准备好Ubuntu ISO 镜像文件，在Oracle软件上新建一个虚拟机，类型选择为Linux，版本为Ubuntu （64-bit），为虚拟机分配适合的内存，内存建议大于或等于1024MB，接着添加虚拟硬盘到虚拟机中，选择为现在创建虚拟硬盘，虚拟硬盘的文件的类型为VDI，然后选择存储物理硬盘的选择为动态分配，存放位置以及硬盘大小，大小建议20GB或更大。Ubuntu

2021-06-16 21:50:17 43

原创 Linux学习_task01

什么是LinuxLinux全称为GNU/Linux，是一种免费使用和自由传播的类UNIX操作系统，常说的Linux，指的是Linux内核，一个基于POSIX的多用户，多任务，支持多线程和多CPU的操作系统。为什么要使用Linux开源免费Linux是完全免费的操作系统，开放源代码，任何人都可以得到并且修改其源代码多用户、多任务Linux的多用户主要是指各个用户对于自己的文件设备有自己特殊的权利，保证了各个用户之间互不影响。多任务是指可以多个任务同时并独立的运行。安全可靠由于代码开源，每个人都

2021-06-14 22:24:28 95 1

原创 DW_ensemble_task04

集成学习案例二（蒸汽量预测）背景介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。我们如何使用以上的信息，根据锅炉的工况，预测产生的蒸汽量，来为我国的工业届的产量预测贡献自己的一份力

2021-05-24 00:11:31 58

原创 DW_ensemblelearning_task04

集成学习案例一（幸福感预测）背景介绍此案例是一个数据挖掘类型的比赛——幸福感预测的baseline。比赛的数据使用的是官方的《中国综合社会调查（CGSS）》文件中的调查结果中的数据，其共包含有139个维度的特征，包括个体变量（性别、年龄、地域、职业、健康、婚姻与政治面貌等等）、家庭变量（父母、配偶、子女、家庭资本等等）、社会态度（公平、信用、公共服务）等特征。数据信息赛题要求使用以上 139 维的特征，使用 8000 余组数据进行对于个人幸福感的预测（预测值为1，2，3，4，5，其中1代表幸

2021-05-18 22:18:16 102

原创 DW_ensemblelearning_task03

stacking前述已经在总体上描述了stacking，现在来复现代码。由于sklearn并没有直接对stacking的方法，因此下载mlxtend工具包# 1. 简单堆叠3折CV分类from sklearn import datasetsiris = datasets.load_iris()X, y = iris.data[:, 1:3], iris.targetfrom sklearn.model_selection import cross_val_scorefrom sklearn

2021-05-13 23:35:18 76

原创 DW_ensemble learning_task02

Blending集成学习算法在(1)步中，总的数据集被分成训练集和测试集，如80%训练集和20%测试集，然后在这80%的训练集中再拆分训练集70%和验证集30%，因此拆分后的数据集由三部分组成：训练集80% 70% 、测试集20%、验证集80% 30% 。训练集是为了训练模型，测试集是为了调整模型(调参)，测试集则是为了检验模型的优度。在(2)-(3)步中，我们使用训练集创建了K个模型，如SVM、random forests、XGBoost等，这个是第一层的模型。训练好模型后将验证集输入模型进行预测

2021-05-11 23:28:54 91

原创 DW_ensemble_task11

XGB 算法1）构造目标函数假设有k棵树，第i个样本的输出为y^i=ϕ(xi)=∑k=1Kfk(xi),fk∈F,F={f(x)=ωq(x)}\hat{y}_i=\phi(x_i)=\sum_{k=1}^Kf_k(x_i),\quad f_k\in F,F=\{ f(x)=\omega_{q(x)}\}y^i=ϕ(xi)=∑k=1Kfk(xi),fk∈F,F={f(x)=ωq(x)}，因此目标函数的构建为：L(ϕ)=∑il(y^i,yi)+∑kΩ(fk)L(\phi)=\sum_il(

2021-04-26 22:59:37 63

原创 DW_智慧海洋_task05

简单加权融合平均：将多个模型回归结果取平均作为预测结果----弱分类器合成强分类器。加权平均；投票法硬投票和软投票硬投票：按次数最多的类软投票：按概率最大的类stacking例子：XGB算法输入：使用训练集进行5-fold处理处理：具体处理细节如下使用1、2、3、4折作为训练集，训练一个XGB模型并预测第5折和测试集，将预测结果分别称为XGB-pred-tran5(shape 20001)和XGB-pred-test1(shape 30001).使用1、2、

2021-04-24 23:28:45 59

原创 DW_ensemble_task10

前向分布算法加法模型Adaboost：每个基本模型的加权和：f(x)=∑m=1Mβm(x;γm)f(x)=\sum_{m=1}^{M}\beta_m(x;\gamma _m)f(x)=∑m=1Mβm(x;γm)简单来说就是每一步只需优化：min∑i=1NL(yi.βb(xi;γ))min\sum_{i=1}^{N}L(y_i.\beta b(x_i;\gamma))mini=1∑NL(yi.βb(xi;γ))前向分布算法对于数据集给定一损失函数L(y,f(x))L(y,f(x))L

2021-04-24 00:04:50 60

原创 DW_智慧海洋_task04

模型训练与预测模型训练与预测的主要步骤为：(1):导入需要的工具库(2):对数据预处理，包括导入数据集、处理数据等操作，具体为缺失值处理、连续特征归一化、类别特征转换等(3):训练模型。选择合适的机器学习模型，利用训练集对模型进行训练，达到最佳拟合效果。(4):预测结果。将待预测的数据输入到训练好的模型中，得到预测的结果。模型介绍随机森林随机森林是通过集成学习的思想将多棵树集成的一种算法，基本单元是决策树，而它的本质属于机器学习的一个分支——集成学习。随机森林模型的主要优点是：在

2021-04-22 23:05:33 94

原创 DW_Ensemble_task04

Boosting方法基本思路Boosting 和 Bagging最本质的差别就是对基模型的差别对待，是不停学习后得到的综合投票最高的模型，最终boosting得到的结果偏差（bias）最小，而bagging如前面文章所述，是方差最小。Boosting过程：1、加法模型将基础模型线性组合2、每轮训练提升错误率小的基模型权重，减小错误率大的模型权重3、改变训练数据集的概率分布，依据概率分布调用弱分类器，组合成强分类器Adaboost算法算法1.1（AdaBoost）输入：训练数据集T=

2021-04-20 23:34:22 77

原创 DW_智慧海洋_task03

特征工程特征工程主要分为3部分特征构建特征提取特征选择针对赛题的特征工程船舶的特征主要有：+ x，y坐标：构造与定点(6165599,5202660)距离+ 对特征hour的值划定黑天和白天：5-20白天，其余黑天+ 对特征month的值划定四季：（1，2，3）：1/（4，5，6）：2/（7，8，9）：3/（10，11，12）：4+ 对特征v划分6个等级,以及求取速度，角度变化值，并得到xy相似性特征+ 对v，x，y的分箱特征进行展示+ 学习groupby以及agg统计特征

2021-04-20 21:07:53 138

原创 DW_Ensemble_task02

bagging思路Bagging不仅对集成模型的预测结果，同时采用一定的采样方式来影响基模型，保证基模型可以服从一定的假设。bagging的原理bagging的核心是基于bootstrap概念的，即是有放回的进行采样。单个样本集合，每次都有放回，K次则得到K个样本。Bagging方法之所以有效，是因为每个模型都是在略微不同的训练数据集上拟合完成的，这又使得每个基模型之间存在略微的差异，使每个基模型拥有略微不同的训练能力。引用bagging实例sklearn提供了BaggingRegres

2021-04-17 23:18:53 100

原创 DW_智慧海洋_task02

数据EDA数据总体了解载入各种库import warningswarning.filterwarnings('ignore') #利用过滤器忽略警告 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns其他相关包以及部分代码class Load_Save_Data(): def __init__(self,file_name=None):

2021-04-16 22:58:32 179

原创 DW_智慧海洋_task01

geopandas 安装安装基本有三种方法：裸装：在安装Foina之前需要先安装pandas和GDAL，得根据Foina确定GDAL版本，GDAL版本不能太高，容易出现错误，然后可以安装geopandas，全部文件为whl文件，下载于Gohlke’s website，采用pip installconda：直接用conda create -n geopandas_env -c conda-forge python=3.8 geopandas，可以保证整体是从conda-forge上下载，减少冲突；如果

2021-04-14 23:28:10 164

原创 DW_集成学习_task7

投票法思路

2021-04-14 22:28:37 100

原创 task06_DW机器学习基础

评估模型的性能并调参本次学习首先讲述了使用网格搜索与随机网格搜索，开始用make_pipeline封装了SVC，pipe_svc = make_pipeline(StandardScalar(), SVC(random_state=1)然后分别用sklearn中的GridSearchCV和RandomizedSearchCV进行调参优化。当类别为两类时，可采用绘制混淆矩阵和ROC曲线混淆矩阵代码为：confmat = confusion_matrix(y_true=y_test, y_pre

2021-03-29 22:46:54 75

原创 task05_DW机器学习

分类问题1.收集数据并选择合适特征本次学习以鸢尾花数据为例，相关特征为：sepal length (cm)：花萼长度(厘米)sepal width (cm)：花萼宽度(厘米)petal length (cm)：花瓣长度(厘米)petal width (cm)：花瓣宽度(厘米)2.选择度量模型性能的指标分类问题因为因变量是离散的，所以评价指标和回归问题不太一样：真阳性TP：预测值和真实值都为正例；真阴性TN：预测值与真实值都为正例；假阳性FP：预测值为正，实际值为负；假阴性FN

2021-03-27 23:41:58 116

原创 DW_机器学习基础_task04

超参数调优参数与超参数：参数是模型内部的配置变量，值可根据数据进行估计预测时需要参数参数定义了可使用的模型参数是从数据估计或获悉的参数通常不由编程者手动设置参数通常被保存为学习模型的一部分参数是机器学习算法的关键，通常由过去的训练数据中总结得出——————————————————————————————超参数是模型外部的配置，其值无法从数据中估计用于帮助估计参数由人工指定可以使用启发式设置经常被调整为给定的预测建模问题网格搜索GridSearchCV顾名思义：

2021-03-24 22:44:10 88

原创 DW_task3_机器学习基础

优化基础模型训练集：已有数据集测试集：未出现在训练集的未知数据集。训练均方误差与测试均方误差前述公式MSE公式中应用到训练集中则称为训练均方误差，应用到测试集中，则称为测试均方误差。引用自DW学习笔记由图可以看出，样条拟合0方法使得测试误差最小，并且训练误差相对也小，但并不能基于训练均方误差达到最小选择模型。偏差-方差的权衡E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0)]2+Var(ϵ)E(y_0-\hat{f}(x_0))^2=Var(\hat{f}(

2021-03-22 23:04:27 77

原创 DW_机器学习基础2.1

2.1 sklearn构建回归项目本次学习回归采用度量模型的性能的指标为MSE（均方误差）MSE(y,y^)=1nsamples∑i=0nsamples−1(yi−yi^)2MSE(y,\hat{y})=\frac{1}{n_{samples}}\sum_{i=0}^{n_{samples}-1}(y_i-\hat{y_i})^2MSE(y,y^)=nsamples1i=0∑nsamples−1(yi−yi^)2回归分析通常用于预测分析，研究因变量（目标）和自变量（特征）之间的关系。线

2021-03-18 23:15:47 141

原创 Ensemble learning_DW_task01

导论机器学习重要目标：利用数学模型来发现数据中的规律，并作分析以及预测。将数据的特征以及因变量用向量组成。根据数据是否有因变量分为：有监督学习和无监督学习。根据因变量是否连续分为回归和分类。1.1 回归利用sklearn中datasets中的boston数据，由于房价数据为连续变量，则机器学习的任务称为回归。1.2 分类利用sklearn中datasets中的鸢尾花数据，鸢尾花数据的target为鸢尾花的不同种类，为不连续变量，则机器学习的任务为分类。1.3 无监督学习我们可以使用sk

2021-03-15 15:01:32 91

原创 Datawhale “AI earth“ baseline学习与改进

最近电脑在跑其他模型，只进行了baseline学习，还没时间进行改进，先打卡ready to go.

2021-02-25 21:30:37 64

原创 Datawhale docker提交

Docker是一个开源的引擎，可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署，包括VMs（虚拟机）、 bare metal、OpenStack 集群和其他的基础应用平台。Docker通常用于如下场景：web应用的自动化打包和发布；自动化测试和持续集成、发布；在服务型环境中部署和调整数据库或其他的后台应用；从头编译或者扩展现有的OpenShift或Cloud Foundry平台来搭建自己的PaaS环境。本地安装docke

2021-02-22 00:15:33 69

原创 Datawhale金融风控比赛学习笔记

赛题理解1.1数据概况一般而言，对于数据在比赛界面都有对应的数据概况介绍（匿名特征除外），说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征，就是未告知数据列所属的性质的特征列。train.csvid 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限（year）interestRate 贷款利率installment 分期付款金额grade 贷款等级subGrade 贷款等级之子级employmentTitle 就业职称

2020-09-15 22:44:12 156

原创 Datawhale机器学习算法_支持向量机

逻辑回归介绍模型简单可解释性强逻辑回归理解首先采用线性函数进行拟合f(x)=w0+w1∗x1+w2∗x2f(x) = w_0 + w_1 * x_1 + w_2 * x_2f(x)=w0+w1∗x1+w2∗x2,然后比较样本点与f(x)f(x)f(x)的关系，则f(x) = 0是此分类试验的决策边界。由于预测值是线性连续值，而只需要判别离散的类别，并且将结果归一化到区间[0,1]之间可作为概率来阐释结果；归一化采用sigmoid函数g(z)=11+exp(−z)z=f(x)g(

2020-08-20 22:08:59 102

原创 python基础编程

文件与文件系统打开文件open(file, mode='r', buffering=None, encoding=None, newline=None, closefd=True)file:必需，文件路径（相对或者绝对路径）mode：可选，文件打开模式buffering：设置缓冲encoding：一般使用utf8errors：报错级别newline：区分换行符常见地mode如下表所示：打开模式执行操作‘r’以只读方式打开文件，指针会放在文件开头，defau

2020-08-08 21:32:50 130

原创 Python编程基础

模块模块是一个包含所有你定义的函数和变量的文件，其后缀名是.py 。模块可以被别的程序引入，以使用该模块中的函数等功能，这也是python标准库的方法。什么是模块容器- > 数据的封装函数 - > 语句的封装类 - > 方法和属性的封装模块 - > 程序文件命名空间命名空间因对象不同，也有所区别，可以分为如下几种：内置命名空间（Built-in Namespaces）：Python运行就存在，内置函数的命名空间都属于内置命名空间，所以在任何程序中都可

2020-08-07 15:46:18 103

原创 Python基础编程

类与对象对象=属性+方法类就是创建对象的模板，对象就是类的实例；类不但包含方法定义，而且还包含所有实例共享的数据封装：信息隐蔽技术继承：子类自动共享父类之间数据和方法的机制多态：不同对象对同一方法响应不同的行动使用关键字class定义类，关键字后面是：类的名称、冒号和类的实现。引用例子：class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight =

2020-08-05 22:20:04 116

原创 Python编程基础

函数与Lambda表达式函数python 把函数也当成对象，可以从另一个函数中返回出来去构建高阶函数，比如：参数是函数返回值是函数函数的定义函数以def 关键词开头，后接函数名和圆括号()函数执行的代码以冒号开始，并且缩进return[表达式]结束函数，选择性地返回一个值给调用方，不带表达式地return相当于返回Nonedef functionname(parameters): "函数_文档字符串" function_suite return [exp

2020-08-02 22:06:14 40

原创 Python编程基础

字典可变类型与不可变类型序列以连续整数为索引，字典以“关键字”为索引，关键字可以是任意不可变类型，通常用字符串或数值字典是Python唯一的一个映射类型，字符串、元组、列表属于序列类型...

2020-08-01 11:33:06 73

原创 Python基础

这里写自定义目录标题元组字符串元组定义语法：（元素1，元素2， ..., 元素n）小括号括住所有元素逗号分开每个元素1.创建和访问一个元组元组和列表类似，不同之处在于元组被创建后不能修改，类似字符串元组使用的是小括号，列表使用是方括号元组的索引也是用整数对它进行索引和切片例子 x = (1)print(type(x)) # <class 'int'>x = (1,)print(type(x)) # <class 'tuple'>pri

2020-07-28 21:34:23 69

原创 Python编程基础

理解验证集的作用，并完成训练在机器学习模型（特别是深度学习模型）的训练过程中，模型是非常容易过拟合的。深度学习模型在不断的训练过程中训练误差会逐渐降低，但测试误差的走势则不一定。在模型的训练过程中，模型只能利用训练数据来进行训练，模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好，模型就会记住训练样本的细节，导致模型在测试集的泛化效果较差，这种现象称为过拟合（Overfitting）。与过拟合相对应的是欠拟合（Underfitting），即模型在训练集上的拟合效果较差。导致模型过拟合的情况有

2020-05-31 23:51:07 556

原创 Task3 字符识别模型

字符识别模型在本章学习了CNN模型，该模型是计算机视觉领域的主流模型，简略学习了本章，觉得CNN模型就是从原图像中不停的分化出特征，并对不同特征与结果进行比较，然后对不同特征进行打分，反向传播更新参数，再重新学习比较打分的思路；其中对不同层，不同像素的处理不是很基础，因此不是很理解其基本操作；其中的卷积，池化，非线性激活函数以及全连接层的意义不是很了解。Pytorch构建CNN模型根据DataWhale提供的代码尝试了CNN模型，对各个参数以及修改并不是特别理解。构建的模型较为简单，只需要定义好参数，

2020-05-26 22:46:37 82

原创 Task2-数据读取与数据扩增

数据读取1、学习Python和Pytorch进行图像读取python中常见读取图像的库有Pillow和OpenCV文档中介绍Pillow的导入以及过滤提取，而OpenCV比Pillow更强大，但是所花费的学习成本较高，可以利用其内置的算法函数对图像进行大部分操作，并且内置很多图像特征处理算法，丰富且实用性高。数据扩增数据扩增：从字面上理解就是对数据量进行加大。个人体会：数据扩增的基本方法就是对图像的基本特征进行变化，但该特征不能影响目标的标签，增加的数据量可以减小在学习过程中该特征的影响。常见

2020-05-23 22:05:05 108

空空如也

空空如也