机器学习
文章平均质量分 94
机器学习
words8
这个作者很懒,什么都没留下…
展开
-
字符编码
字符编码一、ASCII码二、扩展的ASCLII码三、GB2312和GBK一、ASCII码计算机内部,所有信息最终都是一个二进制值。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从00000000到11111111。美国制定的标准ASCII码一共规定了128个字符的编码,一个字节表示一个字符。比如大写的字母A是65(二进制01000001),原创 2021-01-23 22:16:12 · 1228 阅读 · 0 评论 -
missingno库---缺失值可视化分析
最近发现一个用于缺失值可视化的库,十分的方便、直观。missingno 下载可以用pip install missingno 即可下载该库导入库import missingno as msno下面开始举一些栗子1.条形密度图msno.matrix(data.sample(1000),labels=True)#data表示类型为dataframe的表格,#sample(1000)表示抽取表格中1000个样本。#labels为True表示显示标签,默认不显示图是可视化的结果,白线.原创 2020-11-10 10:37:23 · 1798 阅读 · 0 评论 -
逻辑回归(logistics regression)
1.算法概论2.目标函数3.损失函数4.梯度下降最小化损失函数5.代码实现6.小结原创 2020-10-14 12:28:56 · 533 阅读 · 2 评论 -
OperationalError: unrecognized token: “:“
我在使用python中的sqlite3库时,向数据库插入数据时出现OperationalError: unrecognized token: ":"这个错误#3.2保存数据def saveDataDB(dbpath,datalist): init_db(dbpath)#创建数据库 conn = sqlite3.connect(dbpath) cursor = conn.cursor() for data in datalist: for i in da.原创 2020-10-06 20:48:28 · 1592 阅读 · 0 评论 -
正则化防止过拟合
在上次的线性回归就有提到正则化,下面就来更具体地介绍什么是正则化。1.为什么要正则化2.正则化的作用3.原创 2020-10-03 08:37:11 · 1860 阅读 · 0 评论 -
SVM分类算法
1.基本概念支持向量机(SVM)的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间隔最大。SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。 实际应用中一般要解决觉得是多分类问题,SVM也可以用了来解决多分类,可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式等。一般SVM有下面三种:硬间隔支持向量机(线性可分支持向量机):当训练数据线性可分时,可通过硬间隔最大化学得一个线性可分支持向量机。软间隔支持向量机:当训原创 2020-08-28 17:01:27 · 12207 阅读 · 3 评论 -
BP神经网络算法
1.基本思想先上一个图Layer1为输入层,x1,x2,x3表示一个样本里的每个特征;Layer2为隐藏层当然,隐藏层可以不止一层,在神经网络中,输入层与输出层之间的层称为隐含层或隐层,隐层和输出层的神经元都是具有激活函数的功能神经元;Layer3为输出层,输出值更大的对于类别作为预测label。人工神经网络结构有以下特点:每层神经元与下一层神经元之间完全互连神经元之间不存在同层连接神经元之间不存在跨层连接wLij中,L表示第几层,i表示第L层第i个神经元,j表示第L层第i个神经原创 2020-07-31 19:13:39 · 2840 阅读 · 0 评论 -
决策树分类算法
1.算法概要决策树2.重点分析划分处理1、ID3算法划分 信息增益最大的属性做为最有划分属性2、C4.5算法划分(为了解决ID3算法对取值数目较多的属性有所偏好的问题) 增益率最大的属性做为最有划分属性3、基尼系数划分 基尼系数最小的属性做为最有划分属性剪枝处理防止过拟合1、预剪枝 (树生成的过程中进行处理)2、后剪枝 (树生成以后进行处理)3.代码实现...原创 2020-08-14 19:58:21 · 5017 阅读 · 0 评论 -
朴素贝叶斯分类器简单分析
1.基础知识我们先来看看贝叶斯公式:P()2.原创 2020-07-24 08:17:33 · 596 阅读 · 0 评论 -
KNN分类算法简单分析
1.算法概要k-NearestNeighbor分类算法,顾名思义,找到K个与待测数据最近的样本数据,根据K个样本类别情况来判断待测数据的类别。为什么可以这样?相近的物体往往具有一些共性,例如,在学校里一般成绩比较好的学生都喜欢坐在一起,而有些成绩较差的往往也喜欢玩到一块去。KNN算法有三个步骤:1.算距离:计算待测数据到每个样本数据的距离2.找邻居:选出K个距离最近的样本数据3.做分类:在前k个样本中选择频率最高的类别作为预测类别2.KNN的三个重要因素K值的选取如下图:蓝色正方形和红色三角原创 2020-07-16 19:31:42 · 2817 阅读 · 0 评论 -
线性回归
1.含义线性回归是一种以线性模型来建立因变量与自变量关系的方法,通常分为一元线性回归和多元线性回归。线性回归模型根据定数据集D= {(x1, y1), (x2,y3),…,(xm,ym)},其中xi(xi1; xi2. . . ; xid), yi∈R"线性回归"(linear regression)试图学得一个线性模型以尽可能准确地预测连续型实值输出标记.2.一般形式f(x)=ω1x1+ω2x2+ω3x3+…+ωdxd+b矩阵形式f(x)=ωTx+b于ω直观表达了各属性在预测中的重要性,原创 2020-07-12 11:19:32 · 539 阅读 · 0 评论