自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 【机器学习实战】无监督学习

10 利用K-均值聚类算法对未标注数据分组10.1 K-均值聚类算法算法特点优点:容易实现和理解缺点:可能收敛到局部最小,且在大规模数据集上收敛较慢适用数据:数值型数据一般流程:收集数据准备数据:需要数值型数据计算举例,标称型数据需要映射为二值型数据。分析数据训练算法:无监督学习不需要训练测试算法:可使用量化误差指标如误差平方和来评价结果使用算法:通常情况下,簇...

2020-03-27 17:45:57 630

原创 【机器学习实战】监督式学习-回归

8. 预测数值型数据:回归8.1 用线性回归找到最佳拟合直线线性回归优点:结果易于理解,计算不复杂对非线性数据拟合不好适用数据类型:数值型和标称型数据回归的一般方法收集数据准备数据:需要数值型数据,标称型数据会被转化成二值型数据分析数据:在回归前把数据展示在二维图上有助于加深对数据的理解,在求得回归系数后,再把拟合线也绘制在图上。训练算法:找到回归系数测试算法:使用R2...

2020-03-26 16:17:32 523

原创 【机器学习实战】监督式学习-分类

分类2. K-近邻算法(KNN)2.1 KNN概述把需要分类的数据与已分类数据(训练集)进行比较,在前k个最近的样本中,选取分类最多的类别作为该数据的类别。属于无监督学习优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高、无法得到任何数据的基础结构信息适用数据范围:数值型和标称型。2.2 举例1:改进约会网站配对效果准备数据:从文本文件中解析数据分...

2020-03-19 11:19:50 822

原创 【mysql】学习笔记

mysql语法笔记= & := 的区别在set和update,两者均表示赋值在select中,:=表示赋值,=表示比较用变量实现行号# SET @rownum = 1;SELECT tb.*, @rownum:=@rownum+1 AS rowNumber FROM tb# orSELECT tb.* from tb , (SELECT @rownum := 0...

2020-03-04 18:15:16 149

原创 【python】生成器和yield

python生成器和yield再一次遇到yield表达,复习了一下生成器,顺手记录一下。iterable:可迭代对象,只要内部实现了__iter__或__getitem__方法的对象就是可迭代的,如list, dict, tuple, set, str等;iterator:迭代器,内部实现了__iter__和next()方法的对象;iterable不一定是iterator,但可以进行转化。...

2020-03-04 13:51:56 118

原创 【python】Kafka介绍及confluent-kafka的使用

kafka介绍kafka是高效的数据流处理平台。可以理解为数据的写入和读取的“中转站”。相关概念Broker一个broker对应一个kafka实例,可以分别在多台服务器上各启动一个broker, 也可在一个服务器上启动多个broker。Topic消息的主题,一个broker可有多个topic。Partition每个Topic中的信息可以分配在多个Partition中,有...

2019-07-11 18:27:35 10923

原创 【python】time/datetime/Timestamp使用问题汇总

需要给时间戳加上北京时区(UTC+8)from pytz import timezonefrom datetime import datetimetz = timezone('Asia/Shanghai') # 由于没有北京时区可选,因此用上海时区替代print tz #<DstTzInfo 'Asia/Shanghai' LMT+8:06:00 STD>, 可见该时区与北京...

2019-07-09 13:40:21 1044

原创 【python】字符串使用问题汇总

字符串中含有大括号({ })且需要用format格式化时:## 可使用“{{”代替“{”, “}}”代替“}”

2019-06-27 17:00:44 184

原创 非root情况下安装mysql

cmake安装包下载官网https://cmake.org/download/, 下载后缀为xxx.tar.gz的安装包,版本自选。tar -zvxf xxx.tar.gz ---解压缩cd xxx ---进入解压缩的文件夹./bootstrap./configure --prefix=/home/xxx/xxx ---指定一个默认安装路径makemake install接着 需...

2019-06-25 10:16:28 1296 1

原创 【python】BeautifulSoup的使用

BeautifulSoup是一个用于抓取网页内容的python库,在爬虫项目中经常用到。以下是学习过程中看到的比较有用的参考资料,总结在这里以备有需要的时候查阅:BeautifulSoup官方文档崔庆才: Python爬虫利器二之Beautiful Soup的用法...

2019-05-29 16:29:38 116

原创 【统计学】平均数和期望的区别

先说结论:平均数:统计学层面术语。即多次试验的到结果的均值。期望:概率论层面术语。即基于概率分布预测的样本平均值。举个例子:在一个小黑盒子里随机抽出一个球,球上的数字有可能是1有可能是2。平均数:我每次从箱子里面抽出一个球再放回,记录每次抽出的球的数字,并求出均值。期望:我已知盒子里的1和2号球是均匀随机分布的,即概率p=0.5(上帝视角),则从盒子里抽到球的数字的期望为1.5。...

2019-05-21 20:34:38 4834

原创 【经济学】离岸人民币和在岸人民币

今天刷微博说人民币跌破6.9,趁机了解了一把:离岸人民币:主要发生在香港市场,企业对香港进出口,或通过香港进出口产生的人民币会留在香港,由此产生的人民币市场。在岸人民币:我国境内人民币市场当美元兑人民币价格上升时,说明人民币正在贬值。两者的区别在岸人民币市场受央行的宏观调控和外汇管理局的管制(外汇管理局控制外汇进出境),而离岸人民币市场相对自由的多,因此对人民币的涨跌相对于大环境也会...

2019-05-14 18:24:26 494

原创 【统计学】最大似然估计和最大后验估计

两个方法都是基于样本去估计系统(总体)参数的估计方法,因此经常会被拿到一起来说。最大似然估计最大似然估计(maximum likelihood estimation,简称MLE)很容易理解,在生活生活中其实也经常用到,看下面一个例子:一个箱子中有白球和黑球共1000个,但是我们并不知道白球和黑球各多少个(当然这里不允许把箱子里的球倒出来逐个数),此时我们就可以用抽样的方法去估计箱子里黑白两种...

2019-05-10 17:54:32 878 1

原创 vue中this的作用域

最近在用Vue.js进行前端开发,发现在有些情况下无法使用this对象中的属性,总结一下:当定义了function函数时,无法访问全局this由于function函数会创建自己的this,屏蔽原来全局this,此时无法访问全局this。可用箭头函数代替function...

2019-05-06 15:24:54 1276 1

原创 【JavaScript】for、for-in、forEach、for-of四种循环区别

Arrayjs的Array跟我们一般所说的数组有区别,首先Array内存空间并非连续的,再者,在Array中存储的值,是Array的属性,其“索引”是字符而非数值。forarr = ['a', 'b']a['name'] = 'arrName'Array.prototype.fatherName = 'fatherArray'for(let i=0; i<arr.length; ...

2019-05-06 15:02:44 471

原创 python的赋值和拷贝

讲讲python的赋值和拷贝,写代码的时候踩过不少坑。首先赋值和拷贝应该区分可变对象和不可变对象对于可变对象来说(如list、array、dict等),赋值相当于引用而非拷贝,以list为例,可以看到,赋值后两个变量指向同一个地址。此时,若改变其中一个变量的值,两个变量回同时改变。l = [0, 1, 2]lc = lprint id(l) # 140364430709032...

2019-04-25 19:31:52 180

原创 python实现分类决策树ID3和C4.5算法

ID3算法介绍ID3算法全称为迭代二叉树3代算法(Iterative Dichotomiser 3)该算法要先进行特征选择,再生成决策树,其中特征选择是基于“信息增益”最大的原则进行的。但由于决策树完全基于训练集生成的,有可能对训练集过于“依赖”,即产生过拟合现象。因此在生成决策树后,需要对决策树进行剪枝。剪枝有两种形式,分别为前剪枝(Pre-Pruning)和后剪枝(Post-Pruni...

2019-04-24 20:24:03 2713

原创 python运用sklearn实现KNN分类算法

KNN(K-Nearest-Neighbours Classiflication)分类算法最简单的分类算法,易于理解和实现实现步骤:通过选取与该点距离最近的k个样本,在这k个样本中哪一个类别的数量多,就把k归为哪一类。注意该算法需要保存训练集的观察值,以此判定待分类数据属于哪一类k需要进行自定义,一般选取k<30距离一般用欧氏距离,即d=(x2−x1)2+(y2−y1)2d ...

2019-04-17 19:29:49 6644

原创 python运用sklearn进行数据拟合和回归

在上一篇讲了最小二乘法实现线性回归的原理,实现方面用的是python的static.optimize中的leastsq求出拟合函数。本篇通过sklearn库中的模块来进行拟合和线性回归,并计算拟合误差。对于线性回归来说,无论是用什么工具实现,步骤都是大同小异的:初始化多项式方程对多项式方程进行多次迭代,通过最小二乘法求出使平方损失函数最小情况下的拟合方程。对模型预测结果进行评估调整参数...

2019-04-12 18:26:05 19823 2

原创 python运用最小二乘法(scipy.optimize.leastsq)进行数据拟合与回归

拟合与回归拟合:指把数据集按照其规律方程化的过程,进行拟合的方法很多。回归:拟合的方法之一,有线性回归和非线性回归。当指线性回归时,即是求解最小二乘解。最小二乘法(Leaest Square Method)给定数据点集(xi,yi),i∈(1,2,...,m)(x_i, y_i), i∈(1, 2,...,m)(xi​,yi​),i∈(1,2,...,m)拟合函数h(x)h(x)h...

2019-04-11 19:23:17 10768 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除