- 博客(20)
- 收藏
- 关注
原创 【机器学习实战】无监督学习
10 利用K-均值聚类算法对未标注数据分组10.1 K-均值聚类算法算法特点优点:容易实现和理解缺点:可能收敛到局部最小,且在大规模数据集上收敛较慢适用数据:数值型数据一般流程:收集数据准备数据:需要数值型数据计算举例,标称型数据需要映射为二值型数据。分析数据训练算法:无监督学习不需要训练测试算法:可使用量化误差指标如误差平方和来评价结果使用算法:通常情况下,簇...
2020-03-27 17:45:57 643
原创 【机器学习实战】监督式学习-回归
8. 预测数值型数据:回归8.1 用线性回归找到最佳拟合直线线性回归优点:结果易于理解,计算不复杂对非线性数据拟合不好适用数据类型:数值型和标称型数据回归的一般方法收集数据准备数据:需要数值型数据,标称型数据会被转化成二值型数据分析数据:在回归前把数据展示在二维图上有助于加深对数据的理解,在求得回归系数后,再把拟合线也绘制在图上。训练算法:找到回归系数测试算法:使用R2...
2020-03-26 16:17:32 537
原创 【机器学习实战】监督式学习-分类
分类2. K-近邻算法(KNN)2.1 KNN概述把需要分类的数据与已分类数据(训练集)进行比较,在前k个最近的样本中,选取分类最多的类别作为该数据的类别。属于无监督学习优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高、无法得到任何数据的基础结构信息适用数据范围:数值型和标称型。2.2 举例1:改进约会网站配对效果准备数据:从文本文件中解析数据分...
2020-03-19 11:19:50 828
原创 【mysql】学习笔记
mysql语法笔记= & := 的区别在set和update,两者均表示赋值在select中,:=表示赋值,=表示比较用变量实现行号# SET @rownum = 1;SELECT tb.*, @rownum:=@rownum+1 AS rowNumber FROM tb# orSELECT tb.* from tb , (SELECT @rownum := 0...
2020-03-04 18:15:16 160
原创 【python】生成器和yield
python生成器和yield再一次遇到yield表达,复习了一下生成器,顺手记录一下。iterable:可迭代对象,只要内部实现了__iter__或__getitem__方法的对象就是可迭代的,如list, dict, tuple, set, str等;iterator:迭代器,内部实现了__iter__和next()方法的对象;iterable不一定是iterator,但可以进行转化。...
2020-03-04 13:51:56 124
原创 【python】Kafka介绍及confluent-kafka的使用
kafka介绍kafka是高效的数据流处理平台。可以理解为数据的写入和读取的“中转站”。相关概念Broker一个broker对应一个kafka实例,可以分别在多台服务器上各启动一个broker, 也可在一个服务器上启动多个broker。Topic消息的主题,一个broker可有多个topic。Partition每个Topic中的信息可以分配在多个Partition中,有...
2019-07-11 18:27:35 10932
原创 【python】time/datetime/Timestamp使用问题汇总
需要给时间戳加上北京时区(UTC+8)from pytz import timezonefrom datetime import datetimetz = timezone('Asia/Shanghai') # 由于没有北京时区可选,因此用上海时区替代print tz #<DstTzInfo 'Asia/Shanghai' LMT+8:06:00 STD>, 可见该时区与北京...
2019-07-09 13:40:21 1052
原创 【python】字符串使用问题汇总
字符串中含有大括号({ })且需要用format格式化时:## 可使用“{{”代替“{”, “}}”代替“}”
2019-06-27 17:00:44 197
原创 非root情况下安装mysql
cmake安装包下载官网https://cmake.org/download/, 下载后缀为xxx.tar.gz的安装包,版本自选。tar -zvxf xxx.tar.gz ---解压缩cd xxx ---进入解压缩的文件夹./bootstrap./configure --prefix=/home/xxx/xxx ---指定一个默认安装路径makemake install接着 需...
2019-06-25 10:16:28 1322 1
原创 【python】BeautifulSoup的使用
BeautifulSoup是一个用于抓取网页内容的python库,在爬虫项目中经常用到。以下是学习过程中看到的比较有用的参考资料,总结在这里以备有需要的时候查阅:BeautifulSoup官方文档崔庆才: Python爬虫利器二之Beautiful Soup的用法...
2019-05-29 16:29:38 117
原创 【统计学】平均数和期望的区别
先说结论:平均数:统计学层面术语。即多次试验的到结果的均值。期望:概率论层面术语。即基于概率分布预测的样本平均值。举个例子:在一个小黑盒子里随机抽出一个球,球上的数字有可能是1有可能是2。平均数:我每次从箱子里面抽出一个球再放回,记录每次抽出的球的数字,并求出均值。期望:我已知盒子里的1和2号球是均匀随机分布的,即概率p=0.5(上帝视角),则从盒子里抽到球的数字的期望为1.5。...
2019-05-21 20:34:38 4884
原创 【经济学】离岸人民币和在岸人民币
今天刷微博说人民币跌破6.9,趁机了解了一把:离岸人民币:主要发生在香港市场,企业对香港进出口,或通过香港进出口产生的人民币会留在香港,由此产生的人民币市场。在岸人民币:我国境内人民币市场当美元兑人民币价格上升时,说明人民币正在贬值。两者的区别在岸人民币市场受央行的宏观调控和外汇管理局的管制(外汇管理局控制外汇进出境),而离岸人民币市场相对自由的多,因此对人民币的涨跌相对于大环境也会...
2019-05-14 18:24:26 519
原创 【统计学】最大似然估计和最大后验估计
两个方法都是基于样本去估计系统(总体)参数的估计方法,因此经常会被拿到一起来说。最大似然估计最大似然估计(maximum likelihood estimation,简称MLE)很容易理解,在生活生活中其实也经常用到,看下面一个例子:一个箱子中有白球和黑球共1000个,但是我们并不知道白球和黑球各多少个(当然这里不允许把箱子里的球倒出来逐个数),此时我们就可以用抽样的方法去估计箱子里黑白两种...
2019-05-10 17:54:32 904 1
原创 vue中this的作用域
最近在用Vue.js进行前端开发,发现在有些情况下无法使用this对象中的属性,总结一下:当定义了function函数时,无法访问全局this由于function函数会创建自己的this,屏蔽原来全局this,此时无法访问全局this。可用箭头函数代替function...
2019-05-06 15:24:54 1293 1
原创 【JavaScript】for、for-in、forEach、for-of四种循环区别
Arrayjs的Array跟我们一般所说的数组有区别,首先Array内存空间并非连续的,再者,在Array中存储的值,是Array的属性,其“索引”是字符而非数值。forarr = ['a', 'b']a['name'] = 'arrName'Array.prototype.fatherName = 'fatherArray'for(let i=0; i<arr.length; ...
2019-05-06 15:02:44 473
原创 python的赋值和拷贝
讲讲python的赋值和拷贝,写代码的时候踩过不少坑。首先赋值和拷贝应该区分可变对象和不可变对象对于可变对象来说(如list、array、dict等),赋值相当于引用而非拷贝,以list为例,可以看到,赋值后两个变量指向同一个地址。此时,若改变其中一个变量的值,两个变量回同时改变。l = [0, 1, 2]lc = lprint id(l) # 140364430709032...
2019-04-25 19:31:52 186
原创 python实现分类决策树ID3和C4.5算法
ID3算法介绍ID3算法全称为迭代二叉树3代算法(Iterative Dichotomiser 3)该算法要先进行特征选择,再生成决策树,其中特征选择是基于“信息增益”最大的原则进行的。但由于决策树完全基于训练集生成的,有可能对训练集过于“依赖”,即产生过拟合现象。因此在生成决策树后,需要对决策树进行剪枝。剪枝有两种形式,分别为前剪枝(Pre-Pruning)和后剪枝(Post-Pruni...
2019-04-24 20:24:03 2729
原创 python运用sklearn实现KNN分类算法
KNN(K-Nearest-Neighbours Classiflication)分类算法最简单的分类算法,易于理解和实现实现步骤:通过选取与该点距离最近的k个样本,在这k个样本中哪一个类别的数量多,就把k归为哪一类。注意该算法需要保存训练集的观察值,以此判定待分类数据属于哪一类k需要进行自定义,一般选取k<30距离一般用欧氏距离,即d=(x2−x1)2+(y2−y1)2d ...
2019-04-17 19:29:49 6659
原创 python运用sklearn进行数据拟合和回归
在上一篇讲了最小二乘法实现线性回归的原理,实现方面用的是python的static.optimize中的leastsq求出拟合函数。本篇通过sklearn库中的模块来进行拟合和线性回归,并计算拟合误差。对于线性回归来说,无论是用什么工具实现,步骤都是大同小异的:初始化多项式方程对多项式方程进行多次迭代,通过最小二乘法求出使平方损失函数最小情况下的拟合方程。对模型预测结果进行评估调整参数...
2019-04-12 18:26:05 19886 2
原创 python运用最小二乘法(scipy.optimize.leastsq)进行数据拟合与回归
拟合与回归拟合:指把数据集按照其规律方程化的过程,进行拟合的方法很多。回归:拟合的方法之一,有线性回归和非线性回归。当指线性回归时,即是求解最小二乘解。最小二乘法(Leaest Square Method)给定数据点集(xi,yi),i∈(1,2,...,m)(x_i, y_i), i∈(1, 2,...,m)(xi,yi),i∈(1,2,...,m)拟合函数h(x)h(x)h...
2019-04-11 19:23:17 10793 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人