Sarah Huang-CSDN博客

原创【机器学习实战】无监督学习

10 利用K-均值聚类算法对未标注数据分组10.1 K-均值聚类算法算法特点优点：容易实现和理解缺点：可能收敛到局部最小，且在大规模数据集上收敛较慢适用数据：数值型数据一般流程：收集数据准备数据：需要数值型数据计算举例，标称型数据需要映射为二值型数据。分析数据训练算法：无监督学习不需要训练测试算法：可使用量化误差指标如误差平方和来评价结果使用算法：通常情况下，簇...

2020-03-27 17:45:57 643

原创【机器学习实战】监督式学习-回归

8. 预测数值型数据：回归8.1 用线性回归找到最佳拟合直线线性回归优点：结果易于理解，计算不复杂对非线性数据拟合不好适用数据类型：数值型和标称型数据回归的一般方法收集数据准备数据：需要数值型数据，标称型数据会被转化成二值型数据分析数据：在回归前把数据展示在二维图上有助于加深对数据的理解，在求得回归系数后，再把拟合线也绘制在图上。训练算法：找到回归系数测试算法：使用R2...

2020-03-26 16:17:32 537

原创【机器学习实战】监督式学习-分类

分类2. K-近邻算法（KNN）2.1 KNN概述把需要分类的数据与已分类数据（训练集）进行比较，在前k个最近的样本中，选取分类最多的类别作为该数据的类别。属于无监督学习优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高、无法得到任何数据的基础结构信息适用数据范围：数值型和标称型。2.2 举例1：改进约会网站配对效果准备数据：从文本文件中解析数据分...

2020-03-19 11:19:50 828

原创【mysql】学习笔记

mysql语法笔记= & := 的区别在set和update，两者均表示赋值在select中，：=表示赋值，=表示比较用变量实现行号# SET @rownum = 1；SELECT tb.*, @rownum:=@rownum+1 AS rowNumber FROM tb# orSELECT tb.* from tb , (SELECT @rownum := 0...

2020-03-04 18:15:16 160

原创【python】生成器和yield

python生成器和yield再一次遇到yield表达，复习了一下生成器，顺手记录一下。iterable：可迭代对象，只要内部实现了__iter__或__getitem__方法的对象就是可迭代的，如list， dict， tuple， set， str等；iterator：迭代器，内部实现了__iter__和next()方法的对象；iterable不一定是iterator，但可以进行转化。...

2020-03-04 13:51:56 124

原创【python】Kafka介绍及confluent-kafka的使用

kafka介绍kafka是高效的数据流处理平台。可以理解为数据的写入和读取的“中转站”。相关概念Broker一个broker对应一个kafka实例，可以分别在多台服务器上各启动一个broker，也可在一个服务器上启动多个broker。Topic消息的主题，一个broker可有多个topic。Partition每个Topic中的信息可以分配在多个Partition中，有...

2019-07-11 18:27:35 10932

原创【python】time/datetime/Timestamp使用问题汇总

需要给时间戳加上北京时区（UTC+8）from pytz import timezonefrom datetime import datetimetz = timezone('Asia/Shanghai') # 由于没有北京时区可选，因此用上海时区替代print tz #<DstTzInfo 'Asia/Shanghai' LMT+8:06:00 STD>, 可见该时区与北京...

2019-07-09 13:40:21 1052

原创【python】字符串使用问题汇总

字符串中含有大括号（{ }）且需要用format格式化时：## 可使用“{{”代替“{”, “}}”代替“}”

2019-06-27 17:00:44 197

原创非root情况下安装mysql

cmake安装包下载官网https://cmake.org/download/，下载后缀为xxx.tar.gz的安装包，版本自选。tar -zvxf xxx.tar.gz ---解压缩cd xxx ---进入解压缩的文件夹./bootstrap./configure --prefix=/home/xxx/xxx ---指定一个默认安装路径makemake install接着需...

2019-06-25 10:16:28 1322 1

原创【python】BeautifulSoup的使用

BeautifulSoup是一个用于抓取网页内容的python库，在爬虫项目中经常用到。以下是学习过程中看到的比较有用的参考资料，总结在这里以备有需要的时候查阅：BeautifulSoup官方文档崔庆才： Python爬虫利器二之Beautiful Soup的用法...

2019-05-29 16:29:38 117

原创【统计学】平均数和期望的区别

先说结论：平均数：统计学层面术语。即多次试验的到结果的均值。期望：概率论层面术语。即基于概率分布预测的样本平均值。举个例子：在一个小黑盒子里随机抽出一个球，球上的数字有可能是1有可能是2。平均数：我每次从箱子里面抽出一个球再放回，记录每次抽出的球的数字，并求出均值。期望：我已知盒子里的1和2号球是均匀随机分布的，即概率p=0.5（上帝视角），则从盒子里抽到球的数字的期望为1.5。...

2019-05-21 20:34:38 4884

原创【经济学】离岸人民币和在岸人民币

今天刷微博说人民币跌破6.9，趁机了解了一把：离岸人民币：主要发生在香港市场，企业对香港进出口，或通过香港进出口产生的人民币会留在香港，由此产生的人民币市场。在岸人民币：我国境内人民币市场当美元兑人民币价格上升时，说明人民币正在贬值。两者的区别在岸人民币市场受央行的宏观调控和外汇管理局的管制（外汇管理局控制外汇进出境），而离岸人民币市场相对自由的多，因此对人民币的涨跌相对于大环境也会...

2019-05-14 18:24:26 519

两个方法都是基于样本去估计系统（总体）参数的估计方法，因此经常会被拿到一起来说。最大似然估计最大似然估计（maximum likelihood estimation，简称MLE）很容易理解，在生活生活中其实也经常用到，看下面一个例子：一个箱子中有白球和黑球共1000个，但是我们并不知道白球和黑球各多少个（当然这里不允许把箱子里的球倒出来逐个数），此时我们就可以用抽样的方法去估计箱子里黑白两种...

2019-05-10 17:54:32 904 1

原创 vue中this的作用域

最近在用Vue.js进行前端开发，发现在有些情况下无法使用this对象中的属性，总结一下：当定义了function函数时，无法访问全局this由于function函数会创建自己的this，屏蔽原来全局this，此时无法访问全局this。可用箭头函数代替function...

2019-05-06 15:24:54 1293 1

原创【JavaScript】for、for-in、forEach、for-of四种循环区别

Arrayjs的Array跟我们一般所说的数组有区别，首先Array内存空间并非连续的，再者，在Array中存储的值，是Array的属性，其“索引”是字符而非数值。forarr = ['a', 'b']a['name'] = 'arrName'Array.prototype.fatherName = 'fatherArray'for(let i=0; i<arr.length; ...

2019-05-06 15:02:44 473

原创 python的赋值和拷贝

讲讲python的赋值和拷贝，写代码的时候踩过不少坑。首先赋值和拷贝应该区分可变对象和不可变对象对于可变对象来说（如list、array、dict等），赋值相当于引用而非拷贝，以list为例，可以看到，赋值后两个变量指向同一个地址。此时，若改变其中一个变量的值，两个变量回同时改变。l = [0, 1, 2]lc = lprint id(l) # 140364430709032...

2019-04-25 19:31:52 186

原创 python实现分类决策树ID3和C4.5算法

ID3算法介绍ID3算法全称为迭代二叉树3代算法（Iterative Dichotomiser 3）该算法要先进行特征选择，再生成决策树，其中特征选择是基于“信息增益”最大的原则进行的。但由于决策树完全基于训练集生成的，有可能对训练集过于“依赖”，即产生过拟合现象。因此在生成决策树后，需要对决策树进行剪枝。剪枝有两种形式，分别为前剪枝（Pre-Pruning）和后剪枝（Post-Pruni...

2019-04-24 20:24:03 2729

原创 python运用sklearn实现KNN分类算法

KNN（K-Nearest-Neighbours Classiflication）分类算法最简单的分类算法，易于理解和实现实现步骤：通过选取与该点距离最近的k个样本，在这k个样本中哪一个类别的数量多，就把k归为哪一类。注意该算法需要保存训练集的观察值，以此判定待分类数据属于哪一类k需要进行自定义，一般选取k<30距离一般用欧氏距离，即d=(x2−x1)2+(y2−y1)2d ...

2019-04-17 19:29:49 6659

原创 python运用sklearn进行数据拟合和回归

在上一篇讲了最小二乘法实现线性回归的原理，实现方面用的是python的static.optimize中的leastsq求出拟合函数。本篇通过sklearn库中的模块来进行拟合和线性回归，并计算拟合误差。对于线性回归来说，无论是用什么工具实现，步骤都是大同小异的：初始化多项式方程对多项式方程进行多次迭代，通过最小二乘法求出使平方损失函数最小情况下的拟合方程。对模型预测结果进行评估调整参数...

2019-04-12 18:26:05 19886 2

原创 python运用最小二乘法（scipy.optimize.leastsq）进行数据拟合与回归

拟合与回归拟合：指把数据集按照其规律方程化的过程，进行拟合的方法很多。回归：拟合的方法之一，有线性回归和非线性回归。当指线性回归时，即是求解最小二乘解。最小二乘法（Leaest Square Method）给定数据点集(xi,yi),i∈(1,2,...,m)(x_i, y_i), i∈(1, 2,...,m)(xi,yi),i∈(1,2,...,m)拟合函数h(x)h(x)h...

2019-04-11 19:23:17 10793 1

weixin_44794704的博客