- 博客(9)
- 收藏
- 关注
原创 DBSCAN
DBSCAN是基于密度空间的聚类算法,与KMeans算法不同,它不需要确定聚类的数量,而是基于数据推测聚类的数目,它能够针对任意形状产生聚类。1.epsilon-neighborhoodepsoiln-neighborhood(简称e-nbhd)可理解为密度空间,表示半径为e且含有若干个点的nbhd,密度等于包含点的个数/空间大小。图中中心点是(3,2),半径epsilon是0.5根据式子密...
2019-07-03 09:36:09
1528
原创 k-means
Kmeans思想及算法流程:首先Kmeans是一种无监督的聚类算法。对于给定的样本集,按照样本之间的距离大小,将样本划分为K个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。算法流程:1、给各个簇中心以适当的初值。2、更新样本x1,x2,…,xn对应的簇标签y1,y2,…,yn。argmin是使目标函数取最小值时的变量值3、更新各个簇中心。其中y=1,2,…,c上式中,...
2019-07-01 20:47:58
519
原创 关联分析
许多商业企业运营中的大量数据,通常称为购物篮事务(market basket transaction)。表中每一行对应一个事务,包含一个唯一标识TID。购物篮数据利用关联分析的方法可以发现联系如关联规则或频繁项集。关联分析需要处理的关键问题:从大型事务数据集中发现模式可能在计算上要付出很高的代价。所发现的某些模式可能是假的,因为它们可能是偶然发生的。二元表示没按过对应一个事务,每列对...
2019-06-27 16:29:36
1275
原创 Python 字典常用方法总结
1,创建字典字典由键(key)和对应值(value)成对组成。字典也被称作关联数组或哈希表。基本语法如下:dict = {‘Alice’: ‘2341’, ‘Beth’: ‘9102’, ‘Cecil’: ‘3258’}注意:每个键与值用冒号隔开(:),每对用逗号,每对用逗号分割,整体放在花括号中({})。键必须独一无二,但值则不必。值可以取任何数据类型,但必须是不可变的,如字符串,数...
2019-04-22 17:22:49
295
原创 KNN算法
KNN算法的流程计算测试数据与各个训练数据之间的距离;按照距离的递增关系进行排序;选取距离最小的K个点;确定前K个点所在类别的出现频率;返回前K个点中出现频率最高的类别作为测试数据的预测分类。下图中给出了KNN算法中K值选区的规则:图中的数据集是良好的数据,即都有对应的标签。一类是蓝色的正方形,一类是红色的三角形,那个绿色的圆形是待分类的数据。K= 3 时,范围内红色三角形多,这个...
2019-04-07 08:44:38
299
原创 朴素贝叶斯算法的优缺点
朴素贝叶斯算法的优缺点优点: (1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。 (2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。 (3)对缺失数据不太...
2019-03-30 14:11:48
4949
原创 Python常用函数
一、输入输出函数1、print()函数输出函数向屏幕输出指定的汉字print(“hello world”)1print()函数可以同时输出多个字符串,用逗号“,”隔开print(“hello”,“how”,“are”,“you”)1print()会依次打印每个字符串,遇到逗号“,”会输出空格,输出的内容是这样的:hello how are you1print()可以打印整数...
2019-03-17 09:47:34
1492
原创 无题
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-03-09 18:04:03
347
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人