自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 搭建Hadoop集群

Hadoop环境搭建安装VMware Workstation安装的版本是workstation pro v15.5.1软件资源:https://www.nocmd.com/740.html下载Ubuntu镜像文件,在虚拟机中安装首先了解一下Vmware虚拟机下三种网络模式配置,可以参考文档《VMware虚拟机三种联网模式》,大致就是:首先进入界面会发现多出了两个虚拟网卡,有三种模式:...

2020-02-15 00:20:48 618

转载 Map-Reduce工作流程

转自:https://blog.csdn.net/wyqwilliam/article/details/84669579

2020-02-14 10:53:14 136

原创 样条插值

样条插值的定义函数若处处可导,即每一处的左导数和右导数均存在且相等,那么这条函数就是光滑不间断的曲线。样条插值就是根据每两个相邻的数据点确定一段函数,然后再结合成一个函数,那么就是光滑的函数了。样条计算模式:比较不同阶数区别x = np.linspace(-2*np.pi, 2*np.pi, num=10)f = lambda x: np.sin(x) + 0.5 * xx1 = ...

2020-02-13 20:25:06 5457

原创 数据预处理

标准化、归一化 or 中心化?注意:需要去除离群值时,当数据本身比较聚集,也就是离散程度不高,使用3σ\sigmaσ会比箱型图要好,因为这个时候的箱型图可能找不出离散值,都在1.5IQR以内。为什么要线性变化线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序,那...

2020-02-13 17:06:13 237

转载 点估计中二阶中心距与总体样本方差的区别

https://blog.csdn.net/qq_41228218/article/details/94584393https://blog.csdn.net/huguozhiengr/article/details/81607637

2020-02-12 22:24:40 1759

原创 关联规则(Apriori FP Tree算法)

关联分析直观理解频繁项集(frequent itemset)是指那些经常出现在一起的物品集合,比如{葡萄酒,尿布, 豆奶}就是频繁项集的一个例子。一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务的比例,那么Support=P(A&B)Conf...

2020-02-12 22:03:50 738

原创 决策树算法

决策树构造实例:这个就不详细讲了,大家知道树的结构就行了ID3:信息增益(有什么问题呢?)C4.5:信息增益率(解决ID3问题,考虑自身熵情况)CART:使用GINI系数来当作衡量标准决策树的剪枝:预剪枝,后剪枝

2020-02-12 16:32:12 871

原创 相似度类型

相似度计算相似度的计算一般是基于向量的,可以将一个用户对所有的物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对于某一个物品的偏好作为一个向量计算物品之间的相似度,相似度的计算有下列几种方式:计算欧几里得距离:利用欧几里得距离计算相似度时,将相似度定义如下:皮尔逊相关系数:其中sx,sy表示x和y的标准差。Cosine相似度:Tanimoto系数,也称作Jacca...

2020-02-12 14:01:39 212

转载 Jupyter Notebook格式解析(可用于合并文件)

最近遇到一个问题:如何合并多个Jupyter Notebook的笔记为一个笔记文件?经常用Jupyter Notebook写Python代码,看到这个需求不是想去找轮子而是想自己做解析和合并。通过深入文件格式去加深对Jupyter Notebook的了解。用Jupyter 写代码有很多优势:交互式的编程体验、文档图表整合、扩展性强而且非常容易复现结果。从2017年开始,已有大量的北美顶尖...

2020-02-12 10:47:39 3843

原创 matplotlib技巧总结

来自cheatsheet合辑

2020-02-11 22:44:23 69

转载 datetime库方法总结

python datetime处理时间https://www.cnblogs.com/lhj588/archive/2012/04/23/2466653.htmlPython提供了多个内置模块用于操作日期时间,像calendar,time,datetime。datetime模块定义了两个常量:datetime.MINYEAR和datetime.MAXYEAR,分别表示datetime所能表示...

2020-02-11 22:12:08 1618

原创 Numpy库方法总结

数组的基本信息import numpy as npar = np.array([[1,2,3,4,5,6,7], [1,2,3,4,5,6,7]])print(ar) # 输出数组,注意数组的格式:中括号,元素之间没有逗号(和列表区分)print(ar.ndim) # 输出数组维度的个数(轴数),或者说“秩”,维度的数量也称rankprint(ar.shape...

2020-02-11 17:09:41 190

原创 Pandas库方法总结

构造Series# 用list初始化Seiress = pd.Series([7, 'Beijing', 3.14, -12345, 'HanXiaoyang'])# pandas会默认用0到n作为Series的index,但是我们也可以自己指定index。s = pd.Series([7, 'Beijing', 3.14, -12345, 'HanXiaoyang'], index=['...

2020-02-11 16:17:47 274

原创 正则表达式

正则表达式首先注意一下,正则表达式效率上很多情况下不如str的内建函数,先列举一下我不太常用或者想不到的功能:查找子字符串,存在返回索引值,不存在则分别返回-1和异常:string.find(str, beg=0, end=len(string)) s.rfind(’’)string.index(str, beg=0, end=len(string)) s.rin...

2020-02-11 15:08:56 206

原创 Leetcode10. Regular Expression Matching DP问题

class Solution { public boolean isMatch(String text, String pattern) { if (pattern.isEmpty()) return text.isEmpty(); boolean first_match = (!text.isEmpty() && ...

2019-06-08 21:06:25 117

原创 动态规划

LeetCode:5. longest Palindrom substring第一种方法:Approach 4: Expand Around CenterIn fact, we could solve it in O(n^2)O(n2) time using only constant space.We observe that a palindrome mirrors around ...

2019-06-06 23:22:50 108

原创 PAT(Top Level) 1002

动态规划——01背包链接: https://pintia.cn/problem-sets/994805148990160896/problems/9948051561456435201002 Business (35 分)As the manager of your company, you have to carefully consider, for each project, the...

2018-12-12 12:02:27 186

原创 PAT(Top Level) 1001

PAT(Top Level) 1001链接: https://pintia.cn/problem-sets/994805148990160896/problems/9948051566573486081001 Battle Over Cities - Hard Version (35 分)It is vitally important to have all the cities conn...

2018-12-11 14:48:22 266

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除