weixin_44275584-CSDN博客

原创 Hadoop大数据技术原理与应用-第四章MapReduce分布式计算框架

4.1 MapReduce 概述4.1.1 MapReduce 核心思想MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题，按照一定的“分解"方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果，这种思想来源于日常生活与工作时的经验，同样也完全适合技术领域。MapReduce作为一种分布式计算模型，它主要用于解决海量数据的计算问题。使用MapReduce分析海量数据时，每个MapReduce程序被初始化为一个工作任务，每个

2021-03-10 12:18:09 1297

原创 Hadoop大数据技术原理与应用-第三章HDFS分布式文件系统

3.1 HDFS的简介3.1.1 HDFS的演变HDFS源于Google在2003年10月份发表的**GFS（Google File System）**论文。传统的文件系统对于数据的处理方式是将数据文件直接存储在一台服务器上。这样会产生两个问题：当数据量越来越大的时候，需要扩容文件很大时，上传下载非常耗时对于第一个问题，扩容。扩容有两种方式，一是纵向扩容，即增加磁盘和内存；另一种是横向扩容，即增加服务器数量。分布式文件系统使用的就是横向扩容。对于第二个问题，传输效率。常规的解决办法是将一个

2021-03-08 13:07:13 893

原创 Hadoop大数据技术原理与应用-第二章搭建Hadoop集群

SecureCRT的安装与破解https://www.cnblogs.com/yjd_hycf_space/p/7729796.htmlhttps://www.cnblogs.com/yjd_hycf_space/p/7730690.htmlcd /export/software/yum install lrzsz -yrztar -zxvf jdk-8u161-linux-x64.tar.gz -C /export/serverscd /export/servers/mv jdk1.8.

2021-03-05 14:40:44 963 1

原创 Hadoop大数据技术原理与应用-第一章初识Hadoop

1.1 大数据概述1.1.1 什么是大数据字面意思来看大数据就是巨量的数据。最早提出大数据概念的是麦肯锡公司，他是这样定义大数据的：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度低四大特征。研究机构Gartner是这样定义大数据的：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产。若从技术角度来看，大数据的战略意义不在于掌握庞大的数

2021-03-04 11:29:04 1786 1

原创 python 映射,动态加载模块,动态生成类

class Person(): def __init__(self, name, age): self.name = name self.age = age def walk(self): print( "walking")p = Person("Alex", 22)# 反射、映射、自省# getattr() # 获取 (实例对象\类，字符串-可以是属性或方法,[没有的话返回的值]) --> 如果是属性则返回值,如果是方法则.

2021-02-04 23:10:11 140

原创《机器学习实战》第六章——支持向量机

支持向量机就是希望找到到支持向量距离最小的那一个超平面。优点：泛化错误率低，计算开销不大，容易得到结果缺点：对参数调解和核函数的选择敏感，原始分类器不加修改仅适用于处理二分类问题适用于：线性可分：可以使用一条线（超平面）完全把‘0’，‘1’两种类型的数据分割开——该线称为分割超平面，也就是分类的决策边界支持向量机就是希望能采取数据点离决策边界最远的方法来构建分类器。分类器工作原理：输入数据给分类器，会输出一个分类标签，这相当于类似sigmoid函数的作用。超平面确定后，各个点到超平面

2020-12-23 22:55:48 203

原创《机器学习实战》第五章——Logistic回归

每个特征上都乘以一个回归系数，然后把所有结果值相加，代入Sigmoid函数中，从而大于0.5的为1类，反之为0类优点：缺点：适用范围：二分类问题海维赛德阶跃函数（单位跃阶函数）：在跳跃点上瞬间从0跳跃到1，即函数输出0或1。但是这个瞬间跳跃过程有时候很难处理。另一函数sigmoid函数也有此特点，切数学上更易处理：σ(z)=11+e−z \sigma (z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1该函数在两个坐标下的图像可以看出当x为0时，Sigmoid函数值为

2020-11-29 20:04:22 227

原创帆软

使用SQL语句，创建模板数据集设计、创建表格设置单元格单元格元素：数据设置：分组（相同值进行合并）、列表（展示所有）、汇总（求和、平均、最大最小等）——一般是列表单元格属性：扩展：横向、纵向样式控件设置：（在填报时可以填入数据）- 下拉框控件- 文本控件...

2020-11-24 17:43:14 471

原创 python3 网络爬虫开发实战（崔庆才著）第三章

3.基本库的使用3.1 Urllib是 Python 内置的 HTTP 请求库request ：最基本的 HTTP 请求模块，我们可以用它来模拟发送一请求，就像在浏览器里输入网址然后敲击回车一样，只需要给库方法传入 URL 还有额外的参数，就可以模拟实现这个过程了。方便地实现 Request 的发送并得到 Responseerror ：即异常处理模块，如果出现请求错误，我们可以捕获这些异...

2020-11-23 22:30:24 298

原创《机器学习实战》第四章——朴素贝叶斯

被称之为“朴素”，是因为只进行最原始、最简单的假设–各个特征之间没有关联性优点：数据较少的情况下依旧有效；可以处理多类别问题缺点：数据输入方式较为敏感适用于：标称型数据贝叶斯决策理论假设有统计参数,用 p1(x,y）表示数据点(x,y)属于类别1的概率， p2(x,y)表示数据点(x,y)属于类别2的概率。对于一个新的点(x’,y’),如果p1(x’,y’) > p2(x’,y’) 那么该数据点属于类别1，反之属于类别2贝叶斯决策理论的核心为：选择高概率对应的类别条件概率.

2020-11-23 22:29:28 154

原创特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性数据抽取字典抽取sklearn.feature_extraction.DictVectorizer(sparse = True)将映射列表转换为Numpy数组或scipy.sparse矩阵sparse 是否转换为scipy.sparse矩阵表示，默认开启方法fit_transform(X,y)应用并转化映射列表X，y为目标类型inverse_transform(X[, dict_typ

2020-11-16 17:12:09 107

原创《机器学习实战》第三章——决策树（ID3)

理论寻找最具影响力的特征先进行判别，像一棵树一样的判断分支再判断分支，知道最后判别出属于哪个类别优点计算复杂度不高输出结果易于理解，可以看出内在含义对缺失值不敏感可以处理不相关特征数据缺点易产生过拟合问题适用于离散型数据连续型数据需要离散化总结：划分数据集-按照信息增益信息增益最高的特征就是最好的选择信息增益：划分数据集之前和之后发生的信息变化度量信息的单位称为熵（entropy），即信息的期望值信息熵公式：H=−∑i=1np(xi)log⁡2p(xi)

2020-11-16 13:54:26 297 1

原创归一化

归一化使得特征数值转换为0-1之间的数值，降低特征的特征重要性差异公式：newValue=oldValue−minmax−min newValue = \frac{oldValue - min}{max - min} newValue=max−minoldValue−min实现代码def autoNorm(dataSet): ''' dataSet : 样本，array类型数据归一化 '''def autoNorm(dataSet): '''

2020-11-15 23:13:43 88

原创《机器学习实战》第二章——k-近邻算法

理论k-近邻算法，测量与测试样本之间的欧式距离，看在一定的范围（阈值）内，哪个类别占比多，就归属于哪个类别优点精度高对异常值不敏感无数据输入假定缺点计算复杂度高空间复杂度高适用于数据量较少距离明显案例k-近邻算法分类器def classify0(inX, dataSet, labels, k): ''' 定义一个函数，实现k-近邻算法 inX : 测试样本 dataSet : 训练样本是ndarrat类型 labels ：训

2020-11-15 15:59:06 144

原创 Numpy-处理数值型数据

在Python中做科学计算的基础库，重在数值计算，主要用于多维数组（矩阵）处理的库。用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多。本身是由C语言开发，是个很基础的扩展，Python其余的科学计算扩展大部分都是以此为基础。NumPy 数组（array）是一个多维的数组对象，称为ndarray，具有矢量算术运算能力和复杂的广播能力，并具有执行速度快和节省空间的特点。注意：ndarray的下标从0开始，且数组里的所有元素必须是相同类型Numpy库中还存在着另一种数据类型-- 矩阵（ma

2020-11-14 20:58:45 506

原创 python3 网络爬虫开发实战（崔庆才著）第二章

达芬奇AV

2019-06-24 14:42:19 953

weixin_44275584的博客