![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
yasuofenglei
这个作者很懒,什么都没留下…
展开
-
Redis总结
为什么Redis能这么快100000+QPS(QPS即query per second,每秒内查询次数)完全基于内存,绝大部分请求是纯粹的内存操作,执行效率高。(redis采用单进程,单线程模型的K-V数据库,C语言编写,数据存储在内存里。不受硬盘I/O速度限制)数据结构简单,对数据操作也简单(不使用表,数据库不会预定义或者强行要求用户对存储的数据进行关联。存储结构就是键值对,类似于Ha...原创 2019-10-17 21:48:46 · 282 阅读 · 0 评论 -
Scala入门(二)
数组package com.yasuofenglei.testimport scala.collection.mutable._object Demo02 { val v1=100 //> v1 : Int = 100 //懒加载,声明时不是马上赋值,被调用时才会被赋值,只能修饰常量val,不能修饰变...原创 2019-09-06 15:54:29 · 176 阅读 · 0 评论 -
Spark(一)
spark是一种快速,通用的分布式计算框架,可以用于处理海量数据。目前大数据常用的计算框架:MapReduce(离线批处理)Spark(离线批处理+实时处理)Flink(实时处理)Storm(实时处理)Spark的性能表现:如果完全基于内存进行数据处理,要比MapReduce快100倍如果基于磁盘处理,也比MapReduce快10倍MD:Shuffle 洗牌->根据指...原创 2019-09-09 09:58:44 · 179 阅读 · 0 评论 -
Spark(二)
Worker Node是Spark的工作节点Executor是执行进程,在进程中处理Task任务Task,对应的是RDD中的一个分区数据Cluster Manager集群管理器Driver Program用户编写的Spark驱动程序每个Driver中,都有一个sc对象SparkContex的职责负责和CM交互,申请资源负责当前Driver的任务的调度,分配,监控以及任务的失...原创 2019-09-11 10:34:01 · 121 阅读 · 0 评论 -
Spark计算工具类
Vectorvectors.txt1 2.3 4.53 3.1 5.64 3.2 7.8处理vectors.txt文件RDD[String]->RDD[Vector]package com.yasuofengleiimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.SparkConfim...原创 2019-09-12 16:55:59 · 366 阅读 · 0 评论 -
机器学习中模型及算法的梳理
回归模型应用于数据的预测。正则化模型通过引入惩罚措施,可以防止模型的过拟合,提高模型的泛化性。决策树模型既可以用于预测,也可以用于分类。集成模型将多个弱模型集成在一起,从而极大提高模型的泛化性和准确度。并且天然避免模型的过拟合。典型的:Random Forest 随机森林聚类模型 Clustering Algorithms通过距离度量判断哪些样本是一类。典型的:K-Means...原创 2019-09-16 15:32:00 · 406 阅读 · 0 评论 -
推荐系统模型
实现推荐系统模型,内在思想是协同过滤的思想。即利用大量已有的用户的偏好数据,来估计用户对其未接触过的物品的喜好程度。所以协同过滤思想,实际上就是计算相似度。计算相似度的常用手段(相关系数,向量之间的夹角余弦,欧式距离)推荐系统的推荐方式有两种基于用户的推荐核心是计算出用户和用户之间的相似度。然后完成推荐对于基于用户相似性的推荐,用简单的一个词表述,那就是“志趣相投”。事实也是如此。比如...原创 2019-09-17 10:52:54 · 1206 阅读 · 0 评论 -
Spark Sql
Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。SparkSQL的由来SparkSQL的前身是Shark。在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,是当时唯一运行在hadoop上的...原创 2019-09-17 15:41:33 · 592 阅读 · 0 评论 -
Spark Streaming
Spark提供了SparkStreaming模块,用于实时流数据处理。即随着数据的实时到达,进行实时计算。目前实时计算的框架有Storm,SparkStreaming,FlinkSparkStreaming可以接受多种数据源的数据,然后处理产生的结果可以存储到HDFS,HBase,Mysql等工作原理SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多...原创 2019-09-17 21:42:02 · 144 阅读 · 0 评论 -
网站流量指标统计
对于网站流量指标统计,一般可以分为如下维度统计每一天的页面访问量统计每一天的独立访客数(按人头数)统计每一天的独立会话数按访客地域统计按统计访客ip地址按来路页面分析收集到如上指标之后,可以按时段来分析网站整体的情况本项目统计的指标总结如下PV,页面访问量。用户点击一次页面,就算做一个PV,刷新操作也算。我们会统计一天内总的PV。UV,独立访客数。按人头来统计,...原创 2019-09-19 16:07:08 · 643 阅读 · 0 评论 -
大数据总结路线梳理
并发工具包复习重点阻塞队列 ArrayBlockingQueue,LinkedBlockQueue。ConcurrentHashMap 和HashTable对比。线程安全,性能高。老版本引入分段锁(桶)机制(16)。新版本引入CAS(无锁算法 Compare And Swap)+链表变为红黑树。CountDownLatch 线程递减锁(闭锁)。线程池ThreadPool。小池子大队列...原创 2019-09-19 17:02:07 · 264 阅读 · 0 评论 -
数据库与数据仓库
数据仓库是不是数据仓库?关系型数据库(Mysql,Oracle等)按用途来划分,可以归为两种:业务型数据库:用于日常的业务数据的CRUD,而且事务型操作比较多.分析型数据库:用于历史数据分析,大部分的操作都是读数据.而事务性操作很少(因为历史数据大部分都是读)前者叫作数据库(用于业务处理),后者叫作数据仓库(用于分析处理)数据仓库的特点面向主题(维度设计).数据源是异构的,集成...原创 2019-09-29 14:50:38 · 152 阅读 · 0 评论 -
Scala入门(一)
查看官方API手册是一门面向对象的语言。是一门面向函数的语言(在面向函数编程的语言中,函数是一等公民,即函数可以当作参数进行赋值或传递)。是一门现代编程语言。吸收了很多语言的优点:java,ruby,c,lisp等语言。不适合初级的编程学习,需要有一定的语言基础。案例变量package com.yasuofengleiobject Demo01 { //每行;号可以省略...原创 2019-09-05 14:11:22 · 159 阅读 · 0 评论 -
HBase原理
HBase的物理存储机制在HBase中,从行键的方向上将一个表划分为一个或者多个HRegion.每一个Hregion会存储在不同的节点上(HRegionServer).因为HBase会对行键进行字典排序,所以每一个HRegion所包含的数据是不重合的。每一个HRegion记录当前HRegion的起始行键和结束行键,这样做的目的是为了能够快速操作来避免整表查询。划分HRegion的目的...原创 2019-09-03 17:08:47 · 328 阅读 · 0 评论 -
Concurrent包
概述1.是JDK1.5提供的应对高并发的基础包2.主要包含:BlockingQueue,ConcurrentMap,ExecutorService,Lock,原子性操作BlockingQueue-阻塞式队列本质是队列,满足队列的原则(先进先出FIFO)。所有的阻塞式队列都是有界的-当队列定义好之后,大小就不可变。阻塞:当队列已满的时候,再试图放入的线程会被阻塞。当队列为空的...原创 2019-08-16 17:15:13 · 367 阅读 · 0 评论 -
NIO
概述NIO(newIO-NonBlockingIO-非阻塞式IO)是JDK1.4提供的一套进行数据传输的机制。BIO-BlockingIO-阻塞式IO。NIO的三大组件:Buffer,Channel,Selector。AIO-AsynchronousIO -异步非阻塞式IO-JDK1.8出现BIO缺点1.阻塞:相比非阻塞而言,阻塞的效率是相对较低的。2.一对一的连接:每...原创 2019-08-15 14:52:06 · 99 阅读 · 0 评论 -
AVRO
AVRO是Apache提供的一套序列化和RPC的机制AVRO早期是为Hadoop设计的一套序列化系统,后来将AVRO独立出来。序列化1.序列化的目的:数据的存储和传输。2.序列化的衡量标准:a.序列化的时间及占用的CPU。b.序列化之后产生的数据量。c.序列化机制能否跨平台跨语言。AVIO考虑到了跨语言传输的问题,采用了json格式。maven工程依赖如下...原创 2019-08-19 16:01:37 · 630 阅读 · 0 评论 -
MapReduce
MapReduce功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MapReduce是Hadoop提供的一套用于分布式...原创 2019-08-23 17:04:28 · 107 阅读 · 0 评论 -
Hadoop
Hadoop是Apache提供的一套开源的,可靠的,可扩展(可伸缩的),用于分布式计算的框架。Apache Hadoop对版本的管理的控制是非常混乱的。发展历程创始人:Doug Cutting,Caferalla在2002年,Doug和Mike想设计一套搜索引擎Nutch,爬取了全网的10亿个网页的数据。在2003年,Google发表了一篇论文<The Google Fi...原创 2019-08-20 11:39:58 · 131 阅读 · 0 评论 -
HDFS
技术细节1.HDFS在存储数据的时候会将数据进行切换。2.HDFS中两类主要节点:NameNode和DataNode。3.在HDFS中,会对每一个块进行备份,这些备份称之为副本(replication)。默认的副本数量为3。Block1.表示数据块,HDFS中数据存储的基本形式也是Block。2.每Hadoop2.X中,每一个Block默认是128M。可以通过dfs.blo...原创 2019-08-20 17:04:58 · 866 阅读 · 0 评论 -
ZooKeeper
一 概述是Apache提供的开源的,用于进行分布式架构的管理的框架。Zookeeper是根据Google关于Chubby Lock的论文来实现的。二 分布式带来的问题1.在分布式条件下,为了确定请求访问的对应的主机,那么引入管理节点。2.如果管理节只存在一个,存在单点故障,那么需要引入管理集群。3.在管理集群中,需要选择一个主节点,需要选举算法。4.当节点宕机,那么需要...原创 2019-08-17 17:11:32 · 189 阅读 · 0 评论 -
Yarn
Hadoop Yarn是Hadoop2.0中出现的一个模块,这个模块的作用是进行任务调度和资源管理。出现原因:1.外因。随着大数据的发异,出现了越来越多样化的计算框架,例如实时流框架Storm,内存计算框架Spark等。这些计算框架如果需要利用Hadoop来进行实现,那么这些框架需要提供单独的一套管理。2,内因:在Hadoop1.0中,JobTracker作为核心节点它的管理和分配的压...原创 2019-08-27 14:27:36 · 275 阅读 · 0 评论 -
Flume
Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of streaming event data.Version 1.9.0 is the eleventh Flume release as an Ap...原创 2019-08-28 15:49:46 · 858 阅读 · 0 评论 -
HIVE
Hive是Apache提供的基于Hadoop的数据仓库工具。Hive提供了类sql语言来对分布式系统中的数据来进行读写以及管理Hive将SQL语句在底层转化为MapReduce程序来操作数据Hive的出现降低了离线分析的门槛...原创 2019-08-30 16:22:22 · 236 阅读 · 0 评论 -
HBase
HBase是Apache提供的开源的非关系型数据库。HBase的底层存储是基于Hadoop,是一个分布式,可扩展,大数据库数据库HBase能够实时读写大量的数据。单张表就可以做到10亿*百万列数据量的级别。Hbase是一个NOSQL(not only sql)的数据库。HBase是由Doug带领团队开发的。仿照了Google的<Bigtable:A Distributed Stor...原创 2019-09-02 17:07:32 · 2599 阅读 · 0 评论 -
ZAB协议
概述Zookeeper Atomic Broadcast(原子广播协议)是专门为Zookeeper设计的协议。这套协议在设计过程中,基于2PC算法来设计,利用PAXOS算法进行了改进作用:原子广播和崩溃恢复。原子广播原子广播是为了保证所有节点数据的一致性。原子广播基于2PC算法进行改进。2PC-2 Phase Commit(二阶段提交),核心思想是“一票否决”。a....原创 2019-08-19 13:29:19 · 127 阅读 · 0 评论