自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

压缩疯雷的博客

个人积累

  • 博客(17)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 数据库简介

操作库创建数据库create database database_name [if not exists database_name];查看数据库查看全部数据库show database;使用数据库use database_name查看数据的创建:(可以查询数据库字符集使用)show create database database_name;/create database ...

2019-09-30 14:34:07 115

原创 数据库与数据仓库

数据仓库是不是数据仓库?关系型数据库(Mysql,Oracle等)按用途来划分,可以归为两种:业务型数据库:用于日常的业务数据的CRUD,而且事务型操作比较多.分析型数据库:用于历史数据分析,大部分的操作都是读数据.而事务性操作很少(因为历史数据大部分都是读)前者叫作数据库(用于业务处理),后者叫作数据仓库(用于分析处理)数据仓库的特点面向主题(维度设计).数据源是异构的,集成...

2019-09-29 14:50:38 162

原创 大数据总结路线梳理

并发工具包复习重点阻塞队列 ArrayBlockingQueue,LinkedBlockQueue。ConcurrentHashMap 和HashTable对比。线程安全,性能高。老版本引入分段锁(桶)机制(16)。新版本引入CAS(无锁算法 Compare And Swap)+链表变为红黑树。CountDownLatch 线程递减锁(闭锁)。线程池ThreadPool。小池子大队列...

2019-09-19 17:02:07 271

原创 网站流量指标统计

对于网站流量指标统计,一般可以分为如下维度统计每一天的页面访问量统计每一天的独立访客数(按人头数)统计每一天的独立会话数按访客地域统计按统计访客ip地址按来路页面分析收集到如上指标之后,可以按时段来分析网站整体的情况本项目统计的指标总结如下PV,页面访问量。用户点击一次页面,就算做一个PV,刷新操作也算。我们会统计一天内总的PV。UV,独立访客数。按人头来统计,...

2019-09-19 16:07:08 656

原创 Spark Streaming

Spark提供了SparkStreaming模块,用于实时流数据处理。即随着数据的实时到达,进行实时计算。目前实时计算的框架有Storm,SparkStreaming,FlinkSparkStreaming可以接受多种数据源的数据,然后处理产生的结果可以存储到HDFS,HBase,Mysql等工作原理SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多...

2019-09-17 21:42:02 147

原创 Spark Sql

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。SparkSQL的由来SparkSQL的前身是Shark。在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,是当时唯一运行在hadoop上的...

2019-09-17 15:41:33 608

原创 推荐系统模型

实现推荐系统模型,内在思想是协同过滤的思想。即利用大量已有的用户的偏好数据,来估计用户对其未接触过的物品的喜好程度。所以协同过滤思想,实际上就是计算相似度。计算相似度的常用手段(相关系数,向量之间的夹角余弦,欧式距离)推荐系统的推荐方式有两种基于用户的推荐核心是计算出用户和用户之间的相似度。然后完成推荐对于基于用户相似性的推荐,用简单的一个词表述,那就是“志趣相投”。事实也是如此。比如...

2019-09-17 10:52:54 1220

原创 机器学习中模型及算法的梳理

回归模型应用于数据的预测。正则化模型通过引入惩罚措施,可以防止模型的过拟合,提高模型的泛化性。决策树模型既可以用于预测,也可以用于分类。集成模型将多个弱模型集成在一起,从而极大提高模型的泛化性和准确度。并且天然避免模型的过拟合。典型的:Random Forest 随机森林聚类模型 Clustering Algorithms通过距离度量判断哪些样本是一类。典型的:K-Means...

2019-09-16 15:32:00 418

原创 Spark计算工具类

Vectorvectors.txt1 2.3 4.53 3.1 5.64 3.2 7.8处理vectors.txt文件RDD[String]->RDD[Vector]package com.yasuofengleiimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.SparkConfim...

2019-09-12 16:55:59 376

原创 GC回收机制及算法

GC回收机制及算法说起垃圾收集(Garbage Collection, GC),大部分人都把这项技术当做Java语言的伴生产物。事实上,GC的历史比Java久远,1960年诞生于MIT的Lisp是第一门真正使用内存动态分配和垃圾收集技术的语言。当Lisp还在胚胎时期时,人们就在思考GC需要完成的3件事情:1)哪些内存数据需要回收?2)什么时候回收?3)如何回收?经过半个多世纪的发展,目前...

2019-09-12 10:50:19 1740

原创 Spark(二)

Worker Node是Spark的工作节点Executor是执行进程,在进程中处理Task任务Task,对应的是RDD中的一个分区数据Cluster Manager集群管理器Driver Program用户编写的Spark驱动程序每个Driver中,都有一个sc对象SparkContex的职责负责和CM交互,申请资源负责当前Driver的任务的调度,分配,监控以及任务的失...

2019-09-11 10:34:01 122

原创 VSM算法

VSMVector Space Model 向量空间模型算法这个算法用于文档排名

2019-09-10 11:56:47 1235

原创 Spark(一)

spark是一种快速,通用的分布式计算框架,可以用于处理海量数据。目前大数据常用的计算框架:MapReduce(离线批处理)Spark(离线批处理+实时处理)Flink(实时处理)Storm(实时处理)Spark的性能表现:如果完全基于内存进行数据处理,要比MapReduce快100倍如果基于磁盘处理,也比MapReduce快10倍MD:Shuffle 洗牌->根据指...

2019-09-09 09:58:44 189

原创 Scala入门(二)

数组package com.yasuofenglei.testimport scala.collection.mutable._object Demo02 { val v1=100 //> v1 : Int = 100 //懒加载,声明时不是马上赋值,被调用时才会被赋值,只能修饰常量val,不能修饰变...

2019-09-06 15:54:29 177

原创 Scala入门(一)

查看官方API手册是一门面向对象的语言。是一门面向函数的语言(在面向函数编程的语言中,函数是一等公民,即函数可以当作参数进行赋值或传递)。是一门现代编程语言。吸收了很多语言的优点:java,ruby,c,lisp等语言。不适合初级的编程学习,需要有一定的语言基础。案例变量package com.yasuofengleiobject Demo01 { //每行;号可以省略...

2019-09-05 14:11:22 165

原创 HBase原理

HBase的物理存储机制在HBase中,从行键的方向上将一个表划分为一个或者多个HRegion.每一个Hregion会存储在不同的节点上(HRegionServer).因为HBase会对行键进行字典排序,所以每一个HRegion所包含的数据是不重合的。每一个HRegion记录当前HRegion的起始行键和结束行键,这样做的目的是为了能够快速操作来避免整表查询。划分HRegion的目的...

2019-09-03 17:08:47 335

原创 HBase

HBase是Apache提供的开源的非关系型数据库。HBase的底层存储是基于Hadoop,是一个分布式,可扩展,大数据库数据库HBase能够实时读写大量的数据。单张表就可以做到10亿*百万列数据量的级别。Hbase是一个NOSQL(not only sql)的数据库。HBase是由Doug带领团队开发的。仿照了Google的<Bigtable:A Distributed Stor...

2019-09-02 17:07:32 2612

kotlin协程入入门100例

kotlin语言协程入门案例。摘抄自官网。你也可以去官网查看官文档。全部是入门案例。包括协程基本概念,取消和超时,组合挂起函数,协程上下文和调度器,异步流,通道,异常处理与监听,并发,Select表达式(实验性的)

2020-11-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除