- 博客(207)
- 资源 (119)
- 收藏
- 关注
原创 存储过程解析
使用存储过程来解决涨工资 涨工资,总裁涨1000,经理涨800,其他人涨400。 伪代码:ResultSet rs = “select empno,job from emp”;While(rs.next()){Int eno = rs.getInt(“empno”);String job = rs.getString(“job”);If(“PRESIDENT”.equals(job)){ update emp set sal = sal+1000;}e...
2022-05-12 16:10:05 829
原创 HADOOP介绍
什么是HADOOP——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。HADOOP是apache旗下的一套开源软件平台 HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有 HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架) 广义上来说,HADOOP通常是指一个更广泛的
2022-05-11 08:33:04 5824
原创 Spark计算模型-RDD
什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 RDD的属性 一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都...
2022-05-10 17:20:37 932
原创 Spark概述
Spark概述1.1. 什么是Spark(官网:http://spark.apache.org)Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框...
2022-05-10 17:16:49 509
原创 Hadoop详细解析
背景知识1.1、企业数据部的一般组织结构 企业数据部的一般组织结构,适用于大中型企业。1.2、企业数据部的业务流程分析业务流程: 电商业务人员:针对活动专题页(活动的效果)有业务需求 活动页的用户访问数、用户下单数、用户支付数、用户退单数 数据部部门: 数据分析人员(写sql),结果对外提供...
2022-05-10 17:01:53 3265
原创 开发混合推荐系统
某电商网站首页有猜你喜欢推荐位,该推荐位一次能展示6个商品,推荐内容可以更换四次,共需推荐24个商品。需要使用协同过滤算法(user CF & Item CF)及基于物品内容的算法进行混合推荐。 一次性展示的6个商品中,从左到右的顺序分别是: 第一位:基于物品的实时推荐结果 第二位:基于用户的离线推荐结果 第三位:基于物品的离线推荐结果 第四位:基于内容的实时推荐结果 第五位:基于物品的实时推荐结果 第六位:基于用户的离线推荐结果 如有业务需要推广产品,可以指.
2022-05-10 16:44:51 343
原创 Mahout
1、Mahout是什么Mahout是一个算法库,集成了很多算法。 ApacheMahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Mahout项目目前已经有了多个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。 通过使用ApacheHadoop库,Mahout可以有效地扩展到Hadoop集群。 Mahout的创始...
2022-05-10 16:25:49 740
原创 推荐系统介绍
课程内容推荐系统在电子商务领域得到普遍的运用推荐系统本质上是销售系统的一部分在便利店,推荐系统是导购牌,类目货架,是老板娘在超市,推荐系统是导购牌,类目货架,是销售员在电商,推荐系统是什么?不管是在便利店,还是超市,或者电商网站,本质上需要解决两个问题:1、帮助用户获得想要的商品 A、用户知道自己想要什么商品,在什么位置 用户主动的行为 直接到货架区域去挑选商品,直接询问销售员商品在哪里 B、用...
2022-05-10 15:54:39 7537
原创 Storm-电商实时交易风控系统
3.1、信用卡的交易风险及常见策略3.1.1、用户逾期风险控制 用户主动、被动对正常消费的金额产生逾期 通过滞纳金进行处理3.1.2、虚假交易风险控制3.1.2.1、配合商家进行虚假交易 通过中介公司、皮包公司,在该机构虚假下单,扣除一些的返点。3.1.2.2、找朋友刷单刷卡 朋友较大金额的购物行为、聚餐、公司聚会的时候。3.1.2.3、利用系统漏洞进行虚假交易 案例:1万元透支额度的信用...
2022-05-10 15:52:27 2865
原创 Storm-点击流日志分析
1、背景知识1.1、什么是流量日志专业名词:点击流,一般叫做点击流日志分析网站分析的主要手段是分析网站的点击流数据点击流这个概念更注重用户浏览网站的整个流程,我们一般也叫做用户行为轨迹总结:点击流其实就是用户日常浏览你的网站时产生的日志信息1.2、如何确定用户的行为轨迹数据? 在一个sessinon 会话中的操作行为(浏览行为,点击行为),每个操作都会产生一条日志信息...
2022-05-10 15:36:51 841
原创 Storm-日志监控告警系统
1、背景知识一款优秀的软件需要具备的特点软件的实用性。所谓有的放矢,软件的诞生是为了解决特定的问题,比如现在流行的MVC 框架,早期的没有MVC 开发的时候,耦合度很大,后期维护更新成本高,难度大,这样MVC 框架就孕育而生;比如陌陌这种社交软件,是为了解决陌生人之间交流的问题;比如疼醒这种软件是为了解决人们远程沟通的问题;比如OA系统为了解决公司协同流程、项目管理、知识管理等问题……所以一款优秀的软件必须能够解决一个领域内的问题。软件的稳定性。软件的实用性问题解决之后,急需要解决的问题就是
2022-05-10 15:31:51 909
原创 Storm上游数据源之Kakfa
1、Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDISApache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发,并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。 Kafka是一个分布式消息队列:生产者、
2022-05-10 15:29:14 250
原创 Storm技术增强
1、Storm程序的并发机制1.1、概念Workers (JVMs): 在一个物理节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的物理机上), 所以worker process就是执行一个topology的子集, 并且worker只能对应于一个topology Executors (threads): 在一个worker JVM进程中运行着多个Java线程。一个executor线程可以执行一个或多个tasks。但一般默认每个exec.
2022-05-10 15:25:38 187
原创 流式计算-Storm基本介绍
1、离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度1,hivesql2、调度平台3、Hadoop集群运维4、数据清洗(脚本语言)5、元数据管理6、数据稽查7、数据仓库模型架构2、流式计算是什么 流式计算:数据实时产生、数据实时传输、数据实时计算...
2022-05-10 15:19:37 1743
原创 hbase详解
hbase hbase简介 什么是hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBASE利用Hadoop HDFS..
2022-05-10 15:10:31 5961
原创 机器学习-决策树分类算法与应用
1. 决策树分类算法原理1.1 概述决策树(decision tree)——是一种被广泛使用的分类算法。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置在实际应用中,对于探测式的知识发现,决策树更加适用1.2 算法思想通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。...
2022-05-10 15:01:32 2976
原创 机器学习-贝叶斯分类算法与应用
1. 朴素贝叶斯分类算法原理1.1 概述贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种注:朴素的意思是条件概率独立性[dht1]此处要想真正理解,需要有概率论的基础知识P(A|x1x2x3x4)=p(A|x1)*p(A|x2)p(A|x3)p(A|x4)则为条件概率独立P(xy|z)=p(xyz)/p(z)=p(xz)/p(z)*p(yz)/p(z)1.2 算法思想朴素贝叶.
2022-05-10 14:58:52 3534 2
原创 机器学习算法-knn分类算法与应用
1. kNN分类算法原理1.1 概述K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。[dht1]KNN算法的指导思想是“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别。本质上,KNN算法就是用距离来衡量样本之间的相似度1.2 算法图示从训练集中找到和新数据最接近的k条记录,然后根据多数类来决定新数据类别。 算法涉及3个主要因素:训练数据集 距离或相似度的计算衡量 k的大小算法描述已知两类“先验”数据,分别是蓝方块.
2022-05-10 14:57:04 2548
原创 机器学习算法快速上手-python语言与numpy库
1 Python快速上手1.1.Python简介Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他语言更有特色语法结构。Python是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。 Python是交互式语言: 这意味着,您可以在一个Python提示符,直接互动执行写你的程序。 Python是面向对象语言: 这意味着Py
2022-05-10 14:55:50 353
原创 python数据类型详解
目录1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期1、字符串1.1、如何在Python中使用字符串a、使用单引号(')用单引号括起来表示字符串,例如:str='this is string';print str;b、使用双引号(")双引号中的字符串与单引号中的字符串用法完全相同,例如:str="this is string";print str;c、使用三引号(''')利...
2022-05-10 14:50:39 858
原创 互联网行业数据仓库/数据平台的架构
互联网行业数据仓库、数据平台的用途1) 整合公司所有业务数据,建立统一的数据中心;2) 提供各种报表,有给高层的,有给各个业务的;3) 为网站或APP运营提供运营上的数据支持,就是通过数据,让运营及时了解网站和产品的运营效果;4) 为各个业务提供线上或线下的数据支持,成为公司统一的数据交换与提供平台;5) 分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;比如广告定向精准投放、用户个性化推荐等;6) 开发数据产品,直接或间接为公司盈利;7) 建设开放数据平台,开放公司..
2022-05-10 14:47:52 510
原创 数据仓库介绍
数据仓库简介什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的特点1.数据仓库的数据是面向主题的与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。什么是主题呢?首先,主题是一个抽...
2022-05-10 14:46:12 16007
原创 sqoop详细教程
Apache Sqoop是用来实现结构型数据(如关系数据库)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,同时也借助MapReduce实现了容错。项目地址:Sqoop -目前为止,已经演化出了2个版本:sqoop1和sqoop2。sqoop1的最新版本是1.4.5,sqoop2的最新版本是1.99.3;1.99.3和1.4.5是不兼容的,并且功能尚未开发完成,还不适合在生产环境部署。sqoop支持的数据库: Datab.
2022-05-10 14:41:41 2341
原创 网站点击流数据分析系统揭晓
网站点击流数据分析项目业务背景1.1 什么是点击流数据1.1.1 WEB访问日志即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。日志的生成渠道:1)是网站的web服务器所记录的web访问日志;2)是通过在页面嵌入自定义的js代码来获取用户的所有访问行为(比如鼠标悬停的位置,点击
2022-05-10 14:39:51 1087
原创 Flume介绍调度器基础sqoop基础知识
在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafk
2022-05-10 14:27:56 1592
原创 HIVE详解
Hive基本概念 Hive简介 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 为什么使用Hive 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive操作接口采用类SQL语法,提供快速开发的能力。避免了去写MapReduce,减少开发人员的学习成本。扩展功能很方便。 ..
2022-05-10 14:23:11 7034
原创 HADOOP高可用机制
1 Hadoop的HA机制前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA(2)HDFS的HA机制详解通过双namenode消除单点故障双namenode协调工作的要点: A、元数据管理方式需要改变: ...
2022-05-10 14:13:48 1237
原创 MAPREDUCE详解
1. MAPREDUCE原理篇(1)Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;1.1 为什么要MAPREDUCE(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度(3)引入mapreduce框架后,开发人员
2022-05-10 14:11:09 18908 1
原创 HDFS详解
******HDFS基本概念篇******1. HDFS前言设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务重点概念:文件切块,副本存放,元数据2. HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式的,由很多服务器联合起来实现其
2022-05-10 14:04:28 13530
原创 Zookeeper详解
图在最下方Zookeeper概念简介:Zookeeper是一个分布式协调服务;就是为用户的分布式应用程序提供协调服务zookeeper是为别的分布式程序服务的 Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务) Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 虽然说可以提供各种服务,但是zookeeper在底层其实只提供了两个功能:管理(存储,读取)用户程序提交的数据;并为用户程序提供数
2022-05-10 13:54:16 4770
原创 轻量级RPC框架开发
图在结尾今天内容安排:1、掌握RPC原理2、掌握nio操作3、掌握netty简单的api4、掌握自定义RPC框架RPC原理学习 什么是RPC RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网...
2022-05-10 11:22:35 522
原创 java多线程与动态代理
图在结尾java多线程增强 java多线程基本知识 进程介绍 不管是我们开发的应用程序,还是我们运行的其他的应用程序,都需要先把程序安装在本地的硬盘上。然后找到这个程序的启动文件,启动程序的时候,其实是电脑把当前的这个程序加载到内存中,在内存中需要给当前的程序分配一段独立的运行空间。这片空间就专门负责当前这个程序的运行。 不同的应用程序运行的过程中都需要在内存中分配自己独立的运行空间,彼此之间不会相互的影响。我们把每个独立应用程序在内存的独立空间称为当前应用程序...
2022-05-10 11:18:04 652 1
原创 什么是spring?
Spring什么是Spring, 它有什么特点? 包括哪些内容?Spring是一个轻量级的控制反转(IoC)和面向切面(AOP)的容器框架。◆ 轻量——从大小与开销两方面而言Spring都是轻量的。完整的Spring框架可以在一个大小只有1MB多的JAR文件里发布。并 且Spring所需的处理开销也是微不足道的。此外,Spring是非侵入式的:典型地,Spring应用中的对象不依赖于Spring的特定类。◆ 控制反转——Spring通过一种称作控制反转(IoC)的技术促进了松耦 合。当应用了Io
2022-05-10 08:48:52 7658
原创 JQuery简介与解析
1 JQuery简介1、JQuery简介jQuery团队现在主要包括核心库、UI和插件等。jQuery凭借着简洁的语法和跨平台的兼容性,极大地简化了javascript开发人员遍历HTML文档、操作DOM、处理事件、执行动画和开发Ajax的操作。2、jQuery的优势jQuery的宗旨是——WRITE LESS,DO MORE,写更少的代码,做更多的事情。轻量级jQuery非常轻巧,采用Dean Edwards编写的Packer(http://dean.edwards.name/packe
2022-05-10 08:48:32 447
原创 json与反向ajax
1 JSON概念1、JSON数据格式JSON(JavaScript Object Notation)一种简单的数据格式,比xml更轻巧。JSON是JavaScript原生格式,这意味着在JavaScript中处理JSON数据不需要任何特殊的API或工具包。JSON的规则很简单:对象是一个无序的“‘名称/值’对”集合。一个对象以“{”(左括号)开始,“}”(右括号)结束。每个“名称”后跟一个“:”(冒号);“‘名称/值’对”之间使用“,”(逗号)分隔。规则如下:映射用冒号(“:”)表示。名称:值
2022-05-10 08:48:07 211
原创 Ajax基础知识
1、同步交互和异步交互同步交互客户端向服务器端发送请求—>等待服务器端处理—>处理完毕返回,这个期间客户端不能做任何其他事情。发送方发出数据后,等接收方发回相应以后才发下一个数据包的通讯方式。异步交互客户端向服务器端发送请求—>等待服务器端处理—>处理完毕返回,这个期间客户端可以做其他事情。发送方发出数据后,不等接收方发回相应,接着发送下个数据包的通讯方式。2、Ajax的定义Ajax被认为是(Asynchronous Javascript and XML的缩写)
2022-05-10 08:47:48 640
原创 JavaScript基础知识与脚本语言总结
1 Aptana插件安装1、Aptana插件安装<1>Aptana是一个非常强大,开源,JavaScript-focused的AJAX开发IDE。<2>它的特点包括:JavaScript,HTML,CSS语言的Code Assist功能。Outline(大纲):显示JavaScript,HTML和CSS的代码结构。<3>支持各种JS框架:JQuery、Ext、Dojo、Prototype、Yahoo User Interface。<4>安装Apt
2022-05-10 08:47:29 759
原创 程序员工作经验谈之商贸平台
程序员工作经验谈1、怎样顺利找到工作,并稳稳当当坐下来呢?①如何通过面试?答:态度要积极,要听话、积极并且有热情。表达能力要良好,能够流利介绍个人情况,例如工作情况,为何离职等。专业基础要扎实,包括理论知识、J2EE基础知识并且能够熟练使用开发工具。项目能力要展示出来,需要介绍项目背景,介绍核心业务模块及设计上的难点(特色、亮点)并且表述在项目中的工作职责及成就。②如何通过试用期?答:注重团队协作,要跟团队领导和同事打成一片。快速适应岗位要求,要动手能力强,快速、高质量完成领导交给的任务,
2022-05-10 08:46:45 963
原创 传统项目之OA平台介绍
注:图片在最后01 OA的概念OA:办公自动化在企业中,有些特别复杂的流程,这些流程有三个作用:<1>对流程进行控制<2>在走流程的过程中会产生一些数据,把这些数据整理出来,做查询、分析、统计。* BI 智能分析 * 数据挖掘产生这两个领域的原因* 大量数据<3>协同工作 完成一项工作需要好几个部门进行参与,这几个部门的数据之间是相互共享的,来完成一个任务。02 书写每个模块的流程1、需求分析2、根据持久化类和映射文件建表3、写dao和servi
2022-05-09 15:17:30 1365
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人