自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1043)
  • 资源 (2)
  • 收藏
  • 关注

原创 大数据Spark DataFrame/DataSet常用操作

目录1 一般操作:查找和过滤1.1 读取数据源1.1.1读取json1.1.2 读取Hive表1.2 取数据列1.3 过滤算子filter(filter等价于where算子)2 聚合操作:groupBy和agg2.1 排序算子sort(sort等价于orderBy)2.2 分组函数groupBy2.2.1 分组计数2.2.2 分组后求最值、平均值、求和的方法2.2.3 分组后,求多个聚合值(最值、平均值等)。使用算子groupBy+agg2.2.4 分组聚合后取别名2.2.5 分组后行转列,使用pivot2

2021-12-19 15:45:15 1912

原创 大数据Sqoop将mysql直接抽取至Hbase

目录1 HBase 表设计2 Sqoop直接导入3 另一种常用思路批量导入1 HBase 表设计用户基本信息: tbl_users-- 1、如果用户表存在先删除hbase(main):013:0> disable 'tbl_users'hbase(main):014:0> drop 'tbl_users'-- 或者清空表hbase(main):015:0> truncate 'tbl_users'-- 2、创建用户表hbase(main):016:0> creat

2021-12-15 20:30:00 2716

原创 Spark多语言开发

目录1 多语言开发-说明2 Java-Spark-掌握2.1 SparkCore2.2 SparkStreaming2.3 SparkSQL2.4 StructuredStreaming2.5 线性回归算法-房价预测案例2.5.1 需求代码实现3 PySpark-了解3.1 SparkCore3.2 SparkStreaming3.3 SparkSQL3.4 StructuredStreaming3.5 决策树算法-相亲决策案例需求3.5.1 思路3.5.2 代码实现1 多语言开发-说明2 Java

2021-11-15 21:00:00 8011

原创 大数据Spark Streaming实时处理Canal同步binlog数据

目录1. Canal 环境搭建2 配置Canal2.1 下载Canal2.2 解压2.3 修改instance 配置文件2.4 修改canal.properties配置文件2.5 启动Canal2.6. 验证2.7. 关闭Canal3 Spark实现实时数据分析3.1 在Mysql中创建如下两张表3.2 Spark代码开发3.2.1 在resources下new一个项目的配置文件my.properties3.2.2 在pom.xml文件中引入如下依3.2.3 在scala源码目录下的包下编写配置文件的工具类

2021-11-12 20:45:00 2134

原创 Hive数据仓库数据分析

目录1 创建数据仓库2 创建Hive分区表3 数据分析3.1 统计总记录数3.2 统计非空记录数3.3 关键词分析3.4 uid分析4 用户行为分析4.1 单击次数与rank之间的关系4.2 个性化行为分析5 实时数据1 创建数据仓库我们的目标是在Hive中创建数据仓库,以便利用Hive的查询功能实现交互式数据处理,所以接下来在Hive客户端进行操作。确保Hadoop和MySQL服务已经启动后再进入Hive客户端,命令如图10-11所示。hivecreate database sogou;下

2021-11-05 21:00:00 2486

原创 大数据Spark MLlib推荐算法

目录1 相似度算法1.1 欧几里德距离算法1.2 基于夹角余弦相似度算法2 最近邻域3 交替最小二乘法3.1 最小二乘法3.2 交替最小二乘法3.3 ALS算法流程3.4 ALS算法实战3.4.1 数据说明3.4.2 数据建模3.4.3 实战3.4.4 优化改进1 相似度算法无论是基于用户还是基于商品的推荐,都是需要找到相似的用户或者商品,才能做推荐,所以,相似度算法就变得非常重要了。常见的相似度算法有:欧几里德距离算法(Euclidean Distance)皮尔逊相似度算法(Pearson

2021-10-24 18:21:50 4955

原创 数据仓库搭建

目录1 数据仓库概念1.1 什么是数据仓库1.2 OLTP与OLAP2 项目需求及架构设计3 项目框架4 框架版本选型4.1 Hadoop版本综述4.2 社区版与第三方发行版的比较4.2.1.Apache社区版4.2.2.第三方发行版(CDH/HDP/MapR)4.3 第三方发行版的比较4.4 版本选择5 服务器选型6 集群资源规划设计7 测试集群服务器规划1 数据仓库概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数

2021-06-30 20:37:31 2776 6

原创 大数据Spark框架概述

目录1 Spark 是什么2 Spark 四大特点2.1 速度快2.2 易于使用2.3 通用性强2.4 运行方式3 Spark 框架模块3.1 Spark Core3.2 Spark SQL3.3 Spark Streaming3.4 Spark MLlib3.5 Spark GraphX3.6 Structured Streaming4 Spark 运行模式1 Spark 是什么Spark 是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的

2021-05-04 16:51:17 1748 10

原创 SpringClould-Gateway和nginx网关的区别

目录1 SpringClould-Gateway和nginx2 Zuul和Spring Cloud Gateway3 Nginx在微服务中的地位4 小结1 SpringClould-Gateway和nginx有一天又有人问到我这个,当时没有想过,就说了个软硬件和路由问题其实再想一些业务的话,简单的说gateway 是前端工程 到 后台服务器之间的一个 对内网关,nginx是用户到 前端工程 的网关,对外网关,使其还可以细说没有研究到那么深比如原理性的东西2 Zuul和Spring Cloud Ga

2021-04-06 08:50:51 15189 3

原创 Hbase+ES和MongoDB存储大数据的选用

目录1 需求2 架构设计3 HBase和MongoDB的区别1 需求解决海量数据的存储,并且能够实现海量数据的秒级查询Hbase是典型的nosql,是一种构建在HDFS之上的分布式、面向列的存储系统,在需要的时候可以进行实时的大规模数据集的读写操作;但是hbase的语法非常固话,即便在hbase之上嫁接了phoneix在应对复杂查询的时候,仍然力不从心;所以说很多公司在历史遗留问题,最开始数据存储在hbase上,当业务越来越复杂,数据量越来越大的时候,使用hbase构建复杂的查询就很吃力了,甚至很

2021-03-16 23:20:00 2658

原创 Token泄露引发的问题

1 如何防止token劫持或者说是泄露?token肯定会存在泄露的问题。比如我拿到你的手机,把你的token拷出来,在过期之前就都可以以你的身份在别的地方登录。解决这个问题的一个简单办法在存储的时候把token进行对称加密存储,用时解开。将请求URL、时间戳、token三者进行合并加盐签名或者缓存用户的ip地址也是不错的选择,服务端校验有效性。这两种办法的出发点都是:窃取你存储的数据较为容易,而反汇编你的程序hack你的加密解密和签名算法是比较难的。然而其实说难也不难,所以终究是防君子不防小人的做

2021-02-23 11:01:01 7589 2

原创 kafka快速入门

目录1 kafka1.1 kafka介绍1.2 kafka安装和配置1.2.1 jdk环境1.2.2 zookeeper安装1.2.3 kafka安装1.3 kafka入门案例1.3.1 创建工程kafka-demo1.3.2 消息生产者1.3.3 消息消费者1.3.4 测试及结论-重要1.3.5 相关概念再介绍1.3.5 生产者详解-理解1.3.6 消费者详解-理解1.4 spring boot集成kafka收发消息1.4.1 环境搭建1.4.2 消息生产者1.4.3 消息消费者1.4.4 测试1.5 传

2021-02-17 12:02:21 426

原创 常见登录密码加密方式

目录1 常见的加密方式1.1.可逆加密算法1.1.1. 对称加密1.1.2. 非对称加密1.2.不可逆加密算法1.3.Base64编码2 密码加密的方式选型2.1 MD5密码加密2.2 手动加密(md5+随机字符串)2.3 . BCrypt密码加密3 jwt介绍3.1 token认证-面试3.2 什么是JWT?3.3 生成token1 常见的加密方式由于在学习JWT的时候会涉及使用很多加密算法, 所以在这里做下扫盲, 简单了解就可以加密算法种类有:1.1.可逆加密算法解释: 加密后, 密文可以反

2021-02-16 18:24:15 9888 1

原创 SpringData ElasticSearch

目录1 SpringData ElasticSearch简介2 ElasticSearch环境搭建2.1 安装ElasticSearch2.1.1 准备工作2.1.2 文件上传2.1.3 文件解压2.1.4 添加用户2.1.5 修改配置2.1.6 启动elasticSearch2.1.7 访问测试2.2 安装Head插件2.2.1 安装nodeJS2.2.2 安装cnpm2.2.3 安装grunt2.2.4 安装head插件2.2.5 安装head插件所需依赖2.2.6 修改elasticsearch的配置

2021-01-18 22:14:48 964

原创 SpringData Redis

目录1 SpringData Redis简介2 Redis环境搭建2.1 安装redis的依赖环境2.2 上传安装包2.3 解压2.4 编译2.5 安装2.6 复制配置文件2.7 修改redis的配置文件2.8 启动redis服务3 SpringData Redis入门案例3.1 创建工程,引入坐标3.2 创建配置文件3.3 创建测试类,完成一条简单数据的存取4 SpringData Redis的序列化器5 SpringData Redis运行原理分析6 SpringData Redis常见操作6.1 St

2021-01-18 22:13:26 724

原创 分布式事务常见解决方案

目录1 分布式事务的概念2 分布式事务的实现的 5 种方案2.1 两阶段提交方案2.2 TCC 方案2.3 本地消息表2.4 可靠消息最终一致性方案2.5 最大努力通知方案3 总结4Seata实现分布式事务1 分布式事务的概念分布式事务是指事务的参与者、支持事务的服务器、资源服务器以及事务管理器分别位于不同的分布式系统的不同节点之上。简单来说就是组成事务的各个单元处于不同数据库服务器上。相信同学们都接触过这种场景,手机支付,付款方和收款方的银行账号不是同一.

2021-01-08 21:40:06 778

原创 ElasticSearch工作原理

目录1 es 写数据过程2 es 读数据过程3 es 搜索数据过程4 写数据底层原理5 删除/更新数据底层原理1 es 写数据过程客户端选择一个 node (es节点)发送请求过去,这个 node 就是coordinating node(协调节点)。 coordinating node对 document 进行路由,将请求转发给对应的 node(有 primary shard)。 实际的 node 上的primary shard处理请求,然后将数据同步到repl...

2021-01-01 16:07:14 1285

原创 ElasticSearch高级操作

目录1 ElasticSearch高级操作1.1 bulk批量操作-脚本1.2 bulk批量操作-JavaAPI1.3 导入数据-分析&创建索引1.4 导入数据-代码实现1.5 导入数据-代码实现-详解2 ElasticSearch查询2.1 matchAll-脚本2.2 matchAll-JavaAPI2.3 termQuery2.4 matchQuery2.5 模糊查询-脚本2.5.1 wildcard查询2.5.2正则查询2.5.3前缀查询2.6 模糊查询-JavaAPI2.7 范围&

2020-12-22 15:43:14 884

原创 IDEA快捷键总结和各种实用功能

目录1 IDEA中内容辅助键和快捷键(红色标记为常用)2 修改自动补全快捷键IntelliJ IDEA可能很多人刚开始接触java都是学校推荐使用的Eclipse或者是丑一点的NetBeans IDE,首先这些软件是免费的而且体积很小适合基础开发,IDEA是收费的如果是大面积教学可能同步的话激活码参差不齐,或者老师带头破解也是不好的一种想法吧,现在和谐加重基本已经不是网上随便找几个码就能无限白嫖的时候了,避免这个干脆学校大部分都是免费的,这就是一个个人见解有疑问欢用质疑,对于小白来说第一次看到

2020-08-21 10:54:54 3105 1

原创 eclipse常用快捷键和发展前景

目录1 发展前景2 Eclipse 常用快捷键(红色必记!)1 发展前景很多人问,前面介绍的那个idea那么强大而且现在80%的公司都在用idea,那么学eclipse工具是不是会受影响?答:IDEA使用的公司确实不少,但是远没有你说的那么夸张,像eclipse和MyEclipse这些任然是目前很多公司使用的主流开发工具,而且每年也在不断的对工具进行升级。博主:如果一开始学习我建议还是IDEA因为是一款主流,但是如果学校教学用eclipse也别抱怨因为都一样。要知道的是,工具

2020-01-25 11:35:31 2401

原创 必备DOS命令

一、常用DOS程序命令大全下面分类列举那些调出Shell命令列表,通过使用对应命令可以大大节约时间:一、Windows常用工具类:操作步骤:1.win+r2.输入程序工具类名称运行程序 运行命令记事本 notepad计算器 calc画图 mspaint写字板 writeWindows放大镜 magnify辅助工具管理器 utilmanTe...

2020-01-25 10:40:53 1817

原创 Java为什么没有被时代所淘汰?

目录1.java为什么没有被时代所淘汰2.Java跨平台原理(字节码文件、虚拟机)1.java为什么没有被时代所淘汰Java为消费类智能电子产品而设计,但智能家电产品并没有像最初想象的那样拥有大的发展。然而90年代,Internet却进入了爆发式发展阶段,一夜之间,大家都在忙着将自己的计算机连接到网络上。这个时侯,遇到了一个大的问题。人们发现连接到Internet的计算机各式各样,有IBM PC、苹果机、各种服务器等等,不仅硬件CPU不同,操作系统也不同,整个的网络环境非常复杂。这个时.

2020-01-24 17:00:50 1334

原创 计算机行业就业的发展前景怎么样?

目录1 计算机已经成为人大脑的延伸2 算法是计算机的灵魂,编程语言是塑造计算机灵魂的工具3 三代计算机语言:第一代是机器语言,第二代是汇编语言,第三代是高级语言。4 软件开发人员现在市场已经饱和了吗?1 计算机已经成为人大脑的延伸计算机(computer)俗称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算,又可以进行逻辑计算,还具有存储记忆功能。是能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。 由硬件系统和软件系统所组成,没有安装任何软件的计算机称为裸

2020-01-24 16:37:44 7269

原创 Java深拷贝和浅拷贝Map对象

目录1 将Map深拷贝到另一个Map对象当中2 浅拷贝Map1 将Map深拷贝到另一个Map对象当中今天赋值的时候遇到的小坑相关文章推荐:Java克隆方式避免频繁创建对象优化方案 https://blog.csdn.net/ZGL_cyy/article/details/1265569071.需求说明将一个MapA对象中所有的键值对完全拷贝到另一个MapB对象中;另一个MapB对象中原来的键值保持不变(不受影响);拷贝成功后MapB对象当中的内容将不再随着MapA中内容的变化而

2023-01-29 22:57:55 2135 4

原创 Linux查看log日志命令总结

目录1,动态实时查看日志1.1 tail -f filename1.2 追踪特定内容日志2 cat关键字搜索3 查看整体的日志操作3.1 less命令3.2 vim编辑模式查看日志4 下载日志文件1,动态实时查看日志企业项目都运行在Linux环境,熟悉Linux环境下的日志查看结合远程调试端口及时排查程序bug,是后端程序员需掌握的必备技能。

2023-01-28 21:59:39 2880

原创 深度学习McCulloch-Pitts模型

目录1 McCulloch-Pitts模型2 应用场景3 实现原理1 McCulloch-Pitts模型1943年,神经学家McCulloch和数学家Pitts共同提出了McCulloch-Pitts模型,这个模型是对生物神经元的一种相当简化的模仿。这个模型认为,树突输入的电信号相当于函数中的自变量,轴突输出的电信号相当于函数中的因变量,一个神经元有几个树突,表征这个神经元直觉活动(意识是人脑特有的机能,故此处不用高级的意识活动,而使用更加原始的直觉活动)的数学函数也就有几个自变量。

2022-12-06 20:57:05 189

原创 深度学习卷积神经网络

目录1 CNN网络的构成2 卷积层2.1 卷积的计算方法2.2 padding(填充)2.3 stride(步长)2.4 多通道卷积2.5 多卷积核卷积2.6 特征图大小3 池化层(Pooling)3.1 最大池化3.2 平均池化4 全连接层5 卷积神经网络的构建5.1 数据加载5.2 数据处理5.3 模型搭建5.4 模型编译5.5 模型训练5.6 模型评估6 总结

2022-12-04 17:36:42 59

原创 深度学习神经网络数字识别案例

目录1 数据加载2 数据处理3 模型构建4 模型编译5 模型训练6 模型测试7 模型保存8 总结1 数据加载案例的实现流程:使用手写数字的MNIST数据集如上图所示,该数据集包含60,000个用于训练的样本和10,000个用于测试的样本,图像是固定大小(28x28像素),其值为0到255。

2022-12-04 17:08:04 88

原创 深度学习正则化

目录1 L1与L2正则化2 Dropout正则化3 提前停止4 批标准化5 总结1 L1与L2正则化在设计机器学习算法时不仅要求在训练集上误差小,而且希望在新样本上的泛化能力强。许多机器学习算法都采用相关的策略来减小测试误差,这些策略被统称为正则化。因为神经网络的强大的表示能力经常遇到过拟合,所以需要使用不同形式的正则化策略。

2022-12-04 16:48:27 48

原创 深度学习的损失函数优化方法

目录1 梯度下降算法2 反向传播算法(BP算法)2.1 前向传播与反向传播2.2 链式法则2.3 反向传播算法3 梯度下降优化方法3.1 动量算法(Momentum)3.2 指数加权平均3.3 动量梯度下降算法3.4 AdaGrad3.5 RMSprop3.6 Adam4 学习率退火4.1 分段常数衰减4.2 指数衰减4.3 1/t衰减5 总结

2022-12-04 16:26:02 154

原创 深度学习常见的损失函数

目录1 分类任务1.1 多分类任务1.2 二分类任务2 回归任务2.1 MAE损失2.2 MSE损失2.3 smooth L1 损失3 总结1 分类任务在这里插入图片描述在深度学习中, 损失函数是用来衡量模型参数的质量的函数, 衡量的方式是比较网络输出和真实输出的差异,损失函数在不同的文献中名称是不一样的,主要有以下几种命名方式

2022-12-04 16:03:30 58

原创 深度学习神经网络的使用keras搭建

目录1 神经网络的搭建1.1 通过Sequential构建1.2 利用function API构建1.3 通过model的子类构建2 神经网络的优缺点2.1 优点2.2 缺点3 总结1 神经网络的搭建接下来我们来构建如下图所示的神经网络模型:

2022-11-24 21:15:00 108

原创 深度学习神经元介绍激活函数和张量理解

目录1 激活函数1.1 Sigmoid/logistics函数:1.2 tanh(双曲正切曲线)1.3 RELU1.4 LeakReLu1.5 SoftMax1.6 其他激活函数1.7 如何选择激活函数1.7.1 隐藏层1.7.2 输出层2 参数初始化2.1 随机初始化2.2 标准初始化2.3 Xavier初始化2.4 He初始化1 激活函数人工神经元接收到一个或多个输入,对他们进行加权并相加,总和通过一个非线性函数产生输出。

2022-11-24 21:00:00 75

原创 深度学习Heartpy心电图分析

目录1 heartpy介绍2 使用Pands读取数据2.1 数据说明2.2 心电图的绘制3 心电滤波4 心电特性数据读取处理1 heartpy介绍该库提供了处理以下几种信号的方法:来自智能手表和智能手环的常规PPG信号和常规(或含噪)ECG信号,具体可查看文档,文档地址

2022-11-24 17:35:31 704

原创 Seata分布式事务源码分析

目录1 Seata常见注1.1 环绕通知(拦截器)分析1.2 全局事务扫描类分析1.3 总结2 GlobalLock注解使用场景及源码分析2.1 GlobalLock源码分析2.2 问题场景2.2.1 编写代码2.2.2 测试2.2.3 解决方案2.2.4 注意事项2.3 源码分析2.3.1. 进入拦截器2.3.2 进入数据源代理2.3.3 更新数据

2022-11-22 23:33:31 71

原创 Java频繁创建线程排查和解决

目录1 产生原因2 Java 服务器可以跑多少个线程3 Java 线程多影响内存吗4 java线程占多大的内存,占哪里的内存4.1 占多大的内存4.2 占哪里的内存1 产生原因因为编译工具突然报错,需要手动创建线程池,之前都是用ExecutorService直接创建的线程池用的封装好的,但是阿里巴巴规范不让用,网上找了个代码copy导致创建的线程池无法关闭,暂时没关注原因,解决的话还是使用ExecutorService的注入类,并且配置好线程池参数,而不去new线程池,也不要随缘关闭线程池

2022-11-16 23:44:57 260

原创 深度学习神经网络介绍

目录1 深度学习简介2 神经网络介绍1 深度学习简介在介绍深度学习之前,我们先看下这幅图:人工智能>机器学习>深度学习深度学习是机器学习的一个子集,也就是说深度学习是实现机器学习的一种方法。与机器学习算法的主要区别如下图所示:

2022-11-13 23:06:26 50

原创 深度学习框架Tensorflow模型分析

目录1 快速入门模型2 相关的库的导入3 数据展示和划分4 sklearn实现5 tf.keras实现6 总结1 快速入门模型机器学习鸢尾花数据集分析:https://blog.csdn.net/ZGL_cyy/article/details/126924746机器学习k近邻算法鸢尾花种类预测:https://blog.csdn.net/ZGL_cyy/article/details/126966990我们通过鸢尾花分类案例,来给大家介绍tf.keras的基本使用流程。

2022-11-13 16:35:36 45

原创 深度学习框架Tensorflow快速入门

目录1 TensorFlow介绍2 TensorFlow的安装3 张量及其操作4 tf.keras介绍5 总结1 TensorFlow介绍深度学习框架TensorFlow一经发布,就受到了广泛的关注,并在计算机视觉、音频处理、推荐系统和自然语言处理等场景下都被大面积推广使用,接下来我们深入浅出的介绍Tensorflow的相关应用。

2022-11-13 16:18:18 95

原创 深度学习和计算机视觉(CV)介绍

目录1 深度学习概述1.1 什么是深度学习1.2 发展历史2 计算机视觉(CV)2.1 计算机视觉定义2.2 常见任务2.3 应用场景2.3.1 人脸识别2.3.2 视频监控2.3.3 图片识别分析2.3.4 辅助驾驶2.4 发展历史

2022-11-13 15:43:48 233

HTML+CSS仿京东购物车页面静态页面

原文地址:https://blog.csdn.net/ZGL_cyy/article/details/105742990

2021-06-27

jsp+mysql简单用户管理系统.rar

详情设计和效果请看:https://blog.csdn.net/ZGL_cyy/article/details/107236101

2020-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除