自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 机器学习中的一些概念

机器学习简单流程:1/使用大量和任务相关的数据集来训练模型;2/通过模型在数据集上的误差不断迭代训练模型,得到对数据集拟合合理的模型;3/将训练好调整好的模型应用到真实的场景中;数据:如果我们自己已经有了一个大的标注数据集,想要完成一个有监督模型的测试,那么通常使用均匀随机抽样的方式,将数据集划分为训练集、验证集、测试集,这三个集合不能有交集,三个集合符合同分布。训练集,用来调试参数;验证集,是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

2020-08-21 17:32:45 178

原创 python安装设置

主要参考:https://www.runoob.com/python/python-install.html1. Python下载Python最新源码,二进制文档,新闻资讯等可以在Python的官网查看到:Python官网:https://www.python.org/你可以在以下链接中下载 Python 的文档,你可以下载 HTML、PDF 和 PostScript 等格式的文档。Python文档下载地址:https://www.python.org/doc/2. 安装下...

2020-08-21 15:32:25 130

原创 面试刷题参考

1/大数据https://blog.csdn.net/zuolixiangfisher/article/details/889731592/sparkhttps://blog.csdn.net/zuolixiangfisher/article/details/889731593/javahttps://blog.csdn.net/qq_16633405/article/details/7...

2019-11-06 21:08:24 119

原创 数仓建设,数据分层

概述粗放型的数据接入,对数据使用不利。作用:屏蔽原始数据的异常,便于血缘追踪,清晰数据结构,减少重复开发,复杂问题简单化,屏蔽业务影响。分层参考,实际情况实际分析:1/ 数据源—ODS数据源包括日志/Oracle等/其他hive库日志—hive,jar解析oracle—sqoop导入其他hive—走程序申请权限,接入数据先接入到临时表,然后处理处理:规范年月日时间长度,规范nu...

2019-11-06 20:34:24 386

原创 seconderyNameNode和NameNode的HA

概述:Hadoop 2.0之前,用seconderyNameNode,Hadoop2.0之后用HA。snn是namenode的checkpoint节点,它定时的去namenode拿到edits.log(增删改查信息),然后去更新fsimage(元数据的序列化存储),把fsimage给namenode。这样namenode就是有一个checkpoint,如果宕机,可以直接复制snn的fsimag...

2019-11-06 19:35:52 141

原创 Oozie学习总结

总览Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统。参考,和阿兹卡班以及其他调度任务对比(侵删):https://blog.csdn.net/weixin_36836847/article/details/96379318主要有三大功能模块构成:workflow(工作流):定义job任务执行。Coordinator:定时触发workflow,周期性执行wor...

2019-10-28 16:04:25 154

原创 2/Linux基础

简介参考百度百科:https://baike.baidu.com/item/linux/27050?fr=aladdin开发者的操作系统,具有开放性,多用户,多任务,可靠的系统安全,良好的可移植性,具有标准兼容性,良好的用户界面(命令界面,图形界面等),出色的速度性能。包括内核、shell、文件系统和应用程序有不同的发行版本,一般使用的centos,CDH开源。很多公司基于cdh的二次...

2019-10-27 19:52:38 233

原创 1/java学习之路

1 总览java的百度百科:https://baike.baidu.com/item/java/859791/ java 开始sun公司 ----> orcale公司 现在是11版本se 电脑软件平台—我们用的是seee 网页webme 手机移动2/框架:JDK 开发,api等JRE 运行环境JVM 虚拟机,核心3/特性–开源–健壮–跨平台等跨平台:java跨平台是指...

2019-10-27 19:00:11 303

原创 0/学习指路参考

1/程序员之路的一些思考1.1 / 学习 & 使用技术的四种层次:lucida 的文章地址:http://zh.lucida.me/blog/levels-on-learning-and-using-technologies/把编程语言是 City,而开发者则是 Traveller...

2019-10-27 16:38:40 124

原创 Hadoop学习总览

1/ 大数据概念 --大量/繁杂/价值高/更新快2/hadoop – Apache基金会的顶级项目。是开源软件,可靠/可拓展/分布计算可以在不了解分布底层的情况下开发分布式程序,充分利用集群的威力进行高速运算和储存;主要是解决:存储–HDFS,分析-Mapreduce3/hadoop核心组件:Hadoop common:分布式文件系统, 通用i/o组件和接口HDFS–可扩展/容错/高性...

2019-10-27 15:48:20 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除