自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 机器学习中的一些概念

机器学习简单流程: 1/使用大量和任务相关的数据集来训练模型; 2/通过模型在数据集上的误差不断迭代训练模型,得到对数据集拟合合理的模型; 3/将训练好调整好的模型应用到真实的场景中; 数据: 如果我们自己已经有了一个大的标注数据集,想要完成一个有监督模型的测试,那么通常使用均匀随机抽样的方式,将数据集划分为训练集、验证集、测试集,这三个集合不能有交集,三个集合符合同分布。 训练集,用来调试参数; 验证集,是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

2020-08-21 17:32:45 201

原创 python安装设置

主要参考:https://www.runoob.com/python/python-install.html 1. Python下载 Python最新源码,二进制文档,新闻资讯等可以在Python的官网查看到: Python官网:https://www.python.org/ 你可以在以下链接中下载 Python 的文档,你可以下载 HTML、PDF 和 PostScript 等格式的文档。 Python文档下载地址:https://www.python.org/doc/ 2. 安装 下...

2020-08-21 15:32:25 142

原创 面试刷题参考

1/大数据 https://blog.csdn.net/zuolixiangfisher/article/details/88973159 2/spark https://blog.csdn.net/zuolixiangfisher/article/details/88973159 3/java https://blog.csdn.net/qq_16633405/article/details/7...

2019-11-06 21:08:24 133

原创 数仓建设,数据分层

概述 粗放型的数据接入,对数据使用不利。 作用:屏蔽原始数据的异常,便于血缘追踪,清晰数据结构,减少重复开发,复杂问题简单化,屏蔽业务影响。 分层参考,实际情况实际分析: 1/ 数据源—ODS 数据源包括日志/Oracle等/其他hive库 日志—hive,jar解析 oracle—sqoop导入 其他hive—走程序申请权限,接入 数据先接入到临时表,然后处理处理:规范年月日时间长度,规范nu...

2019-11-06 20:34:24 411

原创 seconderyNameNode和NameNode的HA

概述: Hadoop 2.0之前,用seconderyNameNode,Hadoop2.0之后用HA。 snn是namenode的checkpoint节点,它定时的去namenode拿到edits.log(增删改查信息),然后去更新fsimage(元数据的序列化存储),把fsimage给namenode。这样namenode就是有一个checkpoint,如果宕机,可以直接复制snn的fsimag...

2019-11-06 19:35:52 155

原创 Oozie学习总结

总览 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统。 参考,和阿兹卡班以及其他调度任务对比(侵删): https://blog.csdn.net/weixin_36836847/article/details/96379318 主要有三大功能模块构成: workflow(工作流):定义job任务执行。 Coordinator:定时触发workflow,周期性执行wor...

2019-10-28 16:04:25 171

原创 2/Linux基础

简介 参考百度百科:https://baike.baidu.com/item/linux/27050?fr=aladdin 开发者的操作系统,具有开放性,多用户,多任务,可靠的系统安全,良好的可移植性,具有标准兼容性,良好的用户界面(命令界面,图形界面等),出色的速度性能。 包括内核、shell、文件系统和应用程序 有不同的发行版本,一般使用的centos,CDH开源。很多公司基于cdh的二次...

2019-10-27 19:52:38 247

原创 1/java学习之路

1 总览 java的百度百科:https://baike.baidu.com/item/java/85979 1/ java 开始sun公司 ----> orcale公司 现在是11版本 se 电脑软件平台—我们用的是se ee 网页web me 手机移动 2/框架: JDK 开发,api等 JRE 运行环境 JVM 虚拟机,核心 3/特性–开源–健壮–跨平台等 跨平台: java跨平台是指...

2019-10-27 19:00:11 325

原创 0/学习指路参考

1/程序员之路的一些思考 1.1 / 学习 & 使用技术的四种层次: lucida 的文章地址: http://zh.lucida.me/blog/levels-on-learning-and-using-technologies/ 把编程语言是 City,而开发者则是 Traveller ...

2019-10-27 16:38:40 134

原创 Hadoop学习总览

1/ 大数据概念 --大量/繁杂/价值高/更新快 2/hadoop – Apache基金会的顶级项目。是开源软件,可靠/可拓展/分布计算 可以在不了解分布底层的情况下开发分布式程序,充分利用集群的威力进行高速运算和储存; 主要是解决:存储–HDFS,分析-Mapreduce 3/hadoop核心组件: Hadoop common:分布式文件系统, 通用i/o组件和接口 HDFS–可扩展/容错/高性...

2019-10-27 15:48:20 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除