自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

清平の居士馆

what we can do is keep moving

  • 博客(609)
  • 资源 (42)
  • 论坛 (6)
  • 收藏
  • 关注

原创 岁月悠悠,衰微只及肌肤;热忱抛却,颓废必致灵魂

都说程序员的人生充满波澜,人到中年就会有中年危机,或者说把中年失业当做自己的梦魇,那谁的人生又不是呢?几乎每个人都渴望永远青春,惧怕年老的到来。但年龄的增长不会催人老去,唯有在迷失理想之际,才会年老体衰。一、定位自己首先我们可以问问自己属于哪一种程序员,这里,我把程序员定义为以编程为生的人,因为不是每一个写代码的都是程序员。我认为世界上存在四类程序员:(计算机)科学家、码农、专家和工匠。1....

2020-04-10 13:29:48 2736

原创 金融业大数据应用场景

如果能够引入外部数据,还可以进一步加快数据价值的变现。外部数据中比较好的有社交数据、电商交易数据、移动大数据、运营商数据、工商司法数据、公安数据、教育数据和银联交易数据等。大数据在金融行业的应用范围较广,典型的案例有花旗银行利用 IBM 沃森电脑为财富管理客户推荐产品,并预测未来计算机推荐理财的市场将超过银行专业理财师;摩根大通银行利用决策树技术,降低了不良贷款率,转化了提前还款客户,一年为摩根...

2020-04-07 17:05:48 4136 2

原创 Python十大优雅代码

本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。1. for - else什么?不是 if 和 else 才是原配吗?No,你可能不知道,else 是个脚踩两只船的家伙,for 和 else 也是一对,而且是合法的。>>> ...

2019-12-07 11:35:17 1190 1

原创 量化交易主流框架介绍

量化交易主流框架介绍talibtalib的简称是Technical Analysis Library,主要功能是计算行情数据的技术分析指标numpy介绍:一个用python实现的科学计算包。包括:1、一个强大的N维数组对象Array;2、比较成熟的(广播)函数库;3、用于整合C/C++和Fortran代码的工具包;4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包s...

2018-10-15 19:16:46 4645 6

原创 hive小数取整函数(floor函数,ceil函数,round函数)

1. floor()函数 向下取整select floor(1.4) # 结果是:12. ceil()函数 向上取整select ceil(1.4) #结果是:23. round()函数 四舍五入select round(1.455, 2) #结果是:1.46,即四舍五入到十分位select round(1.5) #默认四舍五入到个位,结果是:2select round(255, -1) #结果是:260,即四舍五入到十位,此时个位是5会进位...

2021-10-19 15:19:46 546

原创 Hadoop 数据仓库规范

对于一个公司或者组织来说,使用数据的用户可能成百上千,如何降低大家对于数据使用的沟通成本、 何通过规范大家的行为来降低使用数据的风险,这些问题是必须加以考虑的。在实际实践中,通常用数据仓库 规范来达到 目的 数据仓库的规范包括很多方面,如数据命名规范、开发规范、流程规范、安全规范和质量规范等,下面将结合 FutureRetailer零售平台介绍常用的命名、开发和流程规范。一、命名规范命名规范主要分为表命名规范和字段命名规范等,下面分别介绍1.表命名规范表命名规范是为 了让数据所有相关方对于表

2021-08-25 13:41:22 63

原创 PDM文件打开方式

项目里有后缀为 *.pdm 的文件,该文件为数据库表结构模型,也可以理解为数据字典。方式一:在线打开在这里分享一个很方便的网站,在线阅读pdm文件,打开这个网址放pdm文件进去,即可打开,十分方便快捷。http://www.dmanywhere.cn/方拾二:powerdesigner客户端PowerDesigner软件创建数据库快捷便利的可视化工具,毕竟在线版的资源有限网上有很多不错的安装教程学习powerdesigner入门教程点击https://www.cnblogs.com/bie

2021-08-25 11:15:30 88

原创 win10无法设置热点怎么解决

相信许多用户已经在使用win10系统的电脑了,win10电脑本身自带移动热点功能。但是有时候会出现移动热点无法打开的问题。如下图所示,针对这种问题,我们该如何解决呢?1.在Windows10桌面上找到【我的电脑】右键,然后点击【属性】。2.找到设备管理器3.打开设备管理器中的【网络适配器】4.在展开的网络适配器里直接双击打开无线热点的驱动。5.打开无线热点驱动属性对话框后直接点击【高级】选项卡。6.在高级选项卡将802.11n这个两个选项的值设置为20MHZ,然后直接点击确定。7.设

2021-08-20 14:16:11 290

原创 【软考高项】01考试简介

信息系统项目管理师,俗称软考高项,考试目的篇毫无疑问,考试必然有着自己的目的,或升学,或工作,或落户,亦或被培训机构忽悠。。。。那么,信息系统项目管理师的目的何在,个人认为有以下几点:1、落户,按照上海市政策,想落户,必须有中级以上职称(现在好像已经取消了这一要求),那么排除某些大牛,作为一个普通人来说,要获取职称一般有3条路:评工程师、评技师,以及本文的所谓以考代评,系统集成项目管理师(中项)或信息系统项目管理师(高项)了。如果想走工程师、技师条线,其中的难度、繁琐度之大,时间跨度之长,要求之高,足

2021-08-11 17:08:04 57

原创 软件版本—— Alpha、Beta、RC版本的区别

传统软件工程上来说,对成形软件的测试有着三个阶段:alpha、beta 和gamma,用来标识测试的阶段与范围。alpha 指的是内测,即现在说的 CB,即开发团队内部测试的版本或者有限用户的体验测试版本。beta 指的是公测,即针对所有用户公开的测试版本。而做过一些修改,成为正式发布的候选版本时(现在叫做 RC - Release Candidate),叫做 gamma软件版本周期α、β、λ 常用来表示软件测试过程中的三个阶段。– α 是第一阶段,一般只供内部测试使用;– β是第二个阶段,已经消

2021-07-13 10:45:23 166

原创 Sqoop常见报错及解决方式

1.java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver原因:[SQOOP_HOME]/lib/下缺少mysql驱动包2.Caused by: java.lang.RuntimeException: Can’t parse input data: '800 1 620025 塑料油箱 ';java.io.IOException: Can’t export data, please check

2021-07-07 15:46:31 210

原创 kettle连接数据库sqlserver、MySQL、Hadoop等

一.注意(1)kettle支持连接关系型数据库和hive、impala等大数据组件。如果要连接数据库,底层kettle的目录下应该安装对应的驱动jar包,否则会报缺少驱动错误。例如:连接mysql5.7,要事先下载mysql的jdbc驱动包,所以我们要下载该jar包 (jar包下载详见附录)下载好后,解压该文件将文件夹中的mysql-connector-java-5.1.48-bin.jar文件复制到kettle所安装的data-integration\lib下即可。驱动下载地址:https:

2021-07-07 11:52:54 109

原创 三种方式实现电脑端同时登陆多个微信

现在越来越人都有两个甚至多个微信号,有时候我们需要登录在电脑回复消息,那么怎样才能在一个电脑上同时登录两个微信甚至是多个微信号(微信多开)呢?希望下列三种方法能对各位博友有帮助。方法一:微信网页版实现我们知道,目前网页版微信还是可以使用的。所以,我们可以利用多个浏览器来实现在同一台电脑上登录两个或多个微信的目的。1.首先,我们在浏览器的搜索栏输入“微信网页版”,点击搜索并点开搜索到的带“官网”标志的链接进入网页版微信。2.打开另外一个浏览器,比如刚才打开的是自己安装的第三方浏览器,那么我们再打开W

2021-05-14 13:31:24 2273

原创 SQL server本地安装步骤(Win10为例)

一、安装包下载https://jingyan.baidu.com/article/76a7e40909b961fc3b6e1519.html二、安装步骤https://jingyan.baidu.com/article/76a7e40909b961fc3b6e1519.html

2021-04-27 11:38:18 150

原创 【Linux命令参数】——grep -v 命令排除输出

grep -v就是反向文本行搜索。当控制台输出很多时,有很多是我们不想看到的,就可以用到grep -v命令。grep name# 表示只查看name这个内容grep -v name # 表示查看除了name之外的内容结合管道的话,grep -v可以用在1.过滤文本中的内容2.结合ps ef查看进程情况3.过滤某个文件夹下的内容...

2021-03-30 11:57:00 345

原创 SQL高频面试题_实现用户连续登陆的最大天数(Hive/开窗函数/Oracle)

题目:某张表两个字段分别是用户ID和登录时间。例如记录了用户id为001和002、003的登陆日期,现在问题来了:我们如何统计处两个用户各自连续登陆的天数最大值?也就是001可能会有连续登陆3天,7天,10天的这样记录,但是这其中只有10天是001连续登陆的最长天数。一、数据集准备这里数据集以Hive为例-- 表创建DROP TABLE IF EXISTS test.user_login;CREATE TABLE test.user_login(user_id string,login_d

2021-03-25 11:10:11 937 4

原创 Hive在指定位置添加列(不删除其他数据)

方案一:用Alter命令通常,我们只使用hive的添加列命令,默认会在表的最后面添加列,例如# 添加1列alter table table_name add columns(user_id bigint comment '用户ID');# 添加多列alter table table_name add columns( name string comment '用户名称', city string comment '城市', sex string c

2021-03-19 10:28:20 628

原创 【博主告白】沁园春·新年

辞旧迎新,微风拂面,春意盎然。看华夏大地,楹联新换,爆竹声声,把酒言欢。茶香袅袅,浓情笑语,万家灯火庆团圆。夜未央,江山美如画,恭贺新年。车轮滚滚向前,有中华上下五千年。忆峥嵘岁月,时光荏苒,沧海横流,漫道雄关。乘风破浪,凌云霄汉,韶华易逝莫等闲。盼今朝,愿山河无恙,人间皆安。...

2021-02-24 13:22:53 58

原创 浅谈金融体系数据治理

这几年随着全球数据应用的热潮,数据治理的话题也在最近被越来越多地提及和讨论。过去的十年,银行的IT系统经历了数据量高速膨胀的时期,这些海量的、分散在不同角落的异构数据导致了数据资源的价值低、应用难度大等问题。同时,银行内部的业务条线或行政分化也在不断地制造着银行数据交互的断层,而银行与外部业务交互所产生的“体外循环”数据与企业的核心数据体系并不能自然地融合,这个时候数据治理体系建设可能不是银行的一个选择,而是唯一的出路。一、数据治理规划银行数据向来以量大质优而著称,但是实际情况是它比其他行业好一些,但

2021-02-23 11:34:08 248

原创 sqoop/NiFi将 mysql导入hive 数值类型变成null的问题解决方案

一、问题描述mysql通过sqoop导入到hive表中,发现有个别数据类型为int或tinyint的列导入后数据为null。设置各种行分隔符,列分隔符都没有效果。源库为1,0显示二、问题分析将hive中单独将有问题的那几列的数据类型设置为string类型,重新导入后发现,里面的值变成true或者false,依然不是0和1由此猜想,sqoop在导入的时候,将那几列的数据转换成了bool类型,问题产生的原因和hive建表语句无关,只能发生在sqoop端或者mysql端。经过查看,发现mysql中

2021-01-12 17:07:30 198

原创 Hive set 常用参数设置

一、设置执行引擎-- 配置mapreduce计算引擎set hive.execution.engine=mr;-- 配置tez 计算引擎set hive.execution.engine=tez;-- 配置spark计算引擎set hive.execution.engine=spark;二、分区相关-- 开启动态分区set hive.exec.dynamic.partition=true;-- 设置非严格模式,动态分区插入数据需要先设置非严格模式set hive.exec.dyna

2021-01-06 16:48:24 675

原创 MR、Tez和Spark执行引擎对比

MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”。TezTez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等,这样,这些分解后的元操作可

2020-12-23 16:52:51 3070

原创 Hadoop数仓迁移(二):超大表数据同步方案(上亿数据量,文件100G以上)

博主在这段时间一直负责公司平台迁移工作,目前项目已接近尾声。数仓迁移过程中,需要将老平台(CDH)数据迁移到新平台(HDP),然而老集群数仓DW层中存在几张上亿条数据(文件100G以上)的大表,直接采用Distcp命令同步耗时耗资源

2020-12-14 09:33:37 740

原创 离线数仓开发——细说维度建模技术

相比操作性数据库基于三范式数据建模的一统江湖,分析性数据库自数据仓库的概念诞生以来,就存在两种得到广泛认可构建数据仓库的方法,即 BillInmon (被称为“数据仓库之父”)的企业信息 工厂模式和 Ralph Kimball (被称为“商业智能之父”)的维度建模模式。目前实际应用中,Kimball的维度建模理论在实践中使用得最为广泛,尤其在互联网行业,互联网和移动互联网行业业务变化快 系统变化快,相应的数据变化也快,数据模型经常需要修改和重构,Kimball 的方法可以迅速响应业务需求,快速构建一个数据

2020-12-08 09:35:26 399

原创 MySQL字符切割函数总结(4种类型)

一、从左开始截取字符串格式:left(str, length)说明:left(被截取字段,截取长度)select left('刀锋所划之地,便是疆土',6) as example结果:二、从右开始截取字符串格式:right(str, length)说明:right(被截取字段,截取长度)select right('刀锋所划之地,便是疆土',4) as example三、截取字符串格式一:substring(str, pos)格式二:substring(str, pos, len

2020-11-25 15:27:12 1686

原创 强制关闭正在运行的MapReduce任务

获取任务id,然后通过命令关闭:hadoop job -listhadoop job -kill job_id新版本的hadoop可能要新的命令:yarn application -listyarn application -kill job_id

2020-11-23 14:55:27 166

原创 Presto简介2_安装部署

Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator和多个worker。 由客户端提交查询,从Presto命令行CLI提交到coordinator。 coordinator进行解析,分析并执行查询计划,然后分发处理队列到worker。一.下载安装包下载地址1:https://prestodb.io/download.html下载地址2:https://repo1.maven.org/maven2/com/facebook/presto/presto-server

2020-11-23 11:40:32 206

原创 distcp跨集群拷贝文件失败 Source and target differ in block-size. Use -pb to preserve block-sizes during copy

distcp命令是常用的大数据集群间的数据拷贝命令,有时候会因为不同集群间的block块大小不一致导致命令执行失败。报错如下 Source and target differ in block-size. Use -pb to preserve block-sizes during copy原因分析distcp默认拷贝文件时不记录原block大小导致在原文件block.size不是128M时校验失败,需要在distcp命令增加-pb参数。1.HDFS在写的时候有设置块大小,默认128M,某些组件

2020-11-23 10:12:43 295

原创 Kettle组件_获取系统信息

简介通过获取系统信息控件,我们可以获取系统的时间、转换或者作业的开始结束时间(用于增量)、主机信息、上一个作业完成情况和命令行参数等。通过类型的选择可以选择多种类型,这里我们选择命令行参数。数据准备这里以MySQL为例,当然也可以Excel本地输入-- ------------------------------ Table structure for saleorder-- ----------------------------DROP TABLE IF EXISTS `saleorder

2020-11-14 15:15:05 869

原创 Kettle组件_JavaScript代码

//注意 从上一个模块引用的变量在代码中要显示的进行getString()转换var bytes = Packages.org.apache.commons.codec.binary.Base64.decodeBase64( F1.getString().getBytes() );var decString = new Packages.java.lang.String( bytes );var encString = new Packages.java.lang.String( Packages.

2020-11-13 17:18:37 303

原创 Kettle组件_concat fields拼接数据

一、转换流程二、表输入1.mysql新建表结构2.表输入SQL三、Concat fields组件说明(1)Target Field Name:填写我们要新建的字段名称,自己随意起(2)Separator处:填写字段之间的拼接符号(3)在name、type、trim处,选择我们要拼接的字段、字段类型以及去空格的类型。(4)全部配置好之后点击确定。四、表输出选择输出的表和映射关系五、启动六、结果输出可以看到出现了新的字段,拼接起来了。...

2020-11-12 16:58:53 1144

原创 sublime text 3设置中文

打开sublime,按快捷键 ctrl + shift + p=> 输入关键字"install" => install package,回车(刚点击之后并不会立刻有反应,需要稍等一会,然后就会弹出一个消息框,表示插件列表加载完成)=> 输入关键字"localiz" 或者“chinese”=> chineseLocalizations,回车搞定...

2020-11-11 17:10:19 199

原创 win10右击没有【始终使用此应用打开】选项的解决方法

通常我们习惯设置某种文件格式默认用哪种程序打开。例如我习惯用java文件默认用notepad++打开。有时候发现右击的时候这个默认选项无故消失了。解决方案:1.右键需要更换默认打开方式的文件,找到最下面的 “属性”选项2.进入“属性”,在“常规”这个 Tag 下面,找到“打开方式”,点击更改如果点击设置后未设置成功,先拖动文件到默认程序打开,在打开状态下,重复以上设置步骤,即可设置成功。...

2020-11-10 16:20:19 7956

原创 Hive开窗函数(窗口函数)_四大类型实战案例

去年分别给大家整理了Oracle和HIve开窗函数的相关知识,文见Hive分析函数整理(开窗函数、窗口函数)今天再进一步整理窗口函数常用四大类型用法测试数据集-- 建表CREATE DATABASE IF NOT EXISTS TEST;CREATE TABLE TEST.COSTITEM( NAME STRING,ORDERDATE DATE,COST STRING);-- 数据加载INSERT INTO TEST.COSTITEM VALUES ('jack','2020-0

2020-11-10 13:47:10 1918 2

原创 Hive SQL 计算引擎的切换

1、配置mapreduce计算引擎set hive.execution.engine=mr;2、配置spark计算引擎set hive.execution.engine=spark;3、配置tez 计算引擎set hive.execution.engine=tez;

2020-11-03 17:15:29 247

原创 Linux命令——后台运行(nohup 与 &)

Linux/Unix下,通常只有守护进程可在脱离终端的情况下能继续执行,而普通进程在关闭终端时会因收到SIGHUP信号(挂起信号)而退出。当终端退出后,由该终端启动的后台程序自动退出一、& 和 nohup1.让命令在后台运行:&功能和ctrl+z相同watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本2.终端退出后程序不停止运行:nohupnohup(=no hang up),使命令忽略SIGHUP信号语法格式: noh

2020-10-30 10:56:14 96

原创 Airflow性能优化(airflow.cfg配置)

配置文件默认在$AIRFLOW_HOME目录下,vim airflow.cfg# dag存放目录dags_folder = /hadoop/airflow/dags# 日志存放目录base_log_folder = /hadoop/airflow/logs# 设置web端Configuration不显示配置信息expose_config = False#控制 Airflow worker 可以并行任务实例的数量parallelism=15# 单个DAG最大并发数# 默认是16,改

2020-10-20 11:10:41 1440

原创 Airflow官方文档整理

Airflow官方文档整理一、快速开始# airflow needs a home, ~/airflow is the default,# but you can lay foundation somewhere else if you prefer# (optional)export AIRFLOW_HOME=~/airflow# install from pypi using pippip install apache-airflow# 初始化数据库airflow initdb

2020-10-17 11:34:53 527

原创 hive -e 重定向,带warn日志的处理方式

有时候执行会包含 WARN 开头的日志WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.方式一: grep -vhive -e "hive sql 语句 " | grep -v "WARN" > 输出文

2020-10-14 16:52:41 672

原创 Airflow控制任务并发数量

控制dag的并发数量,这里提供两种方式,一种是修改配置文件,一种是在创建dag的时候单独添加参数。下面针对这两种方式分别进行讲解

2020-10-12 11:12:24 1023

数仓规范文档.rar

本文档整理数据仓库搭建过程中的分层结构和数据库、表名、字段命名规范,对数仓开发、大数据开发有重要帮助,欢迎下载。有问题随时博客留言或者私信我。

2020-05-30

大数据分析--数据清洗和准备

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理理、转换以及重塑。这些工作会占到分析师时间的80%或更更多。

2018-10-09

机器学习03--sklearn手写数字识别

Scikit learn 也简称sklearn,是机器器学习领域的python模块,sklearn包含了了很多机器器学习的方式

2018-11-08

navicat 连接oracle 11g驱动包

我的Navicat 版本是Navicat Premium 12 ,最近在windows环境中远程连接新项目的Oracle(11g版本)连接报错。我在之前项目中连接Oracle12是不报错的,也不需要做任何配置,直接选择basic或者TNS连接方式都可以顺利连接,刚开始也很恼火,查了资料后,加载这个驱动就行,最终解决,这里面还有连接hive和mysql的,大家也可以存一下

2020-05-28

python面试笔试题(现场应聘收集)

题目都是照片格式的,都是面试python的同事和朋友提供,我统一整理的,题目类型涉及多方面,因为是面试所以拍摄角度有的会有点偏差,有需要的可以下载希望对大家有用!

2018-10-18

Airflow安装配置和web端插件安装

网络中关于airflow的资料比较少,这里做了一下整理: 1.整理centos7中airflow的安装配置 2.原生airflow默认不支持web端的拖拽实现dag,需要写python脚本,这里我做了一个插件安装说明,可以从网页端实现dag的编写

2020-07-01

python英语词汇

自己整理的python常用英语词汇,熟练掌握对大家的开发会有很大帮助,希望下载的朋友多多支持博客哦

2018-08-29

笨办法学python

《笨办法学 Python》(Learn Python The Hard Way,简称 LPTHW)是 Zed Shaw 编写的一本Python 入门书籍。适合对计算机了解不多,没有学过编程,但对编程感兴趣的朋友学习使用。这本书以习题的方式引导读者一步一步学习编程,从简单的打印一直讲到完整项目的实现。也许读完这本书并不意味着你已经学会了编程,但至少你会对编程语言以及编程这个行业有一个初步的了解。

2018-10-18

MySQL性能优化之参数配置

mysql性能优化的配置过程,back_log值指出在MySQL暂时停⽌止回答新请求之前的短时间内多少个请求可以被存在堆栈中。也就是说,如果MySql的连接数据达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量量即back_log,如果等待连接的数量量超过back_log,将不不被授予连接资源。

2018-11-08

机器学习面试题目1

python高级的知识点,包括当下的机器学习见面试题,这里做了3份,分别上传给大家,基本涉及到了相关要点,希望对大家有用

2018-10-18

陀螺仪调度部署和使用(美云智数).rar

整理美云智数调度工具部署和使用。美云智数,源自于财富世界500强企业美的集团信息科技,基于先进企业的业务实践,把管理实践软件产品化,为大中型企业提供智能制造、大数据、数字营销、移动办公、身份管理、财务与人力、IT咨询等领域的云产品与解决方案。

2020-05-14

机器学习01--机器学习入门知识(数据科学 5 机器学习介绍)

何谓机器器学习就是把无序的数据转换成有⽤用的信息,海海量量数据抽取有价值的信息。创建并使用那些由学习数据⽽而得出的模型,预测建模或数据挖掘。用已存在的数据来开发可⽤用来对新数据预测多种可能结果的模型。第一个文档让大家对机器学习有个初步认识

2018-11-08

Day2-pandas-Ⅰ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

大数据分析---数据规整:聚合和重塑

在许多应⽤用中,数据可能分散在许多文件或数据库中,存储的形式也不不利利于分析,应采用聚合、合并、重塑数据的⽅方法进⾏行行处理理。

2018-10-09

集群搭建手册_CDH5.13.1版.docx

整理企业级Hadoop_CDH集群的搭建步骤和常见问题解决方案,包括环境配置,安装步骤和使用方法,最后将搭建过程中的常见错误做了总结和解释

2020-03-11

数据分析1--认识大数据工具

数据分析是人工智能的必备知识,算法、数据结构都要很高的要求,这些文档由浅入深给大家提供数据分析的知识,总共10个文档,后续会陆续更新

2018-09-25

java常用英语词汇

自己整理的java常用英语词汇,记熟了对编程帮助很大!免费奉献给大家,希望大家多多关注博客

2018-08-29

Day4-pandas-Ⅲ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day3-pandas-Ⅱ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day7-pandas-Ⅳ:数据加载与透视表.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day1-IPython与Numpy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day5-Scipy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

azkaban安装包(web+excutor)

zkaban是一个Hadoop workflow定时调度工具,它解决了多个Hadoop任务单元之间的前后依赖关系。它提供了十分友好的用户界面,使用简单,容易上手。这里为大家提供azkaban2.5调度工具的全套安装包,具体安装步骤可以参考我的博客

2020-03-27

机器学习02--K近邻算法

k近邻法(k-nearest neighbor, k-NN)是1967年年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据 后,将新的数据的每个特征与样本集中数据对应的特征进⾏行行⽐比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

2018-11-08

Day10-决策树与贝叶斯.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机、决策树、贝叶斯等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

数据分析--matplotlib绘图和可视化

信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。matplotlib是一个用于创建出版质量量图表的桌⾯面绘图包(主要是2D方面)。

2018-11-08

大数据分析--数据加载、存储

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中read_csv和read_table用得最多

2018-10-09

Day9-LinearRegression线性回归与逻辑斯蒂回归.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Diango从基础到高级

Django框架的基础回顾以及高级应用,共三个文档,上传了一个重要的,这里不能设置免费分数,另外两个下载的朋友免费邮箱发送不单独上传了

2018-09-19

大数据分析---Pandas使用

pandas和Numpy还是有区别,这里主要包括两个主要数据结构:Series和DataFrame

2018-10-09

115个Java面试题和答案——终极(上).pdf

资料包含115道java常考面试题,共分为两个文档分为上下两册,内容来自北京著名iT培训机构,实战性强,欢迎下载!

2019-06-29

MySQL数据库学习之DDL学习

简单整理的Mysql的基础用法,一共6个PPT基本覆盖了DDL、DQL等五项内容,查询最为重点内容进行了分类讲解,欢迎下载,关注我的博客有额外福利哟

2018-09-08

机器学习03--决策树01

决策树(decision tree)是⼀一种基本的分类与回归方法。流程图就是⼀一个决策树,长方形代表判断模块(decision block),椭圆形成代表终⽌止模块 (terminating block),表示已经得出结论,可以终止运行行。从判断模块引出的左右箭头称作为分支(branch),它可以达到另一个判断模块或者终⽌止模块。

2018-11-08

机器学习09--决策树02

ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不不同取值建立子节点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为⽌止,最后得到一个决策树。

2018-11-08

机器学习06--线性回归

回归的目的是预测数值型的⽬目标值。最直接的办法是依据输入写出一个目标值的计算公式

2018-11-08

数据分析2--NumPy

由浅入深交给你如何用python实现大数据开发和人工智能

2018-09-25

TensorFlow.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机,TensorFlow等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day8-KNN.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day6-matplotlib.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

机器学习05--朴素贝叶斯

朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。

2018-11-08

HDFS文件中的表名变成了大写,是什么原因?

发表于 2020-10-14 最后回复 2020-10-14

Airflow请教

发表于 2020-06-03 最后回复 2020-06-03

跳槽除了薪资生无可恋

发表于 2020-05-26 最后回复 2020-05-28

kettle连接数据库报错:java.lang.StackOverflowError

发表于 2020-05-19 最后回复 2020-05-19

不撸代码继续写诗―《归途》

发表于 2020-05-09 最后回复 2020-05-10

五一了,不撸代码写首诗怎么样

发表于 2020-05-04 最后回复 2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除