深漠大侠-CSDN博客

原创银行专业术语解释说明超级详细

1、借记和贷记借和贷在会计学上只是一种记账符号，做会计分录，必须要有这两个记账符号，表示各账户间的对应关系，有借必有贷，有贷必有借，借贷必相等。对于借表示增加还是贷表示增加，取决于账户的性质和结构；资产、成本、损益支出类借方表示增加，贷方表示减少；负债、所有者权益、损益收入类借方表示减少，贷方表示增加。2、清算与结算简单说结算就是本行系统内的一种帐务结算，它只限于本系统。而清算则是相对于本系统或者是为本系统服务的相关机构，通常它是介于两个独立结算系统之外的第三方有偿清算服务。比如说工农中建这四大

2021-03-01 23:52:59 6686

原创超级详解银行支付系统大小额（一代支付）、超级网银（二代支付）

银行支付系统大小额（一代支付）、超级网银（二代支付）| 中国的支付清算有两套体系当你去ATM取钱时，用的是央行的CNAPS（中国现代化支付清算系统）当你用支付宝买买买时，用的是第三方支付的清算系统这里先介绍第一部分：CNAPS| 当你在ATM取钱时，银行都做了什么？我们先拿一个ATM取钱的例子来说明跨行业务的过程。假如你拿着一张工行卡去建行的ATM取了100元，这时候就发生了跨行业务。这个过程非常简单：建行系统告诉工行系统，有个工行用户要在我这儿取100元，能不能让他取？工行说，他的工行

2021-03-01 23:41:20 19517 1

原创 hive,hbase,impala之间的对比详解

hive,hbase,impala之间的对比详解这里写自定义目录标题 hbase在三者中更注重的是存储，它实现了类似mysql的double write机制，但是它是一种NoSQL的数据库，并且是可以支持列式存储的，算是比较大的一个内存Hash表。hbase也采用了类似mysql中的mvcc的思想通过时间戳来做版本控制。 hbase是在hdfs基础之上的，可以算是数据的一种组织方式，是一种基于...

2020-03-25 22:06:53 1011

原创笔记

selectcount(t.ref_host) ,count(t.ref_path),count(*) as pvNumbersfrom ods_weblog_detail twhere t.datestr =‘2013-09-18’group by t.hour;selectt.remote_addr,count(t.ref_host) as hostNums,coun...

2019-09-23 22:55:57 535

原创 hive级联求和

create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ‘,’;load data local inpath ‘/root/hivedata/t_salary_detail.dat’ into table t_salary_det...

2019-09-23 22:55:02 148

原创访客分析

– 独立访客–需求：按照时间维度来统计独立访客及其产生的pv量时间维度：时drop table dw_user_dstc_ip_h;create table dw_user_dstc_ip_h(remote_addr string,pvs bigint,hour string);insert into table dw_user_dstc_ip_hselect ...

2019-09-23 22:52:24 1701

原创为空插入数据，不为空保留代码

UPDATE t_erp_company t SET t.province_id=(SELECT e.region FROM erp_info e WHERE t.organization_code = e.organizational_code)WHERE t.province_id IS NULL OR LENGTH(t.province_id)!=6;

2019-06-16 21:59:31 360

原创插入数据如果为空则插入，不为空则保留数据（待修订）

UPDATE t_erp_company t,erp_info eSET t.province_id = (CASE WHEN t.province_id IS NULL OR TRIM(province_id)=’’ THEN e.region ELSE t.province_id END)WHERE t.organization_code = e.organizational_code;...

2019-06-16 20:13:03 1326

原创迁移源数据

迁移源数据表结构 erp_source将关系型mysql数据的表结构复制到hive中，hive中的表在此刻起名，无需单独在建表。bin/sqoop create-hive-table –connect jdbc:mysql://192.168.209.10:3306/erp –table erp_source –userna...

2019-06-16 20:12:08 184

原创 2张表结构不同的表，将一个表中指定字段插入另一个表中指定字段下sql代码

//插入数据（实现）update t_erp_company_test set t_erp_company_test.bz=(select business_scope from erp_info where t_erp_company_test.organization_code=erp_info.organization_code);

2019-06-11 10:58:04 1328

原创 sqoop导入导出命令

导入hivesqoop import --hive-import --connect jdbc:mysql://172.16.222.111:3306/el_company --username hadoop --password hadoop --table company --hive-database ods --hive-table company --fields-terminated...

2019-06-01 12:17:50 176

原创 jdbc的测试代码

public class DBTest {//mysql驱动包名private static final String DRIVER_NAME = “com.mysql.jdbc.Driver”;//数据库连接地址private static final String URL = “jdbc:mysql://localhost:3306/pyg16”;//用户名private stat...

2019-05-30 23:43:11 362

原创 pyg的jdbc

<?xml version="1.0" encoding="UTF-8"?> <jdbcConnection driverClass="com.mysql.jdbc.Driver" connectionURL="jdbc:mysql://127.0.0.1:3306/pyg16" userId="root" ...

2019-05-30 23:05:19 194

原创 windows下编译hadoop

在build 之前，仔细阅读源码根目录中的 BUILDING.txt 文件其中 Building on Windows部分有详细说明。1.依赖软件Windows System （windows 7）JDK 1.7+ (jdk-8u65-windows-x64.exe)Maven 3.0 or later (apache-maven-3.3.9-bin)Findbugs (Fin...

2019-05-09 09:34:58 977 1

原创 linux下编译hadoop

一、准备的资料源码根目录下有个BUILDINT.txt，打开即可看见里面关于编译hadoop的一些环境要求　　64位linux系统CentOS 6.7。JDK 1.7+。maven-3.2.5。一个项目管理综合工具, 使用标准的目录结构和默认构建生命周期protobuf 2.5.0 google的一种数据交换的格式，它独立于语言，独立于平台hadoop-2.x.x-src 　　...

2019-05-08 21:56:23 375

原创 12-Ctr点击率预估理论基础及项目实战

Ctr点击率预估理论基础及项目实战1.机器学习推荐算法模型回顾召回利用业务规则结合机器学习推荐算法得到初始推荐结果，得到部分商品召回集ALS\USERCF\ITEMCF\FPGROWTH\规则等方式排序1期：根据不同推荐位通过不用的模型得到推荐结果2期：将推荐的所有结果通过Ctr或Cvr预估结果进行排序GBDT\LR\GBDT+LR\FM\FFM\DeepFM\Wide ...

2019-05-08 21:55:38 1096 1

原创免密登录设置

目录 1 网络原理1.1 桥接原理1.2 NAT原理2 怎么使linux上网2.1 确保所有关于VMWare的服务都开启2.2 确保VMnet8 已经启动2.3 设置VMware软件交换机的ip地址2.4 设置VMnet8的ip地址2.5 更改linux系统的ip地址2.6 重启网卡服务2.7 测试3 防火墙3.1 查看防火墙规则3.2 关闭防火墙服务3.3 禁止防火墙关机自启动4 复制linux...

2019-04-28 17:40:22 1165

原创 11-用户|人才流失模型项目

用户|人才流失模型项目1.数据挖掘项目-人才流失模型项目介绍业务介绍：人才或员工是企业或其他单位的核心，如何能够保障员工的流失率或离职率或电商平台中用户的流失率下降，是人力资源或平台需要解决问题。技术实现：数据来源数据进行简单分析特征工程数据处理类别型数据处理数值型数据处理有序型数据处理特征选择特征降维建立模型数据的不平衡问题如何处理？评测指标...

2019-04-27 23:20:48 1409

原创 -09-推荐系统-用户标签预测算法基础实践

推荐系统-用户标签预测算法基础实践1.用户画像概述用户画像给到用户打标签用户画像用户角色用户属性用户画像和用户角色较为接近，而用户属性使用户的画像中的子集用户画像阶段1.用户画像基础2.用户画像指标体系3.标签数据存储方式4.标签数据开发5.性能优化及作业调度6.用户画像应用及优化用户画像基础场景用搜索领域个性化推荐领域其他领域2.常见用户...

2019-04-27 23:19:34 836

原创 08-机器学习语言必备-数据科学必备库

机器学习语言必备-数据科学必备库1.Pandas介绍Pandas是panel data面板数据，Pandas及处理结构化数据的利器，利用python数据以及数据结构完成对结构化数据的处理和分析功能。2.Series数据结构详解Series=index：value根据index完成value的值的打印创建：可以根据list、tuple、dict、set等方式进行创建，指定index...

2019-04-27 23:18:33 222

原创 07-机器学习语言必备-Python语言入门(二)

机器学习语言必备-Python语言入门(二)1.函数详解函数分为4中类型根据参数和返回值进行判断没有返回值没有参数有参数没有返回值没有返回值有参数有参数有返回值的全局变量和局部变量global2.函数详解-参数参数默认参数默认参数需要注意他的顺序关键字参数关键字参数可以调换顺序，但是需要明确指明具体参数名字VarArgs参数...

2019-04-27 23:17:39 153

原创 06-机器学习语言必备-Python语言入门(一）

机器学习语言必备-Python语言入门(一）1.Python语言介绍& 为什么Python如此受欢迎？Python语言特点Python：面向对象+解析性Python解析器：4种CpythonJpythonIronPythonPYPYPython版本Python2.x版本Python3.x版本最大的区别就是printPython的应用广、优点多、缺点...

2019-04-27 23:16:53 230

原创 05-推荐系统-关联挖掘算法实战

推荐系统-关联挖掘算法实战1.基于知识的推荐方法简介基于知识区别于以往基于协同过滤算法，基于知识的推荐更多的是交互式问答的环节，分为基于约束的部分，第二是基于实例的部分，使用基于关联规则方法全是基于知识的推荐。2.关联规则算法引入关联规则-------寻找关联购买商品的关系购物篮分析----一次购买分析-----购买小票数据分析行-----用户购买------事务列-----商...

2019-04-27 23:16:05 566

原创推荐系统-基于模型协同过滤理论基础与业务实践

推荐系统-基于模型协同过滤理论基础与业务实践1.SparkMllib库框架详解Spark机器学习库五个组件ML Algratham算法Pipelines管道FeatureszationPersistenceUtilitieslSparkml和Sparkmllibml基于DatafrmaeAPImllib基于rdd的API2.SparkMllib基本数据...

2019-04-27 23:15:10 194

原创推荐系统-经典协同过滤理论基础实践

推荐系统-经典协同过滤理论基础实践1.协同过滤推荐方法CF简介协同过滤CF基于记忆的协同过滤用户相似度的推荐物品相似度推荐UserCF用户协同过滤算法ItemCF物品的协同过滤推荐算法基于模型的协同过滤LFM(latent fator machine)隐藏因子的分解模型-----矩阵分解----Y=A*BALS(Alternative least square) 交...

2019-04-27 23:13:25 379

原创 2.推荐系统-业务基础及架构详解

推荐系统-业务基础及架构详解1.亚马逊推荐业务理解业务层面：没有搜索行为的时候首页推荐图书热榜精选图书推荐等搜索行为的首页推荐将正在搜索的商品作为“为您推荐”第一个商品其他商品按照历史浏览记录推荐最近浏览商品的推荐商品的详情页推荐关联推荐浏览此商品的用户也浏览了那些商品购买了商品的用户也购买了那些商品用户显式反馈—用户打分用户标签—商品标签品类...

2019-04-27 23:11:42 1370

原创推荐系统-基于模型协同过滤理论基础与业务实践笔记

推荐系统-基于模型协同过滤理论基础与业务实践1.SparkMllib库框架详解Spark机器学习库五个组件ML Algratham算法Pipelines管道FeatureszationPersistenceUtilitieslSparkml和Sparkmllibml基于DatafrmaeAPImllib基于rdd的API2.SparkMllib基本数据...

2019-04-27 23:03:11 288

原创四--02、商品类目码表.sql

-------商品类目码表create database if not exists gdm;create external table if not exists gdm.itcast_gdm_category_code(third_category_id bigint,–三级分类IDthird_category_name string,–三级分类名称second_category_i...

2019-04-18 22:42:59 929

原创 04、客户购买类目表

–用户画像客户购买类目表create database if not exists gdm;CREATE TABLE if not exists gdm.itcast_gdm_user_buy_category (user_id STRING, --客户IDfirst_category_id BIGINT, --一级分类IDfirst_ca...

2019-04-15 21:01:28 243

原创 04、客户消费订单表模型开发.sql

–用户画像客户消费订单表模型开发create database if not exists gdm;create table if not exists gdm.itcast_gdm_user_consume_order(user_id string, --客户IDfirst_order_time timestamp, --第一次消费时间last_order_time ti...

2019-04-15 21:00:33 313

原创 03、购物车订单表.sql

------购物车订单表BDM层create database if not exists bdm;create external table if not exists bdm.itcast_bdm_order_cart(id bigint,–IDsession_id string,–sessionIDuser_id string,–用户IDgoods_id string,–商品ID...

2019-04-15 20:59:38 2623

原创 02、客户订单位置模型表.sql

-------客户订单地址模型表create database if not exists gdm;create table if not exists gdm.itcast_gdm_user_order_addr_model(user_id string,–客户IDorder_addr bigint,–1表示学校、2表示单位、3表示家里user_order_flag string--...

2019-04-15 20:59:06 185

原创 02、客户消费订单表模型

–用户画像-客户消费订单表模型create database if not exists gdm;create table if not exists gdm.itcast_gdm_user_consume_order(user_id string, --客户IDfirst_order_time timestamp, --第一次消费时间last_order_time t...

2019-04-15 20:58:26 436

原创 1、sql案例

#创建表语句create table employee(empid int,deptid int,sex string,salary double)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘,’;#准备数据1,10,female,5500.02,10,male,4500.03,20,female,1900.04,20,male...

2019-04-15 20:57:27 207

原创 03、订单商品信息表.sql

-----订单商品信息表BDM层create database if not exists bdm;create external table if not exists bdm.itcast_bdm_order_goods(user_id string,–用户IDorder_id string,–订单IDorder_no string,–订单号sku_id bigint,–SKU编号...

2019-04-15 20:56:51 4184

原创 02、订单宽表模型开发.sql

#***************************#** 功能描述：订单宽表模型开发#***************************–订单主要信息表BDM层create database if not exists bdm;create external table if not exists bdm.itcast_bdm_order(order_id string, ...

2019-04-15 20:50:19 992

原创 02、客户基本属性模型表开发 itcast_gdm_user_basic

#***************************#** 文件名称：itcast_gdm_user_basic#** 功能描述：客户基本属性模型表#** #***************************–客户基本属性模型表BDM层create database if not exists bdm;create external table if not exists b...

2019-04-15 20:46:29 364

原创 01、用户基本属性表及模型开发 itcast_gdm_user_basic.sh

#!/bin/sh#获取昨天的时间yesterday=date -d '-1 day' "+%Y-%m-%d"#指定运行哪天的数据if [ $1 ];thenyesterday=$1fi#定义任务提交的脚本SPARK_SUBMIT_INFO="/export/servers/spark/bin/spark-sql --master spark://hadoop-01:7077 --...

2019-04-15 20:37:37 293

原创 spark性能优化点（超详解！！！珍藏版！！！）

spark性能优化点分配更多的资源1.1 分配哪些资源1.2 在哪里可以设置这些资源1.3 参数调节到多大，算是最大分配更多的资源：它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，就是要来调节最优的资源配置；在这个基...

2019-02-21 09:25:33 963

空空如也

空空如也