这孩子谁懂哈-CSDN博客

原创获取企业服务超市企业信息

【代码】获取企业服务超市企业信息。

2023-05-21 21:56:56 577

原创【20230103】FROM_UNIXTIME和UNIX_TIMESTAMP函数

首先知道UNIX_TIMESTAMP函数的由来：是自“1970-01-01”的道当前时间的秒数差累似1337276321（一般10位）1.FROM_UNIXTIME()函数FROM_UNIXTIME(unix_timestamp,format)参数unix_timestamp 时间戳可以用数据库里的存储时间数据的字段参数format 要转化的格式比如“”%Y-%m-%d“” 这样格式化之后的时间就是 2017-11-30可以有的形式：%M 月名字(January～Decembe

2023-01-03 21:47:30 1453

原创 Hive SQL中的lateral view explode使用记录

Hive SQL中的lateral view explode使用记录

2022-08-20 20:25:29 4614

原创 MYSQL中多行转一行实践

MYSQL中常见的多行转一行，便于查看

2022-08-11 22:41:58 808

翻译数字化：什么是数据中台？

一、数据中台定义对于一个企业，数据中台核心使命，沉淀有价值数据，形成企业数据共享，数据服务或应用于企业各部门、各领域的工作。从技术视角，数据中台是一种数据管理体系，最重要的目标是支持各部门业务数据和提供计算服务。数据中台的本质就是“数据仓库+数据服务中间件”。从业务视角，数据中台是指通过完成企业内外部多源异构的数据采集、治理、建模、分析、应用，打通数据孤岛实现数据集中管理应用,成为企业数据资产管理中枢。数据中台数据模型的分层，业界比较通用的分层方式是将数据模型分为5层：①ODS（Oper

2022-05-29 15:42:23 3241 1

翻译数字化：从数字化转型到数字化经营：为什么、是什么、怎么做？

01 数字化转型的初心在数字化转型的过程中，我们需要时刻问自己：启动数字化转型战略的初心是什么？也许每家企业有自己的表述，但核心都是“如何利用数字技术和智能技术推动企业实现商业模式、企业文化、组织结构的转型”。数字化转型战略启动后，很多企业一是很兴奋，二是投入大量资金进行各种数字化技术相关的平台、系统的建设，期待平台或系统的建设完成后就可以带领企业实现数字化转型。但是，在完成这些平台和系统建设之后，很多企业突然发现好像跟想象的不一样，感觉缺少了什么，价值体系不明显。此时，我们需要回归到做数字化转

2022-05-29 15:16:17 1199

翻译数字化：什么是数字化？

百度指数，数字化在2020年左右超越了信息化的搜索热度。数字化跟新冠话题的热度高度同步，表明在疫情长期影响之下，数字化被提上了更重要的位置，或者数字化成为对抗疫情常态化的一条出路。一、数字化、信息化的定义先看看Gartner的定义。在英文中，数字化有狭义广义之分，分别为Digitization和Digitalization。狭义的数字化（Digitization），指的是将模拟信息转化数字形式（0和1表示的二进制代码），以便计算机可以存储、传输和处理这类信息。Digitizat.

2022-05-29 14:29:55 9912

翻译数字化应用：银行客户KYC

当银行的理财经理面对客户时，何尝不是这样？客户KYC（KYC, Know Your Customer）没做好，就意味着客户关系维系难！产品成交难！业绩提高难！因此，了解你的客户KYC对于各金融机构的理财经理而言，是至关重要的基础技术，其价值不仅仅是流量客户到存量客户的转化，甚至是实现客户深度理财服务、产品交叉营销、专业化资产配置的起点。　　运用客户KYC分析法，能够充分呈现一个立体的客户视图。各类客户数据信息越完善，客户视图才会越全面，营销人员对客户的痛点把握才越精准，营销才越有把握。下面，我们就一

2022-05-21 22:48:11 12130

原创 SPARKSQL中分组排序并提取前N行

select * from (select *,row_number() over (PARTITION BY col1,col2,col3 ORDER BY col4 desc) rank from df1) tmp where rank<=10这个是提取前10的数据

2022-05-06 16:56:07 2330

原创 Python实现预测信用卡潜在客户

一、数据集有一家名为Happy Customer Bank (快乐客户银行) 的银行，是一家中型私人银行，经营各类银行产品，如储蓄账户、往来账户、投资产品、信贷产品等。该银行还向现有客户交叉销售产品，为此他们使用不同类型的通信方式，如电话、电子邮件、网上银行推荐、手机银行等。在这种情况下，Happy Customer Bank 希望向现有客户交叉销售其信用卡。该银行已经确定了一组有资格使用这些信用卡的客户。银行希望确定对推荐的信用卡表现出更高意向的客户。该数据集主要包括：客户详细

2022-05-04 17:27:52 4100 6

转载 HIVE优化之map和reduce数量

一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目...

2022-04-30 23:28:59 1221

原创 HIVE中小文件问题

一、小文件产生原因1.动态分区插入数据，会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入，如Sqoop数据导入，增量insert导入数据等4.分桶表（主要是切分文件，容易产生小文件问题）1.2.3都是数据导入的问题：hive 中的小文件肯定是向 hive 表中导入数据时产生，所以先看下向 hive 中导入数据的几种方式1.直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);

2022-04-30 23:19:58 3944 1

原创 HIVE中explain执行计划

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。要想学SQL执行计划，就需要学习查看执行计划的命令：explain，在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。学会explain，能够给我们工

2022-04-30 22:31:27 1181

原创 HIVE中MAP和REDUCE数量

一、总览MR执行过程一般的 MapReduce 程序会经过以下几个过程：输入（Input）、输入分片（Splitting）、Map阶段、Shuffle阶段、Reduce阶段、输出（Final result）。1、输入就不用说了，数据一般放在 HDFS 上面就可以了，而且文件是被分块的。关于文件块和文件分片的关系，在输入分片中说明。2、输入分片：在进行 Map 阶段之前，MapReduce 框架会根据输入文件计算输入分片（split），每个输入分片会对应一个 Map 任务，输入分片往.

2022-04-30 21:46:17 3088 1

翻译 HIVE中窗口函数

什么是窗口函数窗口函数是用于分析用的一类函数，要理解窗口函数要先从聚合函数说起。大家都知道聚合函数是将某列中多行的值合并为一行，比如sum、count等。而窗口函数则可以在本行内做运算，得到多行的结果，即每一行对应一行的值。通用的窗口函数可以用下面的语法来概括：Function() Over (Partition By Column1，Column2，Order By Column3)窗口函数又分为以下三类：聚合型窗口函数分析型窗口函数 * 取值型窗口函数接下来我们将通过几个实际

2022-04-10 20:09:08 4364 2

原创 Python获取天天基金上的数据

获取想要查询的基金数据，通过基金代码、开始日期和结束日期等import requestsimport reimport pandas as pd'''获取单页面基金数据'''def get_html(code, start_date, end_date, page=1, per=40): url = f'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code={code}&page={page}&

2022-04-05 19:42:18 2882

原创 Python实现关联规则推荐

1.什么关联规则关联规则（Association Rules）是反映一个事物与其他事物之间的相互依存性和关联性，如果两个或多个事物之间存在一定的关联关系，那么，其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事，通过对超市购物篮数据进行分析，即顾客放入购物篮中不同商品之间的关系来分析顾客的购物习惯，发现美国妇女们经常会叮嘱丈夫下班后为孩子买...

2022-04-03 19:57:17 4346 2

原创 Python之RFM建模分析

1、RFM模型的含义 RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中，RFM模型是被广泛提到的。该模型通过一个客户的近期购买行为®、购买的总体频率(F)以及花了多少钱(M)三项指标来描述该客户的价值状况，从而能够更加准确地将成本和精力更精确的花在用户层次身上，实现针对性的营销。详细来说，R指的是客户最后一次下单时间距离今天多少天了，该指标与客户的复购和流失直接相关。F指标指的是客户的下单频率，即客户在某个时间段内共消费了多少次，该指标用于

2022-03-27 16:41:20 4928 6

原创大白话讲解LCS(最长公共子序列)

今天看了七月在线算法课。再一次认识了LCS，现在整理记录：LCS（Longest Common Subsequence）最长公共子序列。一个序列S任意删除若干个字符得到新序列T，那么T叫做S的子序列。两个序列X和Y的公共子序列中，长度最长的那个叫X和Y的最长公共子序列。例如：字符串13455和245576的最长公共子序列为455.字符串acdfg和adfc的最长公共子序列为adf.注意：这里要区别...

2022-03-26 20:32:02 2099

原创 MFCC特征提取的MATLAB代码

function MFCCs = extract_mfcc()filePath='D:\data\tooth\rand_test\train_10\traintxt\Hhf\*.txt';pathStr='D:\data\tooth\rand_test\train_10\traintxt\Hhf\';fileList=dir(filePath);fileNum=length(fileLis

2022-03-26 20:31:35 1217

转载 Boosting学习笔记（Adaboost、GBDT、Xgboost）

转载请注明出处：http://www.cnblogs.com/willnote/p/6801496.html前言本文为学习boosting时整理的笔记，全文主要包括以下几个部分：对集成学习进行了简要的说明给出了一个Adboost的具体实例对Adboost的原理与学习过程进行了推导针对GBDT的学习过程进行了简要介绍针对Xgboost的损失函数进行了简要介绍给出了Adboost实例在代码上的简单实现...

2022-03-26 20:30:08 660

转载 L1正则化和L2正则化的直观解释

正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作&#x2113;1” role=”presentation” style=”position: relative;”>ℓ1ℓ1-norm，中文称作L1正则化和L2正则化，或者L1范数和L2范数。L1正则化和L2正则化...

2022-03-26 20:28:25 974 1

原创 HIVE中出现ParseException line 1:22 missing ALL at ‘select‘ near ‘＜EOF＞‘的解决办法

我们在以前无论是使用MYSQL 还是DB2等关系型数据库中都会常常使用Union或者Union all来做两个查询的并集或者并集的去重操作，虽然有影响查询性能，但是还是相当的方便的。Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序；Union All：对两个结果集进行并集操作，包括重复行，不进行排序；在hive想同样使用union对两个数据集进行去重查询，在执行操作后，发现是日志报错了：错误如下：ParseException line 1:22 missin...

2022-03-26 20:26:02 4981

原创 SQL中case when...then...else...end

CASE WHEN 基本概念Case具有两种格式：简单Case函数和Case搜索函数。简单Case函数：CASE sexWHEN ‘1’ THEN ‘男’WHEN ‘0’ THEN ‘女’ELSE ‘其他’ ENDCase搜索函数：CASE WHEN sex = ‘1’ THEN ‘男’WHEN sex = ‘0’ THEN ‘女’ELSE ‘其他’ END使用场景1、可以将已知数据...

2022-03-26 20:24:27 670

原创 SQL学习笔记（一）

什么是SQL语言？SQL是用于访问和处理数据库的标准计算机语言。SQL：是指结构化查询语言，是我们有能力访问数据库。SQL能做什么呢？可以面向数据库执行查询，可以从数据库中取回数据，插入新的数据，可以从数据库中删除记录，也可以创建数据库，在数据库中创建新的表，存储过程，视图等。一个数据库通常包含一个或者多个表，每个表由一个名字标示（例如客户，订单等），表包含带有

2022-03-26 20:14:06 428

原创 MATLAB中从一个文件中读取指定的行

function readData_write()%从指定行开始读取数据readFilePath='C:\Second_teeth\data\di_tance\Diff_distance\sanduan_event\qiefen_2\Zm\*.txt';readPathStr='C:\Second_teeth\data\di_tance\Diff_distance\sandua

2022-03-26 20:13:22 3486

原创 HMM预测妹子心情

最近小组长要求做一个HMM的技术专题报告，想怎么使用通俗易懂的语言来给大家讲解呢？想了好久，终于在网上看到这位大牛的文章，感觉很通俗易懂，今天引用这位大牛的文章，进一步的讲解一下HMM，慢慢的揭开HMM的神秘面纱！先来讲解一下什么是马尔科夫链：一个系统有N个状态 S1，S2，···，Sn，随着时间推移，系统从某一状态转移到另一状态，设qt为时间t的状态，系统在时间t处于状态Sj的概

2022-03-26 20:10:39 295

原创联邦学习之Paillier算法

密码（crypto）的概念由来已久，但与我们的手机解锁“密码”或者WiFi“密码”不同。这些由我们自己设置、用来验证身份的数字或者字母的组合，并非真正意义上的密码，而是“口令”（password）。与简单的口令相比，密码技术则是指通信过程中的一种混淆技术，将明文的消息转变为第三方不可识别的消息，在通信过程被窃听时，防止消息的机密性被泄露。准确地来说，密码技术将明文消息加密成密文，发送给通信的接收方，接收方在收到密文后使用密钥进行解密，从而恢复明文。联邦学习中经常使用的Paillier算法：Paill.

2022-03-26 20:02:48 1445

RFM淘宝建模数据集免费版

皮马印第安人糖尿病数据集免费下载分享

python 3 实现NIST二进制序列随机测试

程序员浪漫之表白程序

libsvm工具包

Android的API

javaEE的API

JDK的API参考

空空如也