这孩子谁懂哈
码龄6年
  • 3,070,781
    被访问
  • 314
    原创
  • 4,816
    排名
  • 1,072
    粉丝
  • 19
    铁粉
关注
提问 私信

个人简介:坚持比努力更可怕/You Reap What You Sow

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2017-01-14
博客简介:

Miracle.Zhao的博客

博客描述:
You Reap What You Sow
查看详细资料
  • 7
    领奖
    总分 3,491 当月 42
个人成就
  • 获得1,960次点赞
  • 内容获得764次评论
  • 获得5,516次收藏
创作历程
  • 31篇
    2022年
  • 34篇
    2021年
  • 26篇
    2020年
  • 31篇
    2019年
  • 52篇
    2018年
  • 203篇
    2017年
成就勋章
TA的专栏
  • FinTech
    5篇
  • HIVE
    15篇
  • Python爬虫专栏
    14篇
  • Hadoop
    4篇
  • NLP
    3篇
  • Spark
    3篇
  • TensorFlow
    2篇
  • BlockChain
    1篇
  • 计算机网络基础
    4篇
  • 面试
    5篇
  • JS
    5篇
  • C++
    1篇
  • Tools
    20篇
  • CV
    1篇
  • Matlab
    31篇
  • UML
    3篇
  • Java
    50篇
  • Python
    46篇
  • Linux
    3篇
  • Android
    14篇
  • Research
    29篇
  • Algorithm
    25篇
  • Machine Learning
    56篇
  • Signal processing
    24篇
  • Data Mining
    15篇
  • WeChat小程序开发
    4篇
  • SQL
    29篇
  • Vue
    1篇
  • Bootstrap
    1篇
  • Spider
    16篇
  • Recommender system
    1篇
兴趣领域 设置
  • 大数据
    hadoopspark
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

MYSQL中多行转一行实践

MYSQL中常见的多行转一行,便于查看
原创
发布博客 2022.08.11 ·
73 阅读 ·
0 点赞 ·
0 评论

数字化:什么是数据中台?

一、数据中台定义对于一个企业,数据中台核心使命,沉淀有价值数据,形成企业数据共享,数据服务或应用于企业各部门、各领域的工作。从技术视角,数据中台是一种数据管理体系,最重要的目标是支持各部门业务数据和提供计算服务。数据中台的本质就是“数据仓库+数据服务中间件”。从业务视角,数据中台是指通过完成企业内外部多源异构的数据采集、治理、建模、分析、应用,打通数据孤岛实现数据集中管理应用,成为企业数据资产管理中枢。数据中台数据模型的分层,业界比较通用的分层方式是将数据模型分为5层:①ODS(Oper
翻译
发布博客 2022.05.29 ·
583 阅读 ·
0 点赞 ·
1 评论

数字化:从数字化转型到数字化经营:为什么、是什么、怎么做?

01 数字化转型的初心在数字化转型的过程中,我们需要时刻问自己:启动数字化转型战略的初心是什么?也许每家企业有自己的表述,但核心都是“如何利用数字技术和智能技术推动企业实现商业模式、企业文化、组织结构的转型”。数字化转型战略启动后,很多企业一是很兴奋,二是投入大量资金进行各种数字化技术相关的平台、系统的建设,期待平台或系统的建设完成后就可以带领企业实现数字化转型。但是,在完成这些平台和系统建设之后,很多企业突然发现好像跟想象的不一样,感觉缺少了什么,价值体系不明显。此时,我们需要回归到做数字化转
翻译
发布博客 2022.05.29 ·
247 阅读 ·
0 点赞 ·
0 评论

数字化:什么是数字化?

百度指数,数字化在2020年左右超越了信息化的搜索热度。数字化跟新冠话题的热度高度同步,表明在疫情长期影响之下,数字化被提上了更重要的位置,或者数字化成为对抗疫情常态化的一条出路。一、数字化、信息化的定义先看看Gartner的定义。在英文中,数字化有狭义广义之分,分别为Digitization和Digitalization。狭义的数字化(Digitization),指的是将模拟信息转化数字形式(0和1表示的二进制代码),以便计算机可以存储、传输和处理这类信息。Digitizat.
翻译
发布博客 2022.05.29 ·
398 阅读 ·
0 点赞 ·
0 评论

数字化应用:银行客户KYC

当银行的理财经理面对客户时,何尝不是这样?客户KYC(KYC, Know Your Customer)没做好,就意味着客户关系维系难!产品成交难!业绩提高难!因此,了解你的客户KYC对于各金融机构的理财经理而言,是至关重要的基础技术,其价值不仅仅是流量客户到存量客户的转化,甚至是实现客户深度理财服务、产品交叉营销、专业化资产配置的起点。  运用客户KYC分析法,能够充分呈现一个立体的客户视图。各类客户数据信息越完善,客户视图才会越全面,营销人员对客户的痛点把握才越精准,营销才越有把握。下面,我们就一
翻译
发布博客 2022.05.21 ·
801 阅读 ·
0 点赞 ·
0 评论

SPARKSQL中分组排序并提取前N行

select * from (select *,row_number() over (PARTITION BY col1,col2,col3 ORDER BY col4 desc) rank from df1) tmp where rank<=10这个是提取前10的数据
原创
发布博客 2022.05.06 ·
829 阅读 ·
0 点赞 ·
0 评论

Python实现预测信用卡潜在客户

一、数据集有一家名为Happy Customer Bank (快乐客户银行) 的银行,是一家中型私人银行,经营各类银行产品,如储蓄账户、往来账户、投资产品、信贷产品等。该银行还向现有客户交叉销售产品,为此他们使用不同类型的通信方式,如电话、电子邮件、网上银行推荐、手机银行等。在这种情况下,Happy Customer Bank 希望向现有客户交叉销售其信用卡。该银行已经确定了一组有资格使用这些信用卡的客户。银行希望确定对推荐的信用卡表现出更高意向的客户。该数据集主要包括: 客户详细
原创
发布博客 2022.05.04 ·
1754 阅读 ·
0 点赞 ·
4 评论

HIVE优化之map和reduce数量

一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目...
转载
发布博客 2022.04.30 ·
468 阅读 ·
0 点赞 ·
0 评论

HIVE中小文件问题

一、小文件产生原因1.动态分区插入数据,会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入,如Sqoop数据导入,增量insert导入数据等4.分桶表(主要是切分文件,容易产生小文件问题)1.2.3都是数据导入的问题:hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式1.直接向表中插入数据insert into table A values (1,'zhangsan',88),(2,'lisi',61);
原创
发布博客 2022.04.30 ·
707 阅读 ·
0 点赞 ·
0 评论

HIVE中explain执行计划

Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。要想学SQL执行计划,就需要学习查看执行计划的命令:explain,在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。学会explain,能够给我们工
原创
发布博客 2022.04.30 ·
608 阅读 ·
0 点赞 ·
0 评论

HIVE中MAP和REDUCE数量

一、总览MR执行过程一般的 MapReduce 程序会经过以下几个过程:输入(Input)、输入分片(Splitting)、Map阶段、Shuffle阶段、Reduce阶段、输出(Final result)。1、输入就不用说了,数据一般放在 HDFS 上面就可以了,而且文件是被分块的。关于文件块和文件分片的关系,在输入分片中说明。2、输入分片:在进行 Map 阶段之前,MapReduce 框架会根据输入文件计算输入分片(split),每个输入分片会对应一个 Map 任务,输入分片往.
原创
发布博客 2022.04.30 ·
685 阅读 ·
0 点赞 ·
0 评论

HIVE中EXPLODE函数

explode函数主要是实现的一行转多行的操作:1、数据介绍先看下我们的数据,主要包括三列,分别是班级、姓名以及成绩,数据表名是default.classinfo。2、单列Explode首先来看下最基本的,我们如何把student这一列中的数据由一行变成多行。这里需要使用split和explode,并结合lateral view实现。代码如下:select class,student_namefromdefault.classinfolateral view explode
原创
发布博客 2022.04.10 ·
1408 阅读 ·
0 点赞 ·
0 评论

HIVE中窗口函数

什么是窗口函数窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。 大家都知道聚合函数是将某列中多行的值合并为一行,比如sum、count等。 而窗口函数则可以在本行内做运算,得到多行的结果,即每一行对应一行的值。 通用的窗口函数可以用下面的语法来概括:Function() Over (Partition By Column1,Column2,Order By Column3)窗口函数又分为以下三类: 聚合型窗口函数 分析型窗口函数 * 取值型窗口函数接下来我们将通过几个实际
翻译
发布博客 2022.04.10 ·
1067 阅读 ·
0 点赞 ·
1 评论

Python获取天天基金上的数据

获取想要查询的基金数据,通过基金代码、开始日期和结束日期等import requestsimport reimport pandas as pd'''获取单页面 基金数据'''def get_html(code, start_date, end_date, page=1, per=40): url = f'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code={code}&page={page}&
原创
发布博客 2022.04.05 ·
1144 阅读 ·
1 点赞 ·
0 评论

Python实现关联规则推荐

1.什么关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 关联规则挖掘的最经典的例子就是沃尔玛的啤酒与尿布的故事,通过对超市购物篮数据进行分析,即顾客放入购物篮中不同商品之间的关系来分析顾客的购物习惯,发现美国妇女们经常会叮嘱丈夫下班后为孩子买...
原创
发布博客 2022.04.03 ·
1023 阅读 ·
3 点赞 ·
0 评论

Python之RFM建模分析

1、RFM模型的含义  RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。  该模型通过一个客户的近期购买行为®、购买的总体频率(F)以及花了多少钱(M)三项指标来描述该客户的价值状况,从而能够更加准确地将成本和精力更精确的花在用户层次身上,实现针对性的营销。  详细来说,R指的是客户最后一次下单时间距离今天多少天了,该指标与客户的复购和流失直接相关。F指标指的是客户的下单频率,即客户在某个时间段内共消费了多少次,该指标用于
原创
发布博客 2022.03.27 ·
2108 阅读 ·
1 点赞 ·
0 评论

RFM淘宝建模数据集免费版

发布资源 2022.03.27 ·
xlsx

大白话讲解LCS(最长公共子序列)

今天看了七月在线算法课。再一次认识了LCS,现在整理记录:LCS(Longest Common Subsequence)最长公共子序列。一个序列S任意删除若干个字符得到新序列T,那么T叫做S的子序列。两个序列X和Y的公共子序列中,长度最长的那个叫X和Y的最长公共子序列。例如:字符串13455和245576的最长公共子序列为455.字符串acdfg和adfc的最长公共子序列为adf.注意:这里要区别...
原创
发布博客 2022.03.26 ·
762 阅读 ·
0 点赞 ·
0 评论

MFCC特征提取的MATLAB代码

function MFCCs = extract_mfcc()filePath='D:\data\tooth\rand_test\train_10\traintxt\Hhf\*.txt';pathStr='D:\data\tooth\rand_test\train_10\traintxt\Hhf\';fileList=dir(filePath);fileNum=length(fileLis
原创
发布博客 2022.03.26 ·
597 阅读 ·
0 点赞 ·
0 评论

Boosting学习笔记(Adaboost、GBDT、Xgboost)

转载请注明出处:http://www.cnblogs.com/willnote/p/6801496.html前言本文为学习boosting时整理的笔记,全文主要包括以下几个部分:对集成学习进行了简要的说明给出了一个Adboost的具体实例对Adboost的原理与学习过程进行了推导针对GBDT的学习过程进行了简要介绍针对Xgboost的损失函数进行了简要介绍给出了Adboost实例在代码上的简单实现...
转载
发布博客 2022.03.26 ·
421 阅读 ·
0 点赞 ·
0 评论
加载更多