![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 87
九筒-
这个作者很懒,什么都没留下…
展开
-
sql/hql的代码积累与优化
在写数仓过程中,积累了一些sql代码优化技巧,总结分享一下(大多是hql代码) 优化 使用count(1) 替代 count(*) 一、从执行效果来看 count(1) and count(): 基本没差别 count()包括了所有的列,相当于行数,在统计结果的时候,不会忽略NULL count(1) and count(列名): count(1) 会统计表中的所有的记录数,不会忽略NULL,包含字段为null 的记录。 count(列名) 会统计该列字段在表中出现的次数,会忽略字段为null 的情原创 2021-10-24 16:11:52 · 424 阅读 · 0 评论 -
【数据挖掘】阿里云天池-数据挖掘入门-二手车价格预测
题目 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。 题目链接 题目分析 数据特征:数据特征共有31个特征,类别特征10个,数值特征21个,其中15个匿名特征均为数值特征 数据量:训练集包含15万条数据,测试集包含5万条数据原创 2021-06-13 14:56:51 · 2374 阅读 · 0 评论 -
基于大数据平台数据分析技术选型调研
技术选型调研 大方向任务 分布式平台 选出几个可行的方案 分析优缺点 任务细分: 数据源存储的问题 支持分布式的深度学习组件 业内端到端的解决方案有哪些——可借鉴的架构方案 方案路线 hdfs -> mapreduce -> hive(on spark/Tez) -> 提取小批量数据 -> 预建模预分析:sklearn/Tensorflow hdfs -> yarn -> spark -> spark mllib/TensorFlowonSpar原创 2021-03-09 15:07:28 · 621 阅读 · 0 评论