自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 资源 (10)
  • 收藏
  • 关注

原创 机器学习之KNN算法(KD Tree方法)

一、KNN算法原理KNN(K-nearst neighbors)算法,又叫K近邻算法,它是一种有监督学习的机器学习算法。对新的实例,依据给定的距离公式(二维空间一般采用欧氏距离),根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。意思就是说每个样本都可以用它最接近的k个邻居来代表。原理如图:原理:图中的数据集都已经分好了类,即打好了标签,一类是橙色的三角形,一类是蓝色的圆形,中间的六角形是待分类的数据1.如果K=5,那么离六边形最近的有三个三角形和两个圆形,因为三个三角形占优势,依据多

2021-10-22 22:08:43 2161

原创 Mysql中的 limit n,m和limit m offset n 的区别

Mysql 中的limit N,M 和 limit N OFFSET M的区别select * from user limit 1,3 意思是跳过一条 取三条数据||idname1张三2李四3王五4赵柳 limit 1,3 的结果就是跳过id为1的最终的结果是取得id为2,3,4的select * from user limit 3 offset 1o

2021-10-15 19:01:58 554

原创 Python之排序函数总结

一 .序列排序为:1.sorted(list,reverse=True) 在排序后会生成一个新的序列,不改变原有序列a=[2,7,4,9,2,7,1,6,3,5]sorted(a)输出:[1, 2, 2, 3, 4, 5, 6, 7, 7, 9]注意:默认是升序sorted(a,reverse=True)输出:[9, 7, 7, 6, 5, 4, 3, 2, 2, 1] 降序输出2.sort()排序后改变原有序列,不生成新的序列a=[1,3,2]a.sort()---->输出:

2021-09-16 18:20:00 9186

原创 tableau连接数据库时出现检查服务器是否正在运行以及您是否有权访问请求的数据库

tableau连接数据库时出现检查服务器是否正在运行以及您是否有权访问请求的数据库1.首先登入rootmysql -u root -p2.使用名为mysql的database use mysql3使用select host,user,plugin from user;查询user表中的plugin列查看密码4.更改使用ALTER USER ‘root’@‘localhost’ IDENTIFIED WITH mysql_native_password BY 'new_password’r

2021-08-29 11:13:48 1312

原创 hive之偏移分析窗口函数

说明:Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。在实际应用当中,若要用到取今天和昨天的某字段差值时,Lag和Lead函数的应用就显得尤为重要。当然,这种操作可以用表的自连接实现,但是LAG和LEAD与leftjoin、right join等自连接相比,效率更高,SQL语句更简洁。lag(exp_str,offset,defval) over(partion by ……order by ……)lead(exp_st

2021-08-15 18:08:17 2757

原创 hive之切片排序窗口函数

切片排序窗口函数ntile(n) over(……)ntile(n) over(partition by …A… order by …B… )n:切分的片数A:分组的字段名称B:排序的字段名称NTILE(n):用于将分组数据按照顺序切分成n片,返回当前切片值。NTILE不支持ROWS BETWEEN,比如 NTILE(2)OVER(PARTITION BY …… ORDER BY …… ROWSBETWEEN 3 PRECEDING AND CURRENT ROW)。如果切片不均匀,则

2021-08-15 18:01:21 1099

原创 hive之分区排序窗口函数

row_number:它会为查询出来的每一行记录生成一个序号,依次排序且不会重复。rank&dense_rank:在各个分组内,rank()是跳跃排序,有两个第一名时接下来就是第三名,dense_rank()是连续排序,有两个第一名时仍然跟着第二名。需求1:2019年1月,用户购买商品品类数量的排名 select user_name,count(distinct goods_category),row_number()over(order by count(distinct good.

2021-08-15 16:54:50 377

原创 数据分析之RFM模型

一.均值 RFM模型算法从csv文件中读取相应的数据data=pd.read_csv('./dataset.csv',encoding='ISO-8859-1')#读取2014年的客户信息data_14=data[data['Order-year']==2014]data_142.获取相应的列data_14 = data_14[['CustomerID','OrderDate','Sales']]data_14 CustomerID为用户idOrderDate为下单日期Sal.

2021-08-14 18:45:34 2209

原创 大数据hive之表连接

高亮显示问题修改右下角格式为sql即可关于jps进程中的runjar解决办法kill -9 runjar进程号– win电脑不要在云实验平台中使用ctrl+c 复制内容su - root # 切换到root用户,并且使用root用户对应的环境变量– 注意在无论进行何种表链接时,一定要将各种表进行重命名,防止错误发生一 内连接join 和inner join 是相同的1.找出既在user_list_1也在user_list_2的用户:方法一:select *from user_list

2021-08-13 12:17:27 1812

原创 大数据之hive窗口函数基础查询

/电商项目高价值用户排名温馨提示:本次任务使用的数据在电商项目云实验平台中,数据库 kkb_da先使用 desc 表名;语句查看字段,在进行查询。1.查询 2020 年 GMV,按照月累计进行分析(使用 kkb_order 表)2.计算 2020 年 6 月份,每三天进行移动求平均注册用户数(使用 kkb_order 表)3.计算 2020 年 6 月份注册用户数排名前 3 名的城市(使用 kkb_order 表)/– 1.查询 2020 年 GMV,按照月累计进行分析(使用 kkb_order

2021-08-12 16:00:32 298

原创 大数据之hive 基础查询

/*电商项目基础查询温馨提示:本任务使用的云试验平台为上课时所用,非电商项目实验平台,数据库名 kaikeba先使用 desc 表名;语句查看字段,在进行查询。激活天数距今超过 500 天的男女分布情况(使用 user_info)(使用 user_info 表)不同性别、教育程度的用户分布情况(使用 user_info) (使用 user_info 表)2019 年前 4 个月中,全天各个时间段的不同品类购买金额分布(24 小时制,使用 user_trade 表)统计在 2018 年购买的商品

2021-08-11 16:59:27 349

原创 数据分析之行列的调用

查看数据data[‘gross’]data.gross查看结果是一样的写入数据data[‘newgross’]=data.gross2dta.newgross=data.gross3第一个能正确创建新的一列 ‘newgross’ 并且正确写入第二不能写入数据

2021-08-01 10:26:50 108

原创 元组、列表、字典的区分

2021-04-08 19:40:18 146

原创 Python之列表的使用

列表的使用列表支持切片且支持正反方向查找a b c d c d d f g0 1 2 3 4 5 6 7 8-9 -8 -7 -6 -5 -4 -3 -2 -11、.append()函数:末尾追加元素2、.entend()函数:可插入多个元素(且和‘+’有相同的作用都可合并列表)输入单词可拆分开来3、.insert()函数:按指定位置插入(不是替换)...

2021-03-30 20:31:51 72

原创 turtle库的circle函数的应用

turtle.circle(radius,extent,steps)radius是半径的长度,以逆时针为正,顺时针为负,extent是圆心角的度数 可为负steps为线段条数定义:turtle.circle(radius,extent=None)作用:根据半径radius绘制extent角度的弧形参数: radius :弧形半径。 当radius值为正数时,圆心在当前位置/小海龟左侧; 当radi

2021-03-18 20:30:16 1416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除