自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive sql 保留两位小数

cast(date_name as decimal(10,2))

2022-12-19 14:38:22 1745 1

原创 hive SQL之窗口函数

常用的窗口函数1.row_number2. lag3.lead4. 聚合函数5. 排序6. 极值7. 切片`ntile`1.row_number作用:用于计数,从1开始2. lag使用方法:lag(字段名称,偏移量,默认值)作用:取指定字段当前行向前指定偏移量的值3.lead使用方法:lead(字段名称,偏移量,默认值)作用:取指定字段当前行向后指定偏移量的值4. 聚合函数如:sum、count、avg、min、max5. 排序rank : 并列排序,且跳过,即1,

2021-10-12 23:41:36 288

原创 Hive SQL优化

减少使用distinct,用group by 代替查询条件中减少使用条件避免使用select *尽量避免一个SQL包含复杂逻辑,使用中间表来完成复杂的逻辑小表在前,大表灾后,因为jion左边的表会加载到内存,使用map join代替join数据倾斜的原因及解决方案空值或无意义值原因:如果缺失项很多,在做join时这些空值会非常集中,拖累进度解决方案:若不需要空值,提前过滤掉;若需要,将空值用随机的方式打散不同类型关联产生的数据倾斜如果join的两个key数据类型不同,则.

2021-10-11 18:41:49 113

原创 数据仓库之拉链表

什么是拉链表?拉链表是记录历史数据的,记录一个事务从开始一直到当前状态的所有变化的信息。拉链表的使用场景数据量大某些字段会被更新需要查看某一时间段的历史快照信息记录变化的比例和频率不大。拉链表设计需要的信息全量信息,用来初始化更新表需要的数据更新频率需要的字段变更的信息数据的生命周期...

2021-10-11 18:09:37 100

原创 数据仓库分层

目录数据仓库分层数据仓库分层ods(operation date store)数据准备区,是原始数据dwd(data warehouse details)数据细节层,业务层和数据仓库的隔离层,保持和ods层数据相同的颗粒度,此层数据会去空、去脏等数据清洗工作。dwm(data warehouse middle)数据中间层,在dwd的基础上进行轻微的聚合操作,算出相应的数据统计指标。dws(data warehouse service)数据服务层。在dwm的基础上,整合汇总成一个主题的数据服务层,

2021-10-11 17:38:13 148

原创 DataWhale | 学术前言趋势分析 | Task5 作者信息关联

Task5 作者信息关联任务说明数据处理步骤社交网络分析图类型图统计指标知识点无向图的构建及绘制两点之间的最短路径绘制图中节点的度数及频率绘制子图任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;社交网络分析图是复杂网

2021-01-25 23:56:59 123

原创 DataWhale | 学术前言趋势分析 | Task4 论文种类分类

Task4 论文种类分类任务说明数据处理步骤文本分类思路具体代码实现以及讲解导包数据准备数据处理本文主要使用TF-IDF+机器学习分类器和FastText两种方法进行论文种类的分类,而WordVec+深度学习分类器和Bert词向量方法等放假了在来补作业。任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是

2021-01-22 23:21:19 92

原创 DataWhale | 学术前言趋势分析 | Task3 论文代码统计

本文主要使用【正则表达式】对包含【github链接】的论文进行筛选,并进行统计和可视化处理。

2021-01-17 22:09:12 89

原创 DataWhale | Task2 论文作者统计

Task2 论文作者统计任务说明数据处理步骤字符串处理转义字符一些内置函数sum 函数展开二层嵌套列表将子元素合并[1](https://www.cnblogs.com/oceanicstar/p/9517159.html)任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas -取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其

2021-01-15 11:14:52 77

原创 DataWhale | 学术前沿趋势分析 | Task1 论文数据统计 | 知识点

Task1 知识点总结文件读取数据预处理网络数据爬取正则表达式数据可视化总结此次学习任务,主要包含从文件读取数据和从网页抓取数据两种数据获取方式;并使用DataFrame和正则表达式对数据进行处理,最后对数据进行可视化处理。文件读取open函数open(name|path,mode)name|path :为文件名或文件路径;mode:打开文件的模式,分为只读(r、r+)、只写(w、w+)、追加(a、a+)等。file对象方法fille.read([size]) # siz

2021-01-13 17:45:46 148

原创 git

git init : 初始化本地仓库设置签名git config (--global) -user.name - password passwordgit config (--global) -user.email email作用: 区分不同开发人员的身份辨析: 这个签名设置与远程代码库的账号、密码没有任何关系保存位置: .git/config 文件中 (设置当前仓库的话,在...

2019-11-18 18:53:11 121

原创 mysql数据库复习之(六)--触发器

触发器(trigger)是由事件触发某个操作,事件包括INSERT语句、UPDATE语句和DELETE语句。当数据库系统执行这些事件时就会激活触发器执行相应的操作。为什么使用触发器再具体开发项目时,会遇见如下实例:新员工入职,添加一条该员工相关的记录,员工的总数就必须同时改变。学生毕业后,学校删除该学生的记录,同时也希望能删除该同学的借书记录。在上述情况中,当一个表的数据发生改变时,...

2019-09-13 16:35:20 793

原创 数据库复习之(五)--存储过程和函数

文章目录1. 创建存储过程和函数1.1 创建存储过程1.2 创建存储函数1.3 变量的使用1.4 定义条件和处理程序1.5 光标的使用1.6 流程控制的作用1.6.1 IF1.6.2 CASE语句1.6.3 LOOP和LEAVE语句1.6.4 ITERATE 语句1.6.5 REPEAT 语句1.6.6 WHILE 语句2. 调用存储过程和函数2.1 调用存储过程2.2 调用存储函数3. 查看存储...

2019-09-13 15:11:45 957

原创 MySQL数据库复习之(五)-- 视图

文章目录创建视图单表上创建视图多表上创建视图查看视图视图是从一个或多个表导出来的表,是一种虚拟存在的表。视图就像是一个窗口,通过这个窗口可以看到系统专门提供的数据,这样用户可以不用看到整个数据库中的数据,而只是关心对自己有用的数据。视图可以使用用户的操作更方便,而且可以保障数据库系统的安全性。为了提高复杂SQL语句的复用性和表的操作的安全性,MySQL数据库管理系统提供了视图特性。视图行和列数...

2019-09-12 20:41:14 662

原创 数据库复习之(四)--索引

文章目录索引的含义和特点索引的分类索引设计原则创建和查看索引删除索引索引是一种特殊的数据库结构,可以用来快速查询数据库表中的特定记录,索引是提高数据库性能的重要方式。MySQL中,所有的数据类型都可以被索引,这些索引包括普通索引,唯一索引,全文索引,单列索引,多列索引,和空间索引。本文主要包括以下方面:索引的含义和特点索引的分类如何设计索引如何创建索引如何删除索引索引的含义和特点...

2019-09-12 17:11:50 286

原创 数据库复习之(三)-- 查询

文章目录基本查询查询所有查询指定列AS子句作用(别名显示)DISTINCT关键字(过滤重复)查询中的表达式查询中的通配符基本查询查询所有select * from 表名; #效率低,尽量减少使用查询指定列select 列名1[,列名2,列名3,....] from 表名;AS子句作用(别名显示)可以给数据列取一个新的别名可以给表取一个新别名可把经计算或总结的结果用另外一个新名称...

2019-09-12 14:50:40 288

原创 数据库复习之(二)--mysql事务

事务:transaction事务用来维护数据库的完整性。事务的4个特性(ACID):原子性(A):执行事务时,要么都成功,要么都不成功,由恢复机制实现一致性(C):执行后,保持数据的一致,由用户负责隔离性(I):事务之间相互独立,互不影响,通过系统的并发控制机制实现  - 隔离等级 :   1. Read Uncommitted(读取未提交的内容):在...

2019-09-07 15:12:31 165

原创 数据库复习(1)- 创建数据库和表

查看已有数据库(表)show batabases(tables);创建数据库create batabase ‘basename’;删除数据库dorp database ‘basename’;选择使用数据库(切换数据库)use ‘basename’;创建表create table ‘tablename’(SubjectNo int primary key auto_inc...

2019-09-07 12:19:59 254

原创

3种遍历方式:BFS,DFS,DFS非递归,层序遍历2种存储方式: 邻接表存储、邻接矩阵存储存储邻接矩阵图G(V,E)的顶点标号为0,1,……n-1,则用二维数组G[n][n]来存储图,如果G[i][j]等于1,指顶点i和顶点j之间有边,如果G[i][j]等于0,指顶点i和顶点j之间没有边,如果为有权图,则令G[i][j]存放边权。邻接表表头结点和表结点两部分组成,其中表头结点存储图的...

2019-08-20 20:06:53 81

原创 最长回文子串问题

问题描述给定一个字符串 s,找到 s 中最长的回文子串求解思路参考LeetCode的官方题解问题变形快手2019校招题目描述 最大回文子串是被研究得比较多的一个经典问题。最近月神想到了一个变种,对于一个字符串, 如果不要求子串连续,那么一个字符串的最大回文子串的最大长度是多少呢。最大回文子串是被研究得比较多的一个经典问题。最近月神想到了一个变种,对于一个字符串,如果不要求...

2019-08-11 18:41:25 333

原创 网易2019实习生招聘编程题之数对

文章目录限制时间限制:1秒 空间限制:32768K题目描述牛牛以前在老师那里得到了一个正整数数对(x, y), 牛牛忘记他们具体是多少了。但是牛牛记得老师告诉过他x和y均不大于n, 并且x除以y的余数大于等于k。牛牛希望你能帮他计算一共有多少个可能的数对。输入描述输入包括两个正整数n,k(1 <= n <= 10^5, 0 <= k <= ...

2019-08-03 09:28:04 139

原创 leetcode记录

文章目录leetcode记录https://leetcode-cn.com/problems/next-permutation/submissions/leetcode记录https://leetcode-cn.com/problems/next-permutation/submissions/

2019-07-26 18:04:58 71

原创 互联网控制消息协议ICMP和地址解析协议ARP及拥塞控制

文章目录互联网控制消息协议ICMPICMP消息格式ICMP的应用地址解析协议ARP拥塞控制拥塞控制的两类措施怎么解决拥塞问题互联网控制消息协议ICMP为什么需要ICMP IP分组传送不可靠,可能遭遇各种问题(丢包,可能发生拥塞,产生很大的延迟、抖动等)为了解决这些问题设计了IP协议的姊妹协议ICMP,它可以向源报告拥塞、超时、目标不可达等问题,也可以用来测试网络(ping、tracer...

2019-06-28 20:25:50 838

原创 网络地址翻译NAT

文章目录网络地址翻译NATNAT/PAT(超载)网络地址翻译NATIPv4地址池已经枯竭或是即将枯竭,但是每一台主机上网都需要ip地址,怎么办呢?让设备采用私人地址,私人地址:不可路由的地址不唯一在ABC三类地址里给留出一段地址做私人地址。NAT/PAT(超载)NAT是私有地址和公有IP地址之间的转换。PAT是指多个私有地址和一个公有地址之间的转换,实际上是多个私有地址到一个公有地址不同...

2019-06-28 18:19:53 849

原创 路由及路由协议

文章目录路由及路由协议路由器收到一个分组后的操作路由分类路由选择算法(routing protocol)距离矢量路由选择(DV)RIP路由信息协议(很少用了)链路状态路由选择(LS)开放的最短路径优先(OSPF)无类域间路由CIDR路由及路由协议路由器收到一个分组后的操作打开分组到第3层(网络层),提取IP地址,确定目标网络,查找路由表,重新封装转发,其中TTL-1,置换目的和源MAC...

2019-06-28 15:53:14 707

原创 IPv6

文章目录IPv6产生的原因IPv6 目标IPv6地址IPv6产生的原因IPv4先天不足:IPv4是在实验中产生的并没有考虑到安全问题,路由表膨胀,移动性不够,地址危机:上世纪90年代,IPv4地址已耗尽;端到端的业务被破坏:因为地址不够用,人们开始使用私人地址,私人地址不具有唯一性,在跟公共网络进行通讯的时候需要进行转换(NAT转换器),从原来的端到端的传输变成了端到转换器再到端的传输。...

2019-06-28 10:30:06 409

原创 基于用户行为分析的推荐算法

文章目录基于用户行为分析的推荐算法用户行为数据简介用户行为分析用户活跃度和物品流行度的分布用户活跃度和物品流行度的关系实验设计和算法测评数据集实验设计评测指标基于领域的算法基于用户的协同过滤算法基于用户行为分析的推荐算法这种算法称为协同过滤算法,协同过滤是指用户可以齐心协力,通过不断的和网站互动,使自己的推荐列表能够过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。用户行为数据简介用户行...

2019-06-28 09:35:19 12180 5

转载 推荐算法

推荐算法学习之简述基于内容基于内容的信息推荐方法的理论依据主要来自于信息减速和信息过滤,即根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要从两个方法基于内容的推荐方法: 启发式方法和基于模型的方法 。启发式方法就是用户凭借经验来定义相关的计算公式,然后根据公式的计算结果和实际的结果进行验证,然后再不断修改公式达到最终目的。对于模型的方法就是根据以往的数据作为数据集,然后根据这个数...

2019-06-16 18:49:15 425

原创 八大排序算法(python3)

十大排序算法(Python)十大排序算法及其改进冒泡排序冒泡的改进选择排序插入排序希尔排序归并排序(2路归并)如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入十...

2019-06-12 17:23:52 164

原创 PAT基础6-8——6-13

6-8 简单阶乘计算 (10 分)本题要求实现一个计算非负整数阶乘的简单函数。函数接口定义:int Factorial( const int N );其中N是用户传入的参数,其值不超过12。如果N是非负整数,则该函数必须返回N的阶乘,否则返回0。裁判测试程序样例:#include <stdio.h>int Factorial( const int N );int ...

2019-03-25 20:24:54 555

原创 PAT基础题6-1——6-7参考答案

PAT基础题参考答案6-1简单输出整数6-2多项式求值6-3简单求和6-4求自定类型元素的平均 (10 分)6-5 求自定类型元素的最大值 (10 分)6-6 求单链表结点的阶乘和 (15 分)6-7 统计某类完全平方数 (20 分)6-1简单输出整数本题要求实现一个函数,对给定的正整数N,打印从1到N的全部正整数。函数接口定义:void PrintN ( int N );其中N是用户...

2019-03-24 19:05:48 3005

DataWhale-学术前沿趋势分析-Task1 论文数据统计.ipynb

DataWhale-学术前沿趋势分析-Task1 论文数据统计源码

2021-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除