自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 【转载】Hive中的全排序:order by,sort by, distribute by

参考源1、https://www.cnblogs.com/xuelisheng/p/11364456.html2、http://www.imooc.com/article/42981?block_id=tuijian_wz写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序。现在学了hive,写sql大家都很熟悉,...

2020-04-13 23:47:11 134 1

原创 mac 截图工具| Snipaste

之前一直都是使用mac自带的截图工具或快捷键,使用及其不便利。mac 自带截图截图工具:在 其他中找到 图像捕捉快捷键:shift - command - ssnipaste使用在https://www.snipaste.com/下载体验在mac下使用,还没学会快捷方式,每次需要手动点击来截图。...

2020-03-28 04:00:13 138

原创 Axure |导航条的实现

实现导航条使用Axure RP 9 制作导航条功能参照物Axure中的操作新建page页面制作页面和导航页设置交互名称左侧导航条与内容绑定将导航条转为动态面板发布,看效果使用Axure RP 9 制作导航条功能疫情期间,学学Axure,为以后能将常规数据功能实现产品化准备。参照物在拖动鼠标上下滑动时,右侧的导航栏目是没有变化的,此外点击导航栏中的按钮,也是不会改变导航栏的位置。现在来模仿下...

2020-03-28 03:43:09 198

原创 pandas(待完善) | to_csv中文乱码

起因今天在处理工作时,需要将结果从hive读出,并保存为csv格式,然后下载。可以下载后用excel打开发现出现乱码,非我想要的。解决方案参考了https://blog.csdn.net/zhuzuwei/article/details/80890007的博文,在此表示感谢。我们看下pandas官网对参数encoding 的解释,默认为utf-8,就是说 在我们不给指定时,就已经默认选择了...

2020-02-13 23:36:34 77

原创 知识图谱 | Neo4j初相识

初衷为什么要了解知识图谱、neo4j呢?前几天在会议上,领导说接下来我们部分将重点发力知识图谱的工作,解决业务域的问题,让每位同事都去了解下,等过段时间要做汇报工作,每位讲讲自己的学习心得,算是输出。今天的博客,将以mac为例,说明neo4j的安装和使用,以及介绍一个例子来呈现下。安装由于我的电脑是mac,本文在安装部分将只介绍mac上的安装,在使用上,mac同liunx、windows下...

2020-02-13 00:18:42 215

转载 图像数据增强

来源github一个库:https://github.com/mdbloice/Augmentor

2019-12-27 15:41:27 54

原创 技能篇目录:用python+sql提高工作效率

熟练使用python和sql提高工作效率1、理解python和sql的本质2、理解工作中对工具能力要求的本质3、熟练组合,提高效率

2019-12-27 15:05:35 169

原创 hive 修改表结构

hive表结构修改本期介绍hive中关于表结构的修改修改表名修改字段调整字段的位置增删字段综合操作本期介绍hive中关于表结构的修改在工作中,有时候会遇到老表的数据已经不能支持新的业务需求,若是重新创建一个表来承载,稍微麻烦,若是用旧表来写数据,就需要对旧表做调整。下面的内容就是介绍如何对hive表结构做修改基本操作修改表名rename toALTER TABLE old_ta...

2019-12-22 09:55:27 422

原创 hive 数据操作

本地文件写入hive表,hive表数据导出到本地文件数据导入导出数据导入到hive表中从hive表get到服务器目录下数据导入导出日常工作中,经常涉及到将本地文件写入hive表,已供查询计算,或将hive表的数据导出为本地文件。数据导入到hive表中1、第一步:创建hive 表create table if not exists User.table_user(user_id int,...

2019-12-11 14:31:07 46

原创 python 一套完整的调度方案

总结工作中使用到的调度方案包括的内容如下:1、定时调度使用python 脚本、airflow 调度平台 脚本参数设置 subprocess、command等执行shell nohup后台执行 airflow2、异常邮件告警异常邮件告知 发送邮件3、hadoop执行 hive或impala执行4、mysql数据插入 从hadoop获取数据,插入mysql...

2019-12-04 15:00:30 215

原创 python 执行shell的常见方式

python中调用shell执行命令常用的执行shell方式常用的执行shell方式在工作中经常要采用shell方式来调度脚本,定时执行任务。比如,使用python+sql来调度脚本。下面来介绍一些常见的方式,以供使用。1、os.system2、os.spawn3、command使用command,只能在python2中使用,python3中已经弃用。4、subprocess待完善...

2019-12-04 14:52:41 51

原创 总结sanic博客

使用sanic-openapi博客计划1、阅读sanic的源码和案例,已经做注解https://github.com/huge-success/sanic2、使用sanic-openapi优化api界面https://github.com/huge-success/sanic-openapi将内容发布到github上...

2019-09-15 01:08:09 189

翻译 json介绍

json格式python操作json格式字典类型{"你好":"大家好"}列表{ "你好": [ 12, 324, 54, 656, 65 ], "我们": [ 33, 434, 545, 65, ...

2019-05-30 00:31:12 242

原创 python | subprocess调度shell命令

subprocess调度shell命令内容:1、介绍subprocess包的使用;2、举几个例子

2019-01-26 10:42:26 295

原创 nohub后台挂起任务

基本命令nohup command &例子nohup python data.py > myout.file 2>&1 &> 重定向myout.file 日志存放位置2>&1 将标准出错重定向到标准输出,这里是指标准输出已经重定向到myout.file文件& 让该命令在后台执行运行后查看进程jobs -l...

2019-01-18 22:06:00 561

原创 shell | crontab 定时任务

在liunx系统下设置定时任务,也是工作中很有必要熟悉的工具格式* * * * * 解释器 脚本(可能会带参数) >>printlog.log 2>&1-- 第一颗星表示分钟(0-59),第二颗星表示小时(0-23),第三颗星表示日(1-31),-- 第四颗星表示月(1-12),第五颗星表示周几(0-6,0表示周日)使用在shell端输入-- 展示...

2019-01-04 13:28:44 174

原创 python | argparse传递参数

通过命令行的形式来传递参数,使得配置参数容易起来。这里介绍python包argparse第一步:定义函数import osimport pandas as pdimport argparsedef get_onefile_result(filename, threshold): dftmp = pd.read_csv(filename) df = dftmp.ilo...

2018-12-28 14:23:07 3523

原创 python | configparser配置文件

python | configparser配置文件通过配置文件来管理不怎么经常改变的参数,同时保证下次修改又能很快捷,就可以使用ini的配置来管理。欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进...

2018-12-28 13:16:59 332

原创 GIT使用总结

根据个人工作中使用git总结而来git认证去github上创建仓库提交文件分支代码冲突更新代码后正确操作过滤某些文件删除远程的文件或文件夹git认证git认证指使用git能与github或gitlab 进行通信。这里将以github为例来说明。1、设置姓名和邮箱地址git config --global user.name "zhangdm"git config --global use...

2018-11-06 20:18:36 120

原创 pandas日常使用总结

总结使用pandas中遇到的问题小数点的精度在pandas里面有round,可以做四舍五入,但如果是只保留给定的位数,不做精度处理呢?那就不能使用round函数了。import pandas as pddata = pd.DataFrame([[1.4354,2.65656,3.764534,4.5768564],[434.3436,76.2476,867.35,34...

2018-09-01 12:42:07 530

原创 ubuntu 使用总结

最近要测试几个开源框架,但在windows上测试一直报错,于是选择在windows上装虚拟机来安装ubuntu系统。把我的遇到的都写写总结源系统源替换python pip源版本依赖问题卸载不同版本的ubuntu源系统源系统源会涉及到在终端下载软件的速度,常常需要做替换到国内的源。如清华、阿里云等。1、备份原始的源sudo chmo...

2018-08-02 20:30:20 224

原创 Shell日常使用中问题总结

记录日常工作中遇到的shell问题,持续发现错误引号在shell中有单引号、双引号,其中单引号更加的严格,关闭所有有特殊作用的字符,会将里面的内容按照原始的状态输出;双引号,会忽略很多特殊符号,但$、反引号、反斜杆,如$、反引号、反斜杆,如\$、反引号、反斜杆,如$,会以参数传递的形式输出。例子:hive中参数传递里面是单引号,以shell脚本的形式hive -e ...

2018-07-30 23:03:00 188

原创 HIVE执行、装载数据以及shell结合有关的总结

在写hive中常用的方法时,感觉到那个页面只适合写函数等方法性的东西,没法对一个很常用的东西做深入探究总结,顾新开一个页面来详细介绍HIVE的深入综合性操作。函数页面内容见:https://blog.csdn.net/xxzhangx/article/details/81009738注:内容来自自己工作总结以及学习《Hive编程指南》总结hive 执行在shell界面输入hiv...

2018-07-25 16:02:38 746 2

原创 numpy中常用的函数总结

不定期更新,多积累where位置函数,

2018-07-18 15:18:07 359

原创 HIVE窗口函数

重点介绍窗口函数的语法定义,函数应用范围,案例结合。下面内容是根据网上资料整理而成,均带有链接窗口函数的应用场景http://yugouai.iteye.com/blog/1908121 LEAD语法定义LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值, 参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时...

2018-07-16 16:19:46 1000

原创 Hive SQL 日常工作使用总结

写写日常在使用Hive SQL做分析时经常使用的一些函数或者方法likelike用于指定特定的字符串,或结合正则做模糊匹配select uid from dw.today where tunittype like '%wew.%'rlike是hive中对like的扩展,将原先多个like才能完成的任务,使用一个rlike就可以搞定。select uid fr...

2018-07-12 10:00:06 1727 1

原创 Scrapy爬虫自学笔记(一)

工作之余,多学习,补充技术不足。1、新建scarpy项目 打开cmd,切换到工作目录中 新建项目,命名为tutorialscrapy startproject tutorial2、创建新的爬虫任务scrapy genspider example example.com这里指的是爬取网站example.com,并将项目命名为example ...

2018-05-31 20:17:05 358

原创 【申明】博客搬个家

声明我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=15v3dm3y640h4加油

2018-05-04 16:04:34 221

原创 python | os包常用命令介绍

os包的常用命令介绍,熟练的使用它能快速解决常用遇到的问题。本博文有参考:https://www.cnblogs.com/yigehundan/p/6379586.html先写自己遇到的用法。改变工作目录import osos.chdir("") 返回当前工作目录import osos.getcwd()目录拼接os.path.join("datasets"

2018-01-28 15:27:16 3664

原创 python | pandas 改变列的位置、填充缺失值

本期的文章源于工作中,需要固定label的位置,便于在spark模型中添加或删除特征,而不影响模型的框架或代码。spark的jupyter下使用sql这是我的工作环境的下情况,对你读者的情况,需要具体分析。sql = '''select *from tables_names -- hdfs下的表名where 条件判断'''Data = DB.i

2018-01-28 14:50:52 3480 1

原创 tensorflow | 维度转换

学习维度转换shape 计算维度tf.shape(input,name = None)案例1a = tf.constant([i for i in range(20)],shape =[2,2,5])with tf.Session() as sess: print (sess.run(tf.shape(a)))结果:[2 2 5]size 计算元素个数

2017-12-20 15:42:28 6741

原创 tensorflow | 随机数

使用tensorflow自带的随机种子函数来产生的随机数还是随机的,一脸尴尬。先介绍随机种子的使用。再来介绍随机函数。随机种子案例一:结果不一样import tensorflow as tfb = tf.random_normal([1],seed = tf.set_random_seed(1234))with tf.Session() as sees1: print (sees1.r

2017-12-19 21:13:59 4377

原创 tensorflow | 重新学习 | 了解graph 和 Session

源于工作需要,重新学习tensorflow,好久未使用,忘记的差不多了。tensorflow的基础框架tensorflow中是由Graph和Session组成,Graph负责将计算架构搭建起来,Session则负责将数据输入、执行模型、产出结果。分工明确,严格分割开来。其中,Graph和Session过程也可以细分为一下几个部分:1、数据准备这部分是最起始的部分,将数据集从磁盘读取2、定义plac

2017-12-19 17:21:45 1328

原创 sql | 基础总结 | 思维导图

看到好的文档,总结的很好,于是便将它按照我的理解来做了一番总结。整体思路基础语法查询查询所有的查询部分字段去重复行DISTINCT语法区间语句语法指定条件语句语法AND语句语法OR语句语法排序语句语法汇总语句语法求一列的最大值语法求一列的最小值语法求平均值语法分组语句语法整体思路整体把握,先从思维导图开始: 下面来细细分解。基础语法关键字 s

2017-10-09 19:13:00 1872 1

原创 python | 统计频次

自定义函数计算每个类型出现的次数统计词频方案一方案二案例思路来源统计词频方案一def get_counts(sequence): counts = {} for x in sequence: if x in counts: counts[x] += 1 else: counts[x] = 1

2017-10-09 15:37:20 8251

原创 机器学习 | 线性回归

计划好久,还欠下的债。问题一: 最小二乘法和梯度下降法的区别在回答这个问题前,有必要来推导下线性回归的公式,方能说到实处。开始公式如一元线性回归,即只有一个自变量,那也只有两个参数w1w_{1}和w0w_{0},表达式如下:f(x)=w0+w1∗x1f(x) = w_{0} + w_{1}*x_{1}其损失函数为:J(w)=∑i=1N(yi−w0−w1∗xi)2J(w) = \sum_{i=1}^

2017-10-07 20:35:38 330

原创 mysql | 计算排名

> 计算排名 计算排名给出每个人的排名LeetCode上的计算排名方案一方案二方案三方案四例子: https://www.1keydata.com/tw/sql/sql-rank.html给出每个人的排名SELECT a1.Name, a1.Sales, COUNT(a2.Sales) Sales_Rank FROM Total_Sales a1, Total_Sales a2

2017-10-07 15:57:22 3400

原创 mysql |那些关于第二大的事

经常遇到关于第二大的计算,如找到销售量第二大的id等等这类问题。一下是我的学习总结,有些来自网络,出处会给出详细的链接,方便寻找源码。题目第二高的薪水 来源https://leetcode.com/problems/second-highest-salary/description/方案一SELECT (SELECT DISTINCT Salary

2017-10-07 15:14:58 1285

原创 LeetCode | 两数之和除以10

计算两个数的和,再除以10,将上一次的上和下两个数加起来,再除以10,连续进行下去。如: (2 -> 4 -> 3) (5 -> 6 -> 4) 输出为: 7 -> 0 -> 8解析: (2+5)/10 余数为7,商为0 (4+6+0)/10 余数为0,商为1 (3+4+1)/10 余数为8,商为0 故:7->0->8代码class ListNode(object):

2017-10-07 14:54:30 197

原创 LeetCode | 两数之和

基础不好,笔试代码题没做好,校招没offer,赶紧来刷题两数之和列表字典比较计算时间两数之和这里采用两种方法来做,比较性能。列表nums = [i for i in range(1,100000000)]target = 3class Solution(object): def twoSum(self,nums,target): if len(nums) <= 1

2017-10-07 11:36:27 266

提示
确定要删除当前文章?
取消 删除