自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 window下安装pygame方法

在windows下安装pygame中使用到pip工具:1、pip位置: Python3.4及以上版本pip工具会随Python安装时直接安装,在Scripts目录下,那么如何找到该目录呢? 打开命令提示符工具,或搜索输入cmd进入 在命令行输入where python把命令行截取至:C:\Users\MARS\AppData\Local\ 加入Programs打开我的电脑地址栏搜索一步步找到Scripts文件夹找到后复制该地址粘贴至命...

2020-08-02 11:21:52 16

原创 oracle中sql取最大值或最小值记录的方法

select prod_inst_id,sub_acct_item_class,par_agent_name,settle_charge / 100 as settle_charge_max,row_number() over(partition by prod_inst_id order by cu_settle_charge desc ) as rnfrom tpssdb.tpss_settle_reward_result_m a

2020-07-31 19:12:50 14

原创 python中注释的方法

python中单行注释,和java或shell语言无什么区别,在行首加上“#”进行标识:#print("这是一行被注释的代码")python中多行注释使用三个单引号作为开头即“'''”与三个单引号作为结束对一段代码进行注释,例如:#以下是一段被注释的代码'''name = input("tell me your name :")sex = input(" you are a man or woman :")if sex == "man" : print("you are a

2020-07-15 21:50:43 28

原创 openpyxl的使用(利用python处理excel)

from openpyxl import load_workbookfrom openpyxl import workbook#读取'''wb = load_workbook("train.xlsx")sheetname =wb.sheetnames[0]sheet=wb[sheetname]#print("A列:",sheet["A2"].value)#print("1行:",...

2019-11-27 14:58:58 139

原创 使用PIP在windows下简易安装Python第三方模块openpyxl

1、pip位置: Python3.4及以上版本pip工具会随Python安装时直接安装,在Scripts目录下,那么如何找到该目录呢? 打开命令提示符工具,或搜索输入cmd进入 在命令行输入where python把命令行截取至:C:\Users\MARS\AppData\Local\ 加入Programs打开我的电脑地址栏搜索一步步找到S...

2019-11-27 11:07:26 757

原创 regexp_extract函数

regexp_extract(字符串, 正则表达式, 返回格式) 返回格式0 返回全部字符串正则表达式解析函数。 功能强大提取字母的正则表达式:([0-9]+)提取数字的正则表达式:([a-z]+)提取中文的正则表达式:([啊-龥]+)select regexp_extract('wde我的qw','[啊-龥]+',0) 我的这个...

2019-06-04 16:45:52 2498

原创 linux基本命令

关机:init 0 | poweroff | shutdown -h now 换成数字指的是几小时后关机。重启:shutdown -r now | reboot | init 6图形界面进入字符界面: init 3 或者 Ctrl+alt+f7字符界面进入图形界面:init 6 或者 alt+F7/bin 二进制可执行命令/dev 设备特殊文件/etc 系统管理和配置文件...

2019-04-15 11:37:38 80

原创 IMPALA取时间月份差

select * from good_user_04 a where user_state in ('申请停机','申请停,欠费双停') and months_between(to_timestamp(a.last_stop_time,'yyyyMMddHHmmss'),to_timestamp(a.open_date,'yyyyMMddHHmmss')) <=12;...

2019-04-08 10:52:00 1536

原创 IMPALA中STRING类型转INT类型

select * from good_user_04 where cast(fee2 as bigint) < cast(attr_value as bigint) /100

2019-03-29 15:06:13 4912

原创 Linux系统查看当前主机CPU、内存、机器型号及主板信息

Linux系统查看当前主机CPU、内存、机器型号及主板信息:查看CPU信息(型号)# cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c查看内存信息 # cat /proc/meminfo查看内存条数以及大小 # dmidecode -t memory查看主板型号:# dmidecode |gre...

2018-09-13 15:24:08 824

原创 大数据常见面试题总结

Hadoop部分1.Hadoop安装步骤?1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml8 配置hadoop环境变量...

2018-09-10 16:37:01 1147

原创 hive中调用函数一直处于卡顿状态

    博主遇到过调用函数count等时sql一直卡顿,不调用mr,一直处于job创建的状态,后来经博主多次测试发现,该问题出现在yarn上面。job创建完成后无法调用mapreduce,挨个主机检查,nodemanager正常,但未找到resourcemanager,所以,对该集群进行yarn重启,重启完毕后resourcemanager恢复,hive可以正常调用函数,可以正常调用mapredu...

2018-08-20 10:30:08 428

原创 HDFS分布式文件系统简介

分布式文件系统:   分布式文件系统管理的屋里存储资源不一定直接在本地节点上,而是通过计算机网络与节点相连。   分布式文件系统的基于客户机/服务器模式。通常,一个分布式文件系统提供多个供公户访问的服务器。   分布式文件系统一般都会提供备份和容错功能。   分布式文件系统一般都基于操作系统的本地文件系统 分布式文件系统的优点:   -传统 文件系统最大问题是容量和吞吐量的限制。   -多用户多应...

2018-07-12 14:08:20 397

原创 使用cloudera manager进行hadoop安全认证-simple模式

    使用cloudera manger进行hadoop安全认证配置-simple模式

2018-07-11 17:32:52 1252

原创 ORA-01653报错解决方法(表空间使用率过高处理)

创建oracle表时遇见以下报错:ORA-01653: unable to extend table JT_AUDIT.CFG_AUSYS_AUDIT_PROC by 128 in tablespace AUDIT_TABLESPACE从报错信息来看,应该是oracle表空间不足导致的, 首先检查一下oracle表空间(以下sql可直接复制执行):SELECT UPPER(F.TA...

2018-07-11 14:41:18 697

原创 oracle修改监听端口号(1521)

修改oracle监听端口1,查看当前监听状态[oracle@DSJ-RTB-4T-349 ~]$ lsnrctl statusLSNRCTL for Linux: Version 11.2.0.1.0 - Production on 05-JUL-2018 14:26:26Copyright (c) 1991, 2009, Oracle. All rights reserved.Conne...

2018-07-05 14:57:27 7209 1

原创 oracle修改字符集简介

描述:1、有的时候你前端页面和库的编码不一致,你在前端浏览页面时,就会出现乱码了2、做数据迁移时【两端库编码一致】   (1)月末帐期做报表统计时,要把生产库的一些表迁移到报表库中   (2)公司采购了新的服务器,原库的数据迁移到新服务器上   (3)开发做压力测试时,为了模拟出的压力更真实,将生产的数据迁移到测试库。解决中文乱码问题   WE8ISO8859P1【安装库默认字符集】SQL>...

2018-07-03 15:42:49 144

原创 oracle中DML,DDL,DCL操作简介

DML(Data Manipulation Language,数据操作语言):用于检索或者修改数据。    DML包括:         SELECT:用于检索数据;        INSERT:用于增加数据到数据库;        UPDATE:用于从数据库中修改现存的数据         DELETE:用于从数据库中删除数据。        DDL(Data Definition Langua...

2018-07-03 15:40:07 1034

原创 hive执行报错解决

Error during job, obtaining debugging information...Examining task ID: task_1524216872104_86828_m_000001 (and more) from job job_1524216872104_86828Examining task ID: task_1524216872104_86828_m_0000...

2018-07-03 14:43:36 1493

原创 cloudera manager(CM)修改默认端口号7180

因7180端口号禁止访问,所以需要修改7180端口,不管什么原因吧,反正现在需要修改该端口 修改方法一:后台数据库修改(WEB无法登陆时使用该方法)        以mysql数据库为例:登录CM安装用户mysql -uroot -p 使用库CMuse CM;查看默认端口mysql> select * from CONFIGS where ATTR='http_port';+-----...

2018-06-26 14:30:36 6315 1

原创 mysql源码安装shell脚本

#!/bin/bash############mysql安装文档,请把mysql和cmake的压缩包放在虚拟机/tmp下#############rm -rf /etc/yum.repos.d/*#修改yum配置文件cat <<EOF > /etc/yum.repos.d/base.repo[Base]name=basebaseurl=file:///mnt/...

2018-06-20 15:37:51 283

转载 Spark性能调优总结

  1、Spark调优背景目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。环境:服务器600+,spark 2.0.2,Hadoop 2.6.02、调优结果调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测...

2018-06-20 15:21:25 3080 1

原创 HBase简介与基本原理

一,HBase简介        HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的...

2018-06-20 14:14:37 408

原创 Cloudera-Manager修改集群主机的IP

1、业务需求说明:由于公司网络进行了整改,随之而来的就是对应的ip网段发生了变化,其中我的hadoop的集群各主机的ip也相应的发生了改变,因此需要对各主机进行修改ip。2、具体操作:  首先停止cdh各组件的服务,修改各主机的ip。修改完后,本以为完事儿了,启动Cloudera Management Service时,发现启动失败,无法启动。那么问题就来了,如何通过cloudera-ma...

2018-06-20 11:17:28 529 2

原创 Saprk基本架构原理简介

一,简介        Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS...

2018-06-18 19:26:16 209

原创 oracle触发器简介与使用方法

一,触发器简介    触发器的定义就是说某个条件成立的时候,触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用,也不能调用。然后,触发器的触发条件其实在你定义的时候就已经设定好了。二,触发器的作用             * 对数据库的操作进行审计,存储历史数据             *完成数据库初始化处理             *控制数据库的数据完整性           ...

2018-06-13 17:09:19 269

原创 Python(五)——文件的读写

文件读写是常见的IO操作,Python读写文件的方法和java类似读文件open() f = open(r'C:\Users\MARS\Desktop\remain_201805_no_uploaded.txt','r')C:\Users\MARS\Desktop\remain_201805_no_uploaded.txt为文件绝对路径,r标识读--read如果文件不存在,open()函数就...

2018-06-12 18:26:45 307

原创 Python(四)——函数、模块

python内置了很多函数,可以直接调用,python官方文档查看网址:http://docs.python.org/3/library/functions.htmlabs(),取绝对值,例如:abs(-100)max()可以同时接受很多个参数,并返回最大的参数值数据类型的转换int()可以把其他数据类型转换为整数,str()函数可以把数据类型转换为字符串,例如:int(...

2018-06-12 16:46:55 184

原创 Python(三)——条件判断与循环,键值存储

条件判断计算机能处理很多自动化任务的原因就是可以做条件判断在python中实现输入年龄,打印不同内容a=5if a>=18: print('your age is',a) print('成人')else: print('your age is:',a) print('未成年')    input的使用,input用来读取用户的输出,默认为str,数值类型...

2018-06-12 16:44:29 282

原创 Python(二)——集合

list是python中内置的一种数据类型是列表,list是一种有序的集合,可以随时添加和删除其中的元素。比如,列出班里同学的名字,可以使用list classmates = ['xiaoming','xiaohong','xiaoying'] 变量classmates就是一个list,可以使用len()函数来获取list的元素个数  例:len(classmates) 3 与java一样,集合中...

2018-06-12 16:35:03 78

原创 Python(一)——数据类型与字符编码,格式化

# -*- coding: utf-8 -*-声明文本格式,按照UTF-8格式来读取源代码,防止源代码中的中文出现乱码1,Python数据类型与变量浮点数:0.00012可以写成1.2e-4字符串:字符串是单引号'或双引号"括起来的文本,例如:'zcb'或"xyz"等,'或"只是字符表现的一种形式,并不是字符串的一部分,如果'是一种字符,那么可以使用""括起来,例如:"I'm ok!",如果字符串...

2018-06-12 16:29:46 181

原创 使用mapreduce清洗web访问日志并导入hive数据库流程

编写一个简单的日志清洗脚本,原始访问日志如下:192.168.18.1 - - [16/Feb/2017:13:53:49 +0800] "GET /favicon.ico HTTP/1.1" 404 288192.168.18.2 - - [16/Feb/2017:13:53:49 +0800] "GET /鞋子/男鞋/运动鞋/a001 HTTP/1.1" 404 288192.168.18...

2018-06-12 14:13:32 2190

原创 oracle数据库安全基线自动检测脚本

#!/bin/bash#version 2.1 此脚本在rhel,centos,oel系统均已测试通过,适用于9i 10g 11g。但未在aix,solaris,unix测试,如果遇到问题请自行微调。#Author: jn#Date: 2016.8HOSTNAME=`hostname`echo $HOSTNAME > orack.res.lstSQLPLUS=$ORACLE_...

2018-06-12 11:49:33 1587

原创 shell中使用awk判断文件中字段的值并进行替换的方法

stime=`date +%s`#获取当前时间echo 开始处理文件: B08101007_${month_id}.txt.gz#处理文件zcat B08101007.txt.gz | awk -F '\x01' '{#压缩文件查看方式使用zcat,分隔符为'\X01'     if($2 == 822) {n2="V0511300"}#判断第二个字段值是否是822,如果是替换成...

2018-06-08 14:03:10 2787

原创 FTP服务器版本信息可被获取(CVE-1999-0614)漏洞整改方法

vsftpd的banner中默认有当前版本号,可通过/etc/vsftpd/vsftpd.conf中的ftpd_banner项来自定义banner信息1,测试查看版本信息(端口默认21,可根据实际修改)[root@ip1]$ telnet 127.0.0.1 21Trying 127.0.0.1...Connected to localhost (127.0.0.1).Escape char...

2018-06-06 10:19:51 6776

原创 hive集群中间(临时)表定时清理shell脚本

    在使用hive集群的过程中,经常会生成一些一次性使用的中间表,这种中间表的使用率不高,而已可以再次生成,但大量的中间表会占用很多的集群存储资源,下面我教大家写一个定时清理hive集群中间表的shell脚本,但中间表必须有固定格式,例如:博主的集群中间表全是vra开头,并且中间含有res,并以tmp结尾。那么该脚本如下:#!/bin/bash#######hive集群中间表定时清理脚本##...

2018-06-05 10:04:59 1351

原创 oracle定时任务执行报错并自动导致数据库关闭

问题描述:    编写shell脚本在Linux服务器中通过cron服务定时执行自动备份,每次备份完成后在结尾操作中数据库报错,服务被关闭。shell脚本单独执行备份没有问题。查看alert日志发现以下错误信息:Errors in file /d12/app/oracle/diag/rdbms/rac12c/rac12c2/trace/rac12c2_j000_21047.trc:ORA-27...

2018-06-01 13:40:54 701

原创 mysql备份详解

【备份】1、冷备份【好处是:稳定,坏处是:得停库影响收入】2、热备份一、冷备份备份全部数据    service mysql stop    cp -frp /app/mysql/data/* /备份文件存放目录 【全部备份,直接把数据目录备份走,cat /etc/my.cnf |grep datadir 存放数据的目录】部分备份    (1)        cp myisam引擎类型(拷贝走此目...

2018-06-01 11:13:14 163

原创 mysql中用户权限配置

一、创建用户并授权   格式:GRANT 权限 ON 库.表 TO '用户名'@'指定IP' identified by '密码';select distinct user from mysql.user; 【查询当前库默认有哪些用户,默认只有1个root】GRANT ALL PRIVILEGES ON *.* TO 'lifei'@'%' identified by 'lifei';flush ...

2018-06-01 11:06:36 143

原创 shell脚本中使用for循环开启并行方法

大家经常使用for循环来給指定脚本输入参数,按照参数的输入顺序脚本顺序执行,如以下脚本:for (( i = 1; i <= 999; i++ ))do sh diaoyong.sh $i done把1-999不停输入diaoyong.sh脚本中,该脚本要循环999次才能执行完成,执行效率极慢,我们可以使用for循环中的并行,根据输入的参数,同时执行多个任务,但是这种会同时开启999个...

2018-06-01 10:31:48 8689

提示
确定要删除当前文章?
取消 删除