自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

XIAOTWOB的博客

今天你向上了吗?

  • 博客(52)
  • 收藏
  • 关注

原创 关于索引(MySQL)

定义MySQL官方对于索引的定义为:索引(Index)是帮助MySQL高效获得数据的数据结构。也就是说索引的本质就是数据结构。索引的目的在于提高效率,可以类比字典可以简单理解为:排好序的快速查找数据结构。一般来说,索引本身也很大,不可能全部存储在内存上,因此索引往往以索引文件的形式存储在磁盘上。**我们常说的索引,如果没有特别指明,一般都是指B树(多路搜索树,并不一定是二叉树)结构组织...

2019-11-06 11:29:45 110

原创 2021-02-08 mysql(回溯统计、聚合函数、正则表达式)

以下内容均基于MySQL 5.71、回溯统计可以简单理解为在根据指定字段分组后,系统又自动对分组的字段向上进行了一次新的统计并产生一个新的统计数据,且该数据对应的分组字段值为NULL。值得注意的是,在同一个查询语句中,with rollup 与order by 仅能出现一个。基本格式如下:select column from table_name where ...group by column1 asc|desc,column2 asc|desc with rollup;2、聚合函数c

2021-02-08 13:03:57 495

原创 2021-02-08 mysql(复制表、临时表、主键冲突、truncate与delete的区别、有限更新或删除)

以下内容均基于mysql 5.71、复制表# 仅仅复制表结构create table if not exists table_name like old_table_name;# 复制表结构及数据create table if not exists table_name as select columns from old_table_name;2、临时表临时表指的是一种仅在当前会话中可见,并在当前会话关闭时自动删除的数据表,主要用于临时存储数据。# 方式1:创建临时表create te

2021-02-08 12:06:47 361

原创 Kettle核心概念

出现小bug的时候,可以尝试以下操作:工具–数据库–清除缓存可视化编程Kettle可以归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。Kettle里面的图就是转换和作业。可视化编程一直是Kettle的核心概念,可以让你快速构建复杂的ETL作业和降低维护工作量。隐藏很多技术细节,使得IT领域更接近于商务领域。转换(transformation)是ETL解决方案中最主要的部分,处理抽取、转换、

2020-09-08 16:13:32 527

原创 kettle安装及环境配置

安装JDK因为Kettle是Java语言开发的,该软件的运行需要Java运行环境的依赖。因此需要先安装JDK,准备好Java软件的运行环境。下一步,下一步,下一步program_files\Java\jdk1.8.0_101两次出现的地址是一样的,作为JDK的安装目录配置环境变量JAVA_HOME:JDK的安装目录(上面两次出现的那个地址就是安装的目录)KETTLE_HOME:kettle的解压目录(到解压后的data-intergration下)电脑右键-属性-高及环境配置-环境两个变量

2020-09-08 15:17:31 1365

原创 第五章:循环迭代处理(注意点)

111

2020-08-20 17:59:36 1232

原创 第四章:条件与顺序控制(注意点)

1、IF语句的语法要点一个IF永远与一个END IF 相匹配在END 和 IF 之间必须有个空格ELSIF关键词只在END IF 后面放一个分好,THEN 、ELSE、ELSIF后面都不带分号2、短路估算存在两个条件判断时,将判断复杂的放在后面3、CASE语句与表达式CASE expressionWHEN result1 THEN statements1WHEN result2 THEN statements2...ELSE statements_elseEND CA

2020-08-19 17:12:44 259

原创 PL/SQL 语言基础(标签的作用)

1、规范SQL语句中对变量和列的引用PACKAGE BODY scope_demoIS PROCEDURE set_global (number_in IN NUMBER) IS 1_salary NUMBER := 10000; 1_count PLS_INTEGER; BEGIN <<local_block>> DECLARE 1_inner PLS_INTEGER; BEGIN SELECT COUNT(*) INTO set

2020-08-18 17:00:15 404

原创 python核心编程第三版-第一章--课后习题答案(1-15)

""" 先进行模块导入"""import re"""1、识别后续的字符串:“bat”、“bit”、“but”、“hat”、“hit”或者“hut”。"""re.match('[bh][aiu]t',str)"""2、匹配由单个空格分隔的任意单词对,也就是姓和名。"""re.search('(\w)+\s(\w)+','tony ma')这里不够严谨,应该使用[a-zA-Z]+\s[a-zA-Z]+ 更好"""3、匹配由单个逗号和单个空白符分隔的任何单词和单个字母,如姓氏的首字母。

2020-07-28 17:29:00 397

原创 csv文件删除多余空行

1、ctrl+g2、在出现定位小窗口那里,选择定位条件–>空值3、右键,删除

2020-06-23 10:16:58 5652 5

原创 数据库-开窗函数

1、排序--rank为重复不连续,dense_rank为重复连续,row_number不重复,按顺序下来row_number () over (partition by ... order by ...)dense_rank() over (partition by ... order by ...)rank() over (partition by ... order by ...)...

2020-04-30 15:50:11 422

原创 04-13工作笔记

--注意点,要是时间刚好是0时0分0秒的话,就只显示年月日,不显示时分秒SELECT TO_DATE('2020/1/1 00:00:00','YYYY/MM/DD HH24:MI:SS') AS D FROM DUAL;>>>2020/1/1SELECT TO_DATE('2020/1/1 00:00:01','YYYY/MM/DD HH24:MI:SS') AS D...

2020-04-13 16:43:02 112

原创 oracle的字段内容判断

关于oralce字符串值的内容的判断--查询name里面不是justin4的全部字段的内容:SELECT * FROM EMP WHERE NAME <> 'justin4';SELECT * FROM EMP WHERE NAME != 'justin4';>>>注意点:这里不可以使用is not >>> is not用于判断是否为空(...

2020-03-26 17:50:09 658

原创 关于时间格式数据的保留问题

--保存年月日格式的时间数据SELECT TRUNC(SYSDATE) FROM DUAL;--时间格式可以直接进行加减数字SELECT TRUNC(SYSDATE)-3 FROM DUAL;--时间相减SELECT TRUNC(SYSDATE)- TO_DATE('2020/1/1','YYYY/MM/DD') FROM DUAL;--TO_DATE里面可以放查询的字段SEL...

2020-03-24 17:11:28 299

原创 0318工作备忘(关于python调用sql语句)

python调用sql语句的过程中,提示ORA-00911:无效字符。查看python语句,以及sql语句的正确性之后,发现是sql语句的结束符号(;)造成的报错。去掉;之后,执行正常。...

2020-03-18 16:59:13 135

原创 substr和instr

1、substr(用于截取字段)格式:substr(待截取字段,起始位置,截取长度)注意点:1、起始位置=0/1的时候,都是从第一位开始截取2、不进行赋值则截取到最后3、开始位置也可以是负值,从后往前-1开始计数,但是截取的方向不变,一样是从前往后4、剩余字符长度小于截取长度时,以剩余字符为准5、截取结果包括起始位置的字符例子select substr('HelloWorld',...

2020-03-18 09:53:50 1279

原创 备忘

1、以'land'结尾的NAMESELECT NAME FROM TABLE_A WHERE NAME like '%land';2、含有'x'的NAMESELECT NAME FROM TABLE_A WHERE NAME LIKE '%x%'; 3、'X'开头的NAMESELECT NAME FROM TABLE_A WHERE NAME LIKE 'X%';4、以'X'开头...

2020-03-12 14:10:36 148

原创 oracle的空值处理函数

1、NVLNVL(expr1,expr2)如果expr1为空,则显示expr2;否则显示expr12、NVL2NVL(expr1,expr2,expr3)如果expr1不为空,则显示expr2;否则显示expr33、NULLIFNULLIF(exp1,expr2)如果exp1和exp2相等则返回空(NULL),否则返回第一个值。4、COALESCECoalesce(...

2020-01-21 18:06:35 1486

原创 Oracle 表三种连接方式使用介绍(sql优化)

1、nested loop(嵌套循环)对于被连接的数据子集较小的情况,nested loop连接就是较好的选择。nested loop就是扫描一个表,每读到一条记录,就根据索引去另外一个表里面查找,没有索引一般就不会是nested loops。一般在nested loop中,驱动表满足条件结果集不大,被驱动表的连接字段要有索引,这样就走nested loop。如果驱动表返回记录太多,就不适合...

2020-01-02 14:25:11 712 1

原创 序列+触发器实现oracle自增列(sequence+trigger)

SELECT date_time,ROWID FROM shuzhi.t_case_holiday_base WHERE ROWID<10000 ORDER BY date_timehttps://blog.csdn.net/zoucui/article/details/79347286

2019-12-31 11:51:27 221

原创 oracle的date类型及其操作

1、date里面只是存储对应时间的内容,并不能指定以什么样的格式进行存储;但是可以指定存储到哪些时间段在这里插入代码片2、plsql可以指定显示形式,就是能修改select查询出来的date数据的形式这里只是对查询的数据进行展示格式的修改,并不影响存储3、trunc能对date类型的数据进行截取操作,4、to_date是对字符串格式转换成date格式,是不是都需要格式一模一样?好像也...

2019-12-31 10:24:13 2191

原创 12-27个人总结(创建表格,修改数据类型)--转

在指定的表空间创建表格create table t_name (xxx) tablespace tsp_name;如果要修改表的一个字段数据类型,若表里有数据了,oracle是不能修改,需清空表才行。若不想清空表的数据,则可通过以下方案:先对表数据进行备份表,再删除表数据,修改表结构,将备份表数据重插回原表中,最后删除备份表。//先对表数据进行备份表create table f10_...

2019-12-27 17:31:49 131

原创 oracle--触发器

触发器直接或间接调用commit都会引起报错;触发器是无需commit的,而且也不能写commit;触发器和触发它的DML是同一个事务。DML提交了,触发器也就提交了,所以无需commit;如果一定要在触发器里面写commit,那也是可以的,可以利用oracle中的自治事务来处理,自治事务相当于事务里的子事务。原因如下:1、触发器中使用了DDL语句;如drop table t_a;因为D...

2019-12-27 15:58:06 232

原创 hadoop入门(一)

Hadoop教程作为一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。学习前提假设已经了解Core Java,数据库概念和任何linux操作系统版本。Hadoop配置两种配置文件:1、**-default.xml(只读,默认的配置)2、**-site.xml(替换default中的配...

2019-12-19 14:14:16 85

原创 性能优化

性能分析MySQL Query Optimizer:1、有专门负责优化SELECT语句的优化器模块,主要功能:通过计算分析系统中收集到的统计信息,为客户端请求的Query提供它认为最优的执行计划(系统认为最优的数据检索方式,但不见得是DBA认同的,这部分耗费时间)**实例:**当客户端向MySQL请求一条Query,命令解析器模块完成请求分类,判定是SELECT并转发给MySQL Query...

2019-11-12 10:35:48 115

原创 SQL开发规范和基础(一)

秩序是自由的第一条件。–黑格尔开发规范:数据安全规范、应用安全规范、存储过程规范、分表规范、应用规范、配置规范、建表规范、命名规范、索引规范配置规范:(1)MySQL数据库默认使用InnoDB存储引擎(2)保证字符集设置统一,MySQL数据库相关系统、数据库、表的字符集都是用UTF8。表情类的数据需要使用UTF8MB4进行存储。(3)默认的事务隔离级别是RR(Repeatable -R...

2019-11-11 20:59:27 249

原创 MySQL中的七种join理论

1、左连接(得到左表的全部数据)select * from A left join B on A.key=B.key;2、右连接(得到右表的全部数据)select * from A right join B on A.key=B.key;3、内连接(得到交集部分数据)select * from A inner join B on A.key=B.key;4、仅在左表的数据sel...

2019-11-06 23:13:28 244

原创 Pandas的主要模块

转自公众号数据分析1480,作者刘顺祥数据读写pd.read_csv:读取文本文件(csv、tsv、txt等格式)pd.read_excel:读取电子表格(xls或xlsx格式)pd.read_csv:读取数据库数据(需要pymysql或pymssql模块的配合)df.to_csv:写入文本文件(df为DataFrame对象)df.to_csv:写入电子表格df.to_csv:写入数...

2019-09-18 19:23:16 281

原创 数据仓库与联机分析处理

数据仓库与联机分析处理数据仓库是面向主题的、集成的、时变的和非易失的有组织的数据集合,支持管理决策制定。有一些要素区别数据仓库与操作数据库。由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。面向主题的(subject-oriented):数据仓库围绕一些重要的主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常...

2019-09-16 23:17:50 1148

原创 数据预处理

摘自数据挖掘-概念与技术数据预处理数据质量:准确性、完整性、一致性、时效性、可信性和可解释性质量基于数据的应用目的评估。方法数据清理:试图填补缺失值,光滑噪声同时识别离群点,并纠正数据的不一致性。通常是一个两步的迭代过程,包括偏差检测和数据变换。如何处理缺失值1.使用一个全局常量来填充缺失值:简单但不是十分可靠2. 使用他属性的中心度量(如均值或中位数)填充缺失值:对于对称的数据...

2019-09-14 23:47:30 396

原创 认识数据

摘自数据挖掘-概念与技术中心趋势度量:均值、中位数和众数截尾均值:丢弃高低极端值后的均值。对于非对称数据,数据中心的更好度量是中位数众数是另一种中心趋势度量。众数是数据集中出现最频繁的值。中列数是最大值与最小值的平均值。评估数据发散程度:极差、四分位数、方差、标准差和四分位数极差极差是最大值与最小值之差;四分位数是指将数据分成均匀四份。四分位数极差(IQR)是Q3-Q1;对倾斜(...

2019-09-13 23:12:04 392

原创 十分钟入门pandas

对象创建通过传入一些值来创建一个Series,pandas会自动创建一个默认的整数索引(从0开始)pd.Series([1,3,5,np.nan,6,8])----------0 1.01 3.02 5.03 NaN4 6.05 8.0dtype: float64通过传递带有日期时间索引和带标签列的NumPy数组来创建DataFra...

2019-09-13 15:38:14 216

原创 数据分析汇总(NumPy篇)

数据分析什么是数据分析?数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。使用python做数据分析的常用库numpy 基础数值算法scipy 科学计算matplotlib 数据可视化pandas 序列高级函数numpy概述Numerical P...

2019-09-12 14:26:44 1215

原创 pandas简介

转自pandas中文网以下是 pandas 做够胜任的一些事情:在浮点和非浮点数据中轻松处理缺失数据(表示为NaN)。大小可变性:可以从DataFrame和更高维度的对象中插入和删除。自动和显式数据对齐:对象可以明确地与一组标签对齐,或者用户可以简单地忽略标签,让Series,DataFrame等在计算中自动对齐数据强大,灵活的**组(group by)**功能,可对数据...

2019-09-12 10:39:25 219

原创 Python语言特性

1、迭代器与生成器&nbsp迭代器是遵循迭代协议的对象,用户可以使用iter()以从任何序列得到迭代器(如list,tuple,dictionary,set等)&nbsp生成器(Generator),只是在需要返回数据的时候使用yield语句。每次next()语句被调用时,生成器会返回它脱离的位置(它会记忆语句最后一次执行的位置和所有的数据值。)生成器能做到迭代器能做的所有事...

2019-09-11 15:33:03 176

原创 numpy、pandas基础补充

三层结构容器层:canvas、figure、axes画板层(canvas):用户接触不到画布层(figure):plt.figure(figsize=(),dpi=) figsize:画布大小 dpi:清晰度plt.savefig('文件名'):以文件名的形式保存一个画布可以包含多个绘图区绘图区(axes):plt.subplots()辅助显示层:图例(legend)、网...

2019-09-10 09:24:07 724

原创 验证码的识别

利用OCR技术识别图形验证码的方法OCR,即Optical Character Recognition,光学字符识别是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则字符,这些字符确实是由字符稍加扭曲变换得到的内容。tesserocr是Python的一个ocr识别库,但其实是对tesseract做的一层python API封装,所以它的核心是tes...

2019-09-01 21:40:00 163

原创 关于Selenium的延时等待

在Selenium中,get()方法会在网页框架加载结束后结束执行。此时如果获得网页源代码,可能并不是浏览器完全加载完成的页面,如果某些页面有额外的Ajax请求,我们在网页源代码中也不一定能成功获取到。所以需要延时等待一定的时间,确保节点已经完全加载出来。这里的等待方式有两种,一种是隐式等待,一种是显式等待。隐式等待当使用隐式等待执行测试的时候,如果Selenium没有在DOM中找到节点将继...

2019-09-01 11:18:34 892

原创 css 选择器

https://www.runoob.com/cssref/css-selectors.htmlcss选择器用于选择你想要的元素的样式的模式。.intro:选择所有class='intro'的元素#firstname:选择所有id=‘firstname’的元素*:选择所有元素p:选择所有<p>元素div,p:选择所有<div>元素和<p>元素div...

2019-08-31 21:20:51 254

原创 Python一些字符串方法

1、center()对一个字符串进行对齐。使用指定的字符进行对齐(默认为空白)。语法:str.center(length,fillchar)length是字符串的长度(必需参数)fillchar是指定填充的字符(可选参数)2、count()返回一个特定值在字符串中出现的次数。语法:str.count(value,start,end)value是待搜索的目标子串(必需参数)start、...

2019-08-30 18:51:09 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除