自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 资源 (2)
  • 收藏
  • 关注

原创 安装、启动和登陆doccano

3)将python安装位置的Dell文件夹下的sqlite3.dll替换为刚刚下载的官网的版本。4)如果还不行,则打开python安装文件夹下manage.py所在的位置,运行如下命令。登陆doccano时,明明账户密码是按照之前设定的输入的,但一直提示账户密码错误。1、在一个Terminal终端启动webserver服务。1、使用的Pycharm安装的doccano。2、在另一个Terminal终端启动队列。2)登录到sqlite的官方下载地址。,下载对应的sqlite3.dll。3、创建用户名和密码。

2023-04-16 14:55:16 1203

原创 Linux 定时任务 crontab

Linux 定时任务 crontab

2022-10-24 10:57:59 3659

原创 python解压rar文件

python解压rar文件,并处理报错

2022-10-17 10:56:48 1346

原创 从零开始学Shell - Hive示例

更多请参考:https://blog.csdn.net/zhsworld/article/details/119964283kinit -kt /home/demo/xxx.keytab xxx@xxx# 按照时间顺序,从距离今天的第30天开始,一直循环查询到距离今天的第10天for((i=30;i>=10;i--))do # 获取日期参数 day_day=`date -d "-$i day" +%Y%m%d` # sql语句 hql_demo=" set hive.

2021-09-07 12:06:33 192

原创 从零开始学Shell - 完整的示例

1 创建目录命令基本格式:mkdir [-mp] 目录名-m 用于手动配置目录的权限关于目录权限可参考:https://www.cnblogs.com/sxdcgaq8080/p/7498906.html-p 用于递归创建所有目录以创建 /learn/demo/test为例,在默认情况下,需要一层一层的创建各个目录,而使用 -p 选项,则系统会自动创建 /learn、/learn/demo、/learn/demo/test。关于目录的更多操作:https://www.runoob.c.

2021-08-31 17:41:02 341

原创 Hive自定义函数 - Java的一个例子

一 需求对手机号进行脱敏处理,将中间4位数字替换成****对数据格式进行判断:11位数字 对于格式正确的数据,将中间4位数字替换成**** 对于格式不正确的数据,将原始数据返回二 Java实现1 步骤概览2 代码实现2.1三 Python实现...

2021-08-30 09:39:01 401

原创 hive复合类型:array、map、struct

一 基本概念类型 描述 语法 举例 array 一组相同类型数据的集合 ARRAY<data_type> 如果数组值为[‘John’, ‘Doe’],那么第2个元素可以通过数组名[1]进行引用 map 一组键-值对数据的集合,使用key可以访问值 MAP<primitive_type, data_type> 如果某列的数据类型是MAP,其中键->值对是’first’->’John’和’last’->’

2021-08-24 14:31:45 446

原创 Java基础笔记_12_构造函数

一 什么是构造函数Java构造函数(Constructor),也叫构造方法,是JAVA中一种特殊的函数。一般用来初始化成员属性和成员方法的,即new对象产生后,就调用了对象的属性和方法。而一般函数是对象调用才执行,用 ".方法名" 的方式,给对象添加功能。一个对象建立,构造函数只运行一次。而一般函数可以被该对象调用多次。 构造方法的方便之处在于可以省去逐个属性用setter和getter函数构造与获取的麻烦,而且还不用返回,赋完值就可以结束了二 构造函数的特点函数名与类名相同.

2021-08-13 17:08:17 106

原创 Java基础笔记_11_集合框架

一 怎么理解泛型泛型机制将类型转换时的类型检查从运行时提前到了编译时,使用泛型编写的代码比杂乱的使用object并在需要时再强制类型转换的机制具有更好的可读性和安全性。泛型的本质是参数化类型,也就是说在泛型使用过程中,操作的数据类型被指定为一个参数。类似于方法中的变量参数,此时类型也被定义为参数形式(可称为类型形参),然后在使用/调用时传入具体的类型(可称为类型实参)。这种参数类型可以用在类、接口和方法中,分别被称为泛型类、泛型接口、泛型方法。泛型的好处有:1 模版性,适用于多种数据...

2021-08-13 14:57:41 160

原创 Java基础笔记_10_常用类_包装类_Math 类_日期时间类

一 包装类1、基本数据类型是不具备对象的特性的,比如不能调用方法。为了让基本数据类型也具备对象的特性, Java为每个基本数据类型都提供了一个包装类基本类型 包装类 boolean Boolean char Character byte Byte short Short int Integer long Long float Float double Double 2、包装类提供将基本数据类型、包装类、字符串

2021-08-09 17:29:43 85

原创 Java基础笔记_9_常用类_String_StringBuilder

一String类1 创建String对象的方式// 先在栈中创建一个对String类的对象引用变量str,然后查找栈中有没有存放"张三"// 如果没有,则将"张三"存放进栈,并令str指向"张三"// 如果已经有"张三",则直接令str指向“张三”String str1 = "张三";// 用new()新建的对象会在存放于堆中。每调用一次new()就会创建一个新的对象。String str2 = new String("张三");String str3 = new String().

2021-08-09 16:03:37 89

原创 Hive 实战调优参数大全

-- 开启动态分区,写入数据时需要set hive.optimize.sort.dynamic.partition=true;-- 默认值是strict,默认要求分区字段必须有一个是静态的分区值set hive.exec.dynamic.partition.mode=nonstrict;-- 控制在同一个sql中的不同的job是否可以同时运行。默认是Falseset hive.exec.parallel=true;-- 同一个sql允许并行任务的最大线程数。默认是8set hive.ex.

2021-08-09 13:02:12 769

原创 Java基础笔记_7_包_封装_继承_多态

一 包一个java包就是一组功能相似或相关的类包对于类,相当于文件夹对于文件的作用 通过包可以限定类的访问权限 通过包可以很容易对解决类重名的问题二 封装1 封装即隐藏功能的实现细节提高代码的安全性 提高代码的复用性 “高内聚”:封装细节,便于修改内部代码,提高可维护性 “低耦合”:简化外部调用,便于调用者使用,便于扩展和协作2 this关键词this代表“当前对象”this.属性名称指的是访问本类中的成员变量,用来区分成员变量和局部变量(重..

2021-08-09 00:04:30 166

原创 Java基础笔记_8_常用类_ArrayList

一 基本语法ArrayList是可以动态增长和缩减的索引序列,它是基于数组实现的List类。List <集合存储的数据类型> 变量名 = new List<集合存储的数据类型>();二 基本功能array.add(index,object); //增。添加一个元素array.remove(index);//删。移除一个元素array.set(index,object);//改。设置一个元素array....

2021-08-08 23:07:17 118

原创 Java_静态(Static)

一 基本特征静态(Static)的意义:即使没有创建对象,也能使用属性和调用方法静态的内存是固定的,相对来说省资源;新建一个实例,就要新开辟一个内存,耗费资源二 静态变量:在类加载的时候就加载到方法区,而且在方法区会被赋予有默认值静态变量是先于实例化对象出现的,故习惯上用类名来调用非静态变量必须在实例化之后才能分配内存,才可调用静态方法属于类所有,类实例化前即可使用。静态方法只能访问类中的静态成员,非静态方法可以访问类中的任何成员static内部只能出现stat

2021-08-08 18:36:35 109

转载 Java虚拟机(JVM)

(14条消息) Java虚拟机(JVM)你只要看这一篇就够了!_Java笔记-CSDN博客_jvm(14条消息) Jvm系列-Jvm概述(一)_理科男同学-CSDN博客_jvm

2021-08-08 14:13:00 97

原创 Java基础笔记_6_类和对象_成员变量

一 类和对象类是抽象的概念,是对象的模板对象是具体的事物,是类的具体实例创建类的语法public class 类名{// 类内容}创建对象的语法new 关键字就是实例化对象的意思。“从类(class)创建(实例化)具体的对象(object)”类名 对象名 = new 类名();二 成员变量成员变量就是隶属于对象的变量,在类的范围内定义成员变量用来保存对象的静态特征同类型的不同对象拥有相同的成员变量,但值相互独立成员变量包括类变量(sta.

2021-08-07 17:30:03 265

原创 Java基础笔记_5_数组

第5.1章 数组基础1 声明一个数组就是在内存空间中划出一串连续的空间数组长度一旦声明,不可改变不可追加数组元素具有相同的数据类型数组元素在内存中连续分布2声明一个int类型的数组 // 数据类型[ ] 数组名;int[ ] arr; // 首选// 数据类型 数组名[ ];int arr[ ]; //也可以这样3给数组分配空间arr=new int[5];4给数组赋值arr[0]=1; //0代表的是数组的第1个元素 ,元素下标为0arr...

2021-08-07 10:45:09 176

原创 Java基础笔记_4_方法

一 方法的定义访问修饰符 返回值类型 方法名(参数列表){方法体}访问修饰符:方法允许被访问的权限范围。可以是 public、protected、private或者省略可被访问范围 所在类 同一包内其他类 其他包内子类 其他包内非子类 private 可以 不可以 不可以 不可以 缺省 可以 可以 不可以 不可以 protected 可以 可以 可以 不可以 publi...

2021-08-06 16:37:06 121

原创 Java基础笔记_2_运算符

一 运算符分类算术运算符 二元运算符 +,-,*,/,% 一元运算符 ++,-- 赋值运算符 = 扩展运算符 +=,-=,*=,/= 关系运算符 >,<,>=,<=,==,!= instanceof 逻辑运算符 &&,||,!,^ 位运算符 &,|,^,~ , >>,<<,>>> 条件运算符 ? : 字符串连接符 +...

2021-08-05 16:38:00 118

原创 Java基础笔记_1_注释_标识符_变量_数据类型_常量

目录一 注释二 标识符三 关键字四 变量五 数据类型六 常量七 命名规范一 注释在Java中,注释主要分为:单行注释、多行注释和文档注释/** * 我是文档注释 * Welcome类 * @author 小白菜_scc * @version 1.0 */public class Welcome { //我是单行注释 public static void main(String[] args){ System.out.pr

2021-08-05 15:50:41 119

转载 MapReduce Shuffle 参数调优【转载】

Map阶段-- 环形缓冲区大小,默认100m set mapreduce.task.io.sort.mb = 200;-- 环形缓冲区溢写阈值,默认0.8 -->set mapreduce.map.sort.spill.percent = 0.9;-- merge合并次数,默认10个 -->set mapreduce.task.io.sort.factor = 20;-- maptask内存,默认1g; maptask堆内存大小默认和该值大小一致mapreduce.m

2021-08-02 15:56:50 533

原创 Hive优化笔记(3 - 一些参数)

动态分区-- 开启动态分区。默认值是Falseset hive.exec.dynamic.partition=true; -- 默认值是strict,默认要求分区字段必须有一个是静态的分区值set hive.exec.dynamic.partition.mode=nonstrict;-- 一个DML操作可以创建的最大动态分区数,默认是1000set hive.exec.max.dynamic.partitions=100000; -- 每个节点生成的动态分区的最大个数。默认值是默认100

2021-08-01 22:57:31 449

原创 Hive优化笔记(2 - 数据倾斜)

一 基本概念简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少。默认情况下, Map 阶段同一 Key 数据分发给一个 reduce,当一个 key 数据过大时,就发生倾斜了数据倾斜一般有两种情况:变量值很少:单个变量值的占比极大,常见的字段如性别、学历、年龄等变量值很多:单个变量值的占比极小,常见的字段如收入、订单金额之类的其在reduce的表现有二:① 任务进度长时间维持在99%,只有少量reduce子任务未完成。这是因为其处理的数据量和其他reduce..

2021-08-01 19:31:33 233

原创 Hive优化笔记(1 - 非数据倾斜)

最重要的:查看SQL的执行计划,优化业务逻辑 explain sql语句;列裁剪和分区裁剪列裁剪就是在查询时只读取需要的列,这样可以避免全列扫描分区裁剪就是只读取需要的分区,这样可以避免全表扫描谓词下推其基本思想是将过滤表达式尽可能移动至靠近数据源的位置,以使真正执行时能直接跳过无关的数据。在HiveSQL中,就是将where谓词逻辑都尽可能提前执行本地模式(local mode)在数据量较小的情况下,hive本地模式可提高查询效率。原因是一般情况下,hive...

2021-08-01 19:31:04 176

原创 Hive数据压缩_MR数据压缩_存储数据压缩

一 MR数据压缩Hadoop三大核心:HDFS(负责存储)、MapReduce(负责计算)、Yarn( 负责调度计算)Hive基于HDFS存储,Hive计算是将Hql语句转换为MR任务,而MR任务可以对处理的数据进行压缩。所以所谓Hive数据压缩就是MR数据压缩1、基本含义MR压缩:通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘IO,提高MR程序运行速度,但相应增加了cpu运算负担压缩特性运用得当能提高性能,但运用不当也可能降低性能。其基本原则是:运算密.

2021-07-31 22:37:30 278

原创 Hive 自定义函数 - Java和Python的详细实现

一 写在前面Hive的自定义函数(User-Defined Functions)分三类:UDF:one to one,进一出一,row mapping。是row级别操作,类似upper、substr等 UDAF:many to one,进多出一,row mapping。是row级别操作,类似sum、min等 UDTF:one to many ,进一出多。类似:alteral view与explode实现的一行变多行接下来写一个统计统计字段长度的UDF二 JAVA实现1、UDF函..

2021-07-30 19:35:36 960

转载 机器学习「输出概率化」:一种无监督的方法

以常见的二分类问题为例,工具库的输出结果为[0,1]或者[-1,1],分别代表不同的两个类别(如正例和反例)。困扰初学者的一个问题是:模型输出的结果0和1是如何得到的?模型的原始输出结果是什么?这个问题的答案是:不同模型的原始输出各不相同,比如K-近邻的输出结果应该是K个最近邻的所对应的标签的平均数(或是以反向距离为权重的加权平均),而逻辑回归的输出结果可以被直接理解为概率,在[0,1]之间。尽管像sklearn一样的工具库为大部分监督算法都提供了概率输出,但大部分模型的原始输出结果其实都不是0或者1。

2021-04-15 16:29:23 783

原创 【linux 基础命令】文档创建、编辑、保存和删除

1、创建文件touch test.py2、打开文件vi test.py3、编辑文件按【insert】键进入编辑模式,可编辑文件4、退出编辑模式,进入命令模式按【ESC】键5、保存文件先输入如下命令,再按【Enter】键:wq:(英文冒号):代表进入了底线命令模式 w:保存文件 q :退出程序6、删除文件rm [-fir] 文件或目录-f :就是 force 的意思,忽略不存在的文件,不会出现警告信息; -i :互动模式,在删除前会询问使用者

2021-04-09 13:01:09 1108

原创 Anaconda 下载、安装与环境配置

一 下载建议使用国内的清华镜像,速度快https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/二 安装除如下两处外,直接点击下一步即可三 环境配置此电脑——右键属性——高级系统设置——环境变量——path——编辑——新建四 检查是否安装成功...

2021-02-25 22:23:14 453

原创 在 Surface 或 Windows 10 中启用和禁用触摸屏

在任务栏上的搜索框中,键入“设备管理器”,然后选择“设备管理器”。 选择“人体学接口设备”旁边的箭头,然后选择“符合 HID 标准的触摸屏”。(可能会列出多项。) 在窗口顶部,选择“操作”选项卡。选择“禁用设备”或“启用设备”,然后确认。如果列出了多个符合 HID 标准的触摸屏设备,请也为该项执行步骤 2-3。...

2020-06-05 14:44:12 40921

原创 python pandas 读取 excel 报错提示“\u202a” 的解决方法

代码import pandas as pdpath_keliu = "C:/Users/Desktop/keliu.xlsx"file_keliu = open(path_keliu,"rb")df_keliu = pd.read_excel(file_keliu,sheet_name="Loc_Map")print(df_keliu)报错信息OSError: [Errno 22] Invalid argument: '\u202aC:/Users/Desktop/test.xl.

2020-05-31 09:52:41 1941

转载 静态变量(类变量)和非静态变量(成员变量、实例变量)的区别

由static修饰的变量称为静态变量,其实质上就是一个全局变量。如果某个内容是被所有对象所共享,那么该内容就应该用静态修饰;没有被静态修饰的内容,其实是属于对象的特殊描述。不同的对象的实例变量将被分配不同的内存空间, 如果类中的成员变量有类变量,那么所有对象的这个类变量都分配给相同的一处内存,改变其中一个对象的这个类变量会影响其他对象的这个类变量,也就是说对象共享类变量。成员变量和类变量的区别: 1、两个变量的生命周期不同 成员变量随着对象的创建而存在,随着对象的回收而释放。...

2020-05-26 09:21:38 2387

转载 静态方法和实例方法究竟有什么区别

什么是静态方法?什么是实例方法?静态方法: 静态方法属于类,通过 类名.方法名(参数)调用。 静态方法里不能直接访问非静态成员。实例(非静态)方法: 实例方法属于对象,通过 实例对象.方法名(参数)调用。 实例方法可以直接访问静态成员。 实例方法中可以使用对象专属this、super关键字指向调用对象本身、父类。区别在哪?静态方法与实例方法的加载期区别: jvm只有一个堆区(heap)被所有线程共享,堆区中有一块特殊区域叫方...

2020-05-26 09:14:52 274

原创 java入门小记_小编码_一

1 if 条件判断 && while 循环判断一个数(小于10位)的位数。例如:输入999,则输出 “它是个3位的数!”注意:0不是一位数public class HelloWorld{public static void main(String[] args){int num = 999;int count = 0;if (num>=0 && num<=999999999){while(num !=0 ){ count ++

2020-05-17 18:46:33 149

原创 Hive 统计连续天数

第一步:创建表-- 创建表create table if not exists continue_days(uid int comment '员工id',tdate string comment '打卡日期',is_flag int comment '是否打卡')comment '打卡表'row format delimited fields terminated by ','...

2020-04-14 22:15:22 1822

原创 Hive存储原理,数据库/表基本操作

官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual一 数据存储Hive 数据分两部分:一部分是真实的数据文件,存放在hdfs上;另一份是真实数据的元数据(即数据的描述信息,比如说存储位置、时间、大小等),存储在关系型数据库中(如:mysql),存放的配置可以修改hive-site.xml来完成只需...

2020-04-06 21:26:04 742

转载 关于某解析站的无限Debugger的分析

目标网站aHR0cDovL3FxZTIuY29tL1ZpZGVvL2RlZmF1bHQuaHRtbA==今天要分析的是一个视频解析网站,这一类网站大多都是借用别人写好的视频解析接口,再套上自己的 UI 就是一个新的解析站了,所以有时候解析服务一挂,很多类似的网站都用不了,而且这类解析的网站一般都有法律风险,不建议私自搭建(律师函警告)我们今天主要是分析这个网站的反爬措施,看下有...

2020-03-04 19:48:47 1136

原创 SQL习题集_详细注释版答案

一、准备工作1 环境MySQL 5.7.28 + Ubuntu18.04.42 登录MySQL-- Terminal下输入mysql -uroot -p3 数据库操作-- 创建数据库 practice-- character set 用来指定编码格式,方便之后插入中文create database practice character set utf8;-...

2020-03-02 13:04:57 1093

原创 MySQL5.7中英对照文档_用户变量 User-Defined Variables

You can store a value in a user-defined variable in one statement and refer to it later in another statement. This enables you to pass values from one statement to another.可以先在一个语句中保存用户变量的值,然后再另一个语句中...

2020-02-27 20:24:54 1057

xadmin_Django2.2.rar

Xadmin是比Django自带后台管理系统更好用的后台管理系统,但官方版本在适配Django2.2是会有角较多报错。本版是调整后的Xadmin,能完美适配Django2.2

2020-01-05

笔记相关的前端页面,请自取

前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例前端页面示例

2019-12-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除