随缘zzz-CSDN博客

原创 mysql进阶，索引的基础和优化

mysql优化索引是什么：排好序的快速查找数据结构索引语句：创建CREATE INDEX indexName ON mytable(columnname(length));ALTER mytable ADD INDEX ON (columnname(length))删除DROP INDEX ON mytable;显示SHOW INDEX FROM table_name需要创建索引的情况：主键自动建立唯一索引频繁作为查询条件的字段应该创建索引查询中与其他表关联的字段，外键关系建立索

2020-06-13 14:40:39 200

原创 Flume几个常见业务的配置文件信息（复制后注意修改主机名和路径）

使用 Flume 监听一个端口，收集该端口数据，并打印到控制台添加内容如下：a1.sources = r1a1.sinks = k1a1.channels = c1#配置source代码块#sources类型a1.sources.r1.type = netcat#主机名a1.sources.r1.bind = localhost#端口号a1.sources.r1.port = 44444#sink类型a1.sinks.k1.type = logger#channel配置

2020-06-06 15:43:07 347

原创 hive操作用到MR时卡住问题的原因和解决方法

hive操作用到MR时卡住问题的原因和解决方法：原因：在配置hadoop时yarn nodemanager时没有配置内存，或者配置的内存不够导致运行到MR任务时卡住不动了解决方法：在yarn-site.xml中设置内存大小<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>20480</value> </proper

2020-06-03 11:31:50 1938

原创 hive分区的概念以及操作方法

hadoop生态组件之hivehive处理的数据是存储在HDFS中hive分析数据底层的默认实现是mapReduce执行程序运行在Yarn上在开启hive之前一定要先开启hdfs和yarnhive的分区概念：hive分区按照设置的分区字段，将一个大的数据集根据业务需要分割成小的数据集，在查询时通过WHERE子句中的表达式选择查询所需要指定的分区，这样的查询效率会提高很多。分区的操作流程：1.创建分区表（分区属性可以自定义，相当于在原表的基础上添加一个特殊标识的字段）create table

2020-06-01 11:20:53 636

原创自定义OutputFormat的使用方法

自定义OutputFormat使用为了实现控制最终文件的输出路径和输出格式，可以自定义OutputFormat.自定义OutFomat步骤1)A定义类继承FileOutputFormat，返回B自定义类2)B自定义类继承RecordWriter类,重写write()方法实现业务逻辑。先继承FileOutFormat,返回FRecordWriterpublic class FileterOutputFormat extends FileOutputFormat<Text, NullWrita

2020-05-30 15:34:52 1140

原创 GroupingComparator分组排序使用

GroupingComparator分组（辅助排序）对Reduce阶段的数据根据某一个或几个字段进行分组。分组排序步骤：1.自定义类继承WritableComparator2.重写compare()方法@Overridepublic int compare(WritableComparable a, WritableComparable b) {// 比较的业务逻辑 return result;}3.创建一个构造将比较对象的类传给父类protected OrderGroupingCo

2020-05-30 14:55:02 336

原创 hadoop中的Combiner合并操作

Shuffle中的Combiner合并Combiner父类是ReducerCombiner是在每一个MapTask所在的节点运行，Reducer是接收全局所有Mapper的输出结果Combiner能够应用的前提是不能影响最终的业务逻辑，在累加的情形下使用，但求平均值的时候不能使用combinerCombiner的实现过程1.自定义一个Combiner继承Reducer，重写Reduce方法public class WordcountCombiner extends Reducer<Text

2020-05-30 14:29:19 336

原创 Shuffle过程中重要的WritableComparable排序入门

WritableComparable排序MapTask和ReduceTask均会对数据按照key进行排序，改操作属于hadoop的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序按照字典顺序排序，且实现该排序的方法是快速排序。自定义排序WritableComparable当bean对象作为key传输，需要实现WritableComparable接口序列化过程：//反序列化 @Override public void readFields(DataInput in)

2020-05-29 11:17:49 180

原创 Shuffle中的Partition分区（入门）

Partition分区：分区运行时间是在map后reducer前。解决如：要求将统计结果按照条件输出到不同文件中。此类问题。默认分区：自定义Partitionner步骤自定义的类继承Partitioner,重写getPartition()方法//前两个参数是map输出的K,V，最后一个参数是设置分区的数量，在Driver中设置public int getPartition(Text key, FlowBean value, int numPartitions) { //里面是控制分区的

2020-05-29 10:36:56 1308

原创 linux学习之用户与用户组的基本命令

关机&重启命令shutdown –h now 立该进行关机shudown -h 1 “hello, 1 分钟后会关机了”shutdown –r now 现在重新启动计算机halt 关机，作用和上面一样.reboot 现在重新启动计算机sync 把内存的数据同步到磁盘.在提示符下输入 logout 即可注销用户用户管理添加用户基本语法useradd 用户名细节说明...

2020-05-05 21:40:02 236

原创 linux学习之目录结构

具体的目录结构:/bin [重点] (/usr/bin 、 /usr/local/bin)• 是Binary的缩写, 这个目录存放着最经常使用的命令/home [重点]• 存放普通用户的主目录，在Linux中每个用户都有一个自己的目录，一般该目录名是以用户的账号命名的。/root [重点]• 该目录为系统管理员，也称作超级权限者的用户主目录。/sbin (/usr/sbin 、 /...

2020-05-05 21:31:33 136

原创 Centos三种网络连接方式的不同

桥连接, Linux可以和其它的系统通信。但是可能造成ip冲突2.NAT：网络地址转换方式: linux可以访问外网，不会造成ip冲突。主机模式：你的 linux是一个独立的主机，不能访问外网...

2020-05-05 21:25:50 729

原创用java生成验证码（新手）

这个类用来生成图片验证码import java.awt.BasicStroke;import java.awt.Color;import java.awt.Font;import java.awt.Graphics2D;import java.awt.image.BufferedImage;import java.io.IOException;import java.io.Outpu...

2020-04-29 20:51:32 276

原创登录模块的设计思路（新手）

*登录模块的思路login.jsp（登录的主页）: 提供登录的表单，将表单的信息请求LoginServletLoginServlet（登录的Servlet）:获取请求参数，校验用户是否登录成功失败：保存错误信息到request域中，转发到login.jsp页面（login.jsp显示request域中的错误信息）成功：保存用户信息到session域中(为了验证其他页面是否登录了)，重定...

2020-04-28 22:22:53 2406

原创 JDBC小白

标题 JDBC小白基础java连接mysql关键步骤：1.导入mysql-connector-java-5.1.7-bin.jar包2.利用反射加载Driver类3.配置好数据库名，密码，url其中mysql的url的格式固定为jdbc:mysql://localhost:3306/数据库名4.建立连接这样，就可以成功连接上数据库了JDBC的操作数据库增删改查查询：使用pr...

2020-04-27 22:46:08 172

weixin_44122269的博客