ETL工具大全
文章平均质量分 83
...
研发咨询顾问
专注全栈开发和项目管理,诚接商务\业务合作,及问题难点解答和远程协助! 可私信或留言给作者,消息会在6小时内回复哦 (每篇文章末尾有作者名片,可添加联系,秒通过)
展开
-
ELK-Logstash安装和语法
首先将数据传给logstash,它将数据进行过滤和格式化(转成JSON格式),然后传给Elasticsearch进行存储、建搜索的索引,kibana提供前端的页面再进行搜索和图表可视化,它是调用Elasticsearch的接口返回的数据进行可视化。是标准输入,output{stdout{codec=>rubydebug}}' 是标准输出,codec模式是rubydebug,这个是编码的过程(这个过程中可能内存不足,导致启动异常)。(4)tags: 则是在数据处理过程中,由具体的插件来添加或者删除的;原创 2023-05-11 10:10:13 · 118 阅读 · 0 评论 -
ELK-Logstash文件配置
Grok 是 Logstash 最重要的插件之一。注释 /softWare/exercise/tmp/%{+yyyy}/%{+MM}/%{+dd}/%{host}.log 是一个保存输入内容的文件路径,custom format: %{message} 文件的内容格式。( --path.data=/softWare/exercise/tmp/ 如果有缓存对象的存在报错,就指定下路径)。( --path.data=/softWare/exercise/tmp/ 如果有缓存对象的存在报错,就指定下路径)。原创 2023-05-11 10:07:48 · 299 阅读 · 0 评论 -
kettle-Transform(数据流)和job任务流
数据流)保存的文件后缀是保存的文件后缀是 .ktr按住shfit建+拖拽即可画出线按住shfit建+鼠标左键拖动会箭头。原创 2023-05-11 10:06:32 · 290 阅读 · 0 评论 -
Sqoop配置导入和导出使用(超级详细)
在Sqoop中,“导入”概念指:从非大数据集群(RDBMS:关系数据库管理系统)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。)在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集(RDBMS)中传输数据,叫做:导出,即使用export关键字。如果query后使用的是双引号,则$CONDITIONS前必须加转移符,防止shell识别为自己的变量,最好使用单引号。如果导出的时候出现乱码,可以进行临时装换。原创 2023-05-11 09:44:57 · 900 阅读 · 0 评论 -
Flume自定义拦截器(过滤)配置
一个典型的例子就是利用flume从一组web服务器中收集日志文件,然后把这些文件中的日志事件转移到一个新的HDFS汇总文件中以做进一步的处理,所以flume的终点sink一般是HDFS,当然因为flume本生的灵活性,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。)自定义类,目标:字母小写变大写,然后打成jarb包,上传到linux的flume或flume/lib文件夹下。该类是没main方法的,直接打包放在集群,底层代码会自动调用。获取事件对象中的字节数据。原创 2023-05-11 09:38:35 · 487 阅读 · 0 评论 -
Flume拦截器过滤配置(全网最详细)
监控目录面的不要修改内容 , 一旦监控过后就不会在监控了,所以最好使用在新创建一个文件里面创建新内容,而监控文件可以使用追加内容,而监控目录不支持追加内容。*表示匹配前面的字符多次。命令 mv flume-env.sh.template flume-env.sh。命令 mv flume-env.sh.template flume-env.sh。命令 mv flume-env.sh.template flume-env.sh。命令 mv flume-env.sh.template flume-env.sh。原创 2023-05-10 16:17:37 · 850 阅读 · 0 评论 -
Flume正则表达式(可参考)
例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围;如果出字符组的开头,则只能表示连字符本身.如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。匹配指定范围内的任意字符。例如,“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符。例如,zo*能匹配“z”,“zo”以及“zoo”。原创 2023-05-10 16:15:05 · 168 阅读 · 0 评论 -
Flume散出散入采集配置(超级详细)
目标:使用flume1监控文件变动,flume1将变动内容传递给flume-2,flume-2负责存储到HDFS。)目录:flume11监控文件hive.log,flume-22监控某一个端口的数据流,flume11与flume-22将数据发送给flume-33,flume33将最终数据写入到HDFS。目标:用于接收flume1的event,同时产生1个channel和1个sink,将数据输送给hdfs。分别开启对应flume-job(依次启动flume1,flume-2,flume-3)原创 2023-05-10 16:14:25 · 89 阅读 · 0 评论 -
Flume内部组件结构介绍
source监控某个文件或数据流,数据源产生新的数据,拿到该数据后,将数据封装在一个Event中,并put到channel后commit提交,channel队列先进先出,sink去channel队列中拉取数据,然后写入到HDFS中。用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel,这个有点类似于Java IO部分的Channel。提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。原创 2023-05-10 16:03:28 · 220 阅读 · 0 评论