2021年08月_编程写手

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Apache Spark：Task not serializable异常的排查和解决

1. 声明当前内容主要为排查在排序的时候Spark突然出现的java.io.NotSerializableException问题，以及解决思路2. 还原报错代码实体类：Userimport java.io.Serializable;public class User implements Serializable { /** * */ private static final long serialVersionUID = 1L; private Integer id; pri

2021-08-29 14:02:09 2934 2

原创 Apache Spark：主要使用理念

1. 声明当前内容主要为记录学习Learning Spark书籍中部分的内容，并作出使用上面的总结2. Spark的基本使用理念1.由于使用懒计算的方式，所以只有action的操作才会执行，transform操作不会执行2.使用数据的时候，如果当前的RDD未持久化或者缓存，那么每次action操作都会出现重头开始的计算，非常不高效3.Spark默认采用Scala语言编写，所以SparkContext就是scala的，java中需要使用JavaSparkContext4.基本所有的操作都是通过函数

2021-08-28 15:54:20 129

原创 Apache Spark：拉取iotdb的数据并导入到mysql中

当前spark版本：2.4.61. 声明当前内容主要为本人学习Spark的sql执行操作，实现数据获取和数据入库，当前内容参考：Spark官方文档2. pom依赖<dependencies>  <dependency> <groupId>org.apache.spark</groupId>

2021-08-22 13:12:26 1082

原创 Apache Kafka：开启单机版的RestApi

当前版本：kafka_2.12-2.8.0、CentOS71. 声明当前内容主要为本人学习和测试开启Kafka的RestApi的方式，当前内容参考官方文档2. 基本操作1.首先启动zookeeper，然后启动kafka2.开始配置当前的连接器vi config/connect-standalone.properties主要修改3.选择连接器这里选择的是：connect-console-sink.properties4.启动连接器(默认启动在8083端口)./bin/connect

2021-08-21 15:08:39 399

原创 Apache Kafka：集群的搭建和测试

当前版本：kafka_2.12-2.8.0、CentOS71. 声明当前内容主要为学习和使用Kafka搭建集群,当前内容借鉴官方文档官方文档描述如下：要想搭建集群，就必须配置相同的zookeeper地址，并且每个kafka的broker.id必须不相同，如果相同那么只能启动最开始的那个，另外一个启动失败！2. 搭建集群主机ip作用主机1192.168.1.101公用的zookeeper主机2192.168.1.102Kafka1主机3192.168.1.

2021-08-15 13:52:20 201

原创 CentOS7：内网中两台机器不能连接的问题(Destination Host Unreachable)，实际为AP隔离问题

1. 声明当前内容主要为记录解决内网中两台机器不可访问的问题，最终发现是路由器问题设置了AP隔离导致的2. 情况描述主机1为WIndow10机器，主机2和主机3为Linux CentOS7的机器主机1为：192.168.1.103主机2为：192.168.1.101主机3为：192.168.1.106其中使用主机1的putty连接了主机2和主机3的Linux，并可以正常访问主机2和主机3，使用ping也可联通，且主机2和主机3ping主机1时，主机1需要关闭防火墙，此时都是可以访问的问题

2021-08-15 13:08:23 2862

原创 Apache Kafka：使用java方式操作消费组和重置分区偏移量（admin api）

当前版本：kafka_2.12-2.8.01. 声明当前内容主要为本人学习和测试使用java方式操作消费组和重置分区偏移量,主要参考：Apache Kafka官方文档主要为：使用java方式实现增删查消费组使用admin api方式重置分区偏移量2. 准备条件使用命令行方式创建一个带分区的复制系数的topic：test./bin/kafka-topics.sh --create --topic test --replication-factor 1 --partitions 1 --

2021-08-14 15:28:52 2233 1

原创 Apache Kafka：使用java方式操作stream(实现官方的wordcount)

当前版本：kafka_2.12-2.8.01. 声明当前内容主要为使用kafka的stream实现官方的wordcount操作，并将结果输出到控制台，当前内容主要参考：官方文档2. 基本代码package com.hy.apache.kafka.start.api.streams;import java.util.Arrays;import java.util.Properties;import org.apache.kafka.common.serialization.Serdes;i

2021-08-08 17:06:02 532

原创 Apache Kafka：使用java和命令行方式操作topic（admin api）

当前版本：kafka_2.12-2.8.01. 声明当前内容主要为本人学习kafka的topic的增删改查操作，当前内容参考官方文档其中--bootstrap-server表示当前的kafka的地址和端口--topic指定的就是主题名称--create,--delete,--alter,--list/--describe表示各种操作2. 使用命令行的操作首先启动zookeeper，然后启动当前的kafka（当前kafka启动在192.168.1.105:9092）1.创建topic./

2021-08-08 16:57:52 423

原创 Elasticsearch之使用RestClient实现_sql查询

版本：elasticsearch 7.13.41. 声明当前内容主要为使用RestClient以及使用sql方式进行查询操作，主要参考官方文档主要使用_sql方式进行查询2. 主要demopublic static void main(String[] args) throws IOException { RestClient restClient = RestClient.builder(new HttpHost("localhost", 9200, "http")).build();

2021-08-01 13:21:24 1138 1

原创 Elasticsearch之使用RestClient实现null和非null的查询操作

版本：elasticsearch 7.13.41. 声明当前内容主要为使用RestClient实现对Elasticsearch的null字段和非null字段的查询当前内容基于前面的博文2. 更新字段并设置值为null更新属性并设置值为null之前的内容 private static void updateDataSetBookNameEqNull(RestClient restClient) throws IOException { Request request = new Reque

2021-08-01 12:01:31 960

原创 Elasticsearch之使用RestClient实现对数据的更新操作

版本：elasticsearch 7.13.41. 声明当前内容主要用于本人学习和测试Elasticsearch的对数据的更新操作，主要参考官方文档主要内容(JSON为fastjson的使用)：直接更新文档(更新文档中的所有数据)更新文档中的部分数据并发更新(基于if_seq_no=值&if_primary_term=值方式更新，非version)当前内容基于前面的博文2. 直接更新文档(该方法和add一样) /** * * @author hy * @creat

2021-08-01 11:51:23 801

原创 Elasticsearch之使用RestClient实现script、正则、count、source查询

当前版本elasticsearch 7.13.41. 声明当前内容主要为本人学习和使用RestClietn实现script、正则、count、source查询,主要参考：官方文档主要涉及使用script实现脚本查询使用正则进行匹配查询使用count查询文档数量使用source只查询返回的_source中的内容当前文章基于前面博文：Es操作2. 基本的script查询官方的：但是本人用postman的为： "query": { "bool": { "filt

2021-08-01 11:32:26 1204