Storm集群和集成

最新推荐文章于 2022-08-11 09:55:17 发布

hsiehchou

最新推荐文章于 2022-08-11 09:55:17 发布

阅读量209

点赞数

分类专栏：大数据 Storm 文章标签： Storm

本文链接：https://blog.csdn.net/xzddfgj/article/details/90732233

版权

大数据同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

Storm

3 篇文章 0 订阅

订阅专栏

一、Storm集群任务提交流程

Storm集群任务提交流程

二、Storm内部通信机制

Worker进程1

Worker

三、集成Storm

1、与JDBC集成

将Storm Bolt处理的结果插入MySQL数据库中
需要依赖的jar包
 $STORM_HOME\external\sql\storm-sql-core*.jar
 $STORM_HOME\external\storm-jdbc\storm-jdbc-1.0.3.jar
 mysql的驱动
 commons-lang3-3.1.jar
与JDBC集成的代码实现
 修改主程序WordCountTopology，增加如下代码：


 
 
  
  //创建一个JDBCBolt将结果插入数据库中

 
 
 
 
  
  builder
  
  .setBolt(
  
  "wordcount_jdbcBolt", createJDBCBolt())
  
  .shuffleGrouping(
  
  "wordcount_count");

增加一个新方法创建JDBCBolt组件


 
 
  
  //创建JDBC Insert Bolt组件

 
 
 
 
  
  //需要事先在MySQL数据库中创建对应的表，result

 
 
 
 
  
  private 
  
  static IRichBolt createJDBCBolt(){

 
 
 
 
  
      ConnectionProvider connectionProvider = 
  
  new 
  
  MyConnectionProvider();

 
 
 
 
  
      JdbcMapper simpleJdbcMapper = 
  
  new 
  
  SimpleJdbcMapper(
  
  "aaa", connectionProvider);

 
 
 
 
  
  

 
 
 
     
  
  return 
  
  new 
  
  JdbcInsertBolt(connectionProvider, simpleJdbcMapper).withTableName(
  
  "result").withQueryTimeoutSecs(
  
  30);

 
 
 
 
  
  }

 实现ConnectionProvider接口


 
 
  
  class MyConnectionProvider implements ConnectionProvider{

 
 
 
     
  
  private 
  
  static String driver = 
  
  "com.mysql.cj.jdbc.Driver";

 
 
 
     
  
  private 
  
  static String url = 
  
  "jdbc:mysql://192.168.116.121:3306/demo";

 
 
 
     
  
  private 
  
  static String user = 
  
  "root";

 
 
 
     
  
  private 
  
  static String password = 
  
  "password";

 
 
 
 
  
  

 
 
 
     
  
  //静态块

 
 
 
     
  
  static{
  
  //注册驱动

 
 
 
         
  
  try{

 
 
 
 
  
              Class.forName(driver);

 
 
 
 
  
          }
  
  catch(ClassNotFoundException e){

 
 
 
             
  
  throw 
  
  new ExceptionInInitializerError(e);

 
 
 
 
  
          }

 
 
 
 
  
      }

 
 
 
 
  
  

 
 
 
     
  
  @Override

 
 
 
     
  
  public 
  
  Connection getConnection(){

 
 
 
         
  
  try{

 
 
 
             
  
  return DriverManager.getConnection(url, user, password);

 
 
 
 
  
          }
  
  catch{

 
 
 
 
  
              e.printStackTrace();

 
 
 
 
  
          }   

 
 
 
         
  
  return 
  
  null;    

 
 
 
 
  
      }

 
 
 
     
  
  public 
  
  void cleanup(){}

 
 
 
     
  
  public 
  
  void prepare(){}

 
 
 
 
  
  }

 修改WordCountSplitBolt组件，将统计后的结果发送给下一个组件写入MySQL


 
 
  
  public 
  
  class WordCountSplitBolt extends BaseRichBolt {

 
 
 
     
  
  private Map<
  
  String, Integer> result = 
  
  new HashMap<
  
  String, Integer>();

 
 
 
     
  
  private OutputCollector collector;

 
 
 
 
  
      @Override

 
 
 
     
  
  public 
  
  void execute(Tuple tuple){

 
 
 
         
  
  String 
  
  word = tuple.getStringByField(
  
  "word");

 
 
 
         
  
  int count = tuple.getIntegerByField(
  
  "count");

 
 
 
 
  
  

 
 
 
         
  
  if(result.containsKey(
  
  word)) {

 
 
 
             
  
  int total = result.
  
  get(
  
  word);

 
 
 
 
  
              result.
  
  put(
  
  word, total+count);

 
 
 
 
  
          }
  
  else{

 
 
 
 
  
              result.
  
  put(
  
  word, 
  
  1);

 
 
 
 
  
          }

 
 
 
         
  
  //直接输出到屏幕

 
 
 
         
  
  //System.out.println("输出的结果是：" + result);

 
 
 
         
  
  //将统计结果发送下一个Bolt，插入数据

 
 
 
         
  
  this.collector.emit(
  
  new Values*(
  
  word, result.
  
  get(
  
  word));

 
 
 
 
  
      }

 
 
 
 
  
  

 
 
 
 
  
      @Override

 
 
 
     
  
  public 
  
  void 
  
  prepare(Map arg0, TopologyContext arg1, OutputCollector collector) {

 
 
 
         
  
  this.collector = collector;

 
 
 
 
  
      }

 
 
 
 
  
  

 
 
 
 
  
      @Override

 
 
 
     
  
  public 
  
  void declareOutputFields(OutputFieldsDecler declare){

 
 
 
 
  
          declare.declarer(
  
  new Fields(
  
  "word", 
  
  "sum"));

 
 
 
 
  
      }

 
 
 
 
  
  }

2、与Redis集成

Redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set –有序集合)和hash（哈希类型）。与Memcached一样，为了保证效率，数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件，并且在此基础上实现了master-slave(主从)同步

Redis 是一个高性能的key-value数据库。Redis的出现，很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用。它提供了Java，C/C++，C#，PHP，JavaScript，Perl，Object-C，Python，Ruby，Erlang等客户端，使用很方便。

Redis支持主从同步。数据可以从主服务器向任意数量的从服务器上同步，从服务器可以是关联其他从服务器的主服务器

 修改代码：WordCountTopology.java


 
 
  
  builder.setBolt(
  
  "wordcount_redisBolt", createRedisBolt()).shuffleGrouping(
  
  "wordcount_count");

 
 
 
 
  
  

 
 
 
 
  
  //创建Redis Bolt 组件

 
 
 
 
  
  private 
  
  staticIRichBolt createRedisBolt(){

 
 
 
 
  
      JedisPoolConfig.Builder builder = 
  
  new JedisPoolConfig.Builder();

 
 
 
 
  
      builder.setHost(
  
  "192.168.116.121");

 
 
 
 
  
      builder.setPort(
  
  6379);

 
 
 
 
  
      JedisPoolConfig poolConfig = builder.build();

 
 
 
 
  
  

 
 
 
     
  
  //RedisStoreMapper用于指定存入Redis中的数据格式

 
 
 
     
  
  return 
  
  new RedisStoreBolt(poolConfig, 
  
  new RedisStoreMapper(){

 
 
 
         
  
  @Override

 
 
 
         
  
  public 
  
  RedisDateTypeDescription getDataTypeDescription(){

 
 
 
             
  
  return 
  
  new RedisDateTypeDescription(RedisDateTypeDescription.RedisDateType.HASH, 
  
  "wordCount");

 
 
 
 
  
          }

 
 
 
 
  
  

 
 
 
         
  
  @Override

 
 
 
         
  
  public 
  
  String getValueFromTuple(){

 
 
 
             
  
  return String.valueOf(tuple.getIntegerByField(
  
  "total"));

 
 
 
 
  
          }

 
 
 
 
  
  

 
 
 
         
  
  @Override

 
 
 
         
  
  public 
  
  String getKeyFromTuple(){

 
 
 
             
  
  return tuple.getStringByField("word");  

 
 
 
 
  
          }

 
 
 
 
  
      })

 
 
 
 
  
  }

3、与HDFS集成

需要的jar包：
 $STORM_HOME\external\storm-hdfs\storm-hdfs-1.0.3.jar
 HDFS相关的jar包
开发新的bolt组件


 
 
  
  //创建一个新的HDFS Bolt组件，把前一个bolt组件处理的结果存入HDFS

 
 
 
 
  
  private 
  
  static IRichBolt createHDFSBolt(){

 
 
 
 
  
      HdfsBolt bolt = 
  
  new 
  
  HdfsBolt();

 
 
 
     
  
  //HDFS的位置

 
 
 
 
  
      bolt.withFsUrl(
  
  "hdfs://192.168.116.121:9000");

 
 
 
 
  
  

 
 
 
     
  
  //数据保存在HDFS上的目录

 
 
 
 
  
      bolt.withFileNameFormat(
  
  new 
  
  DefaultFileNameFormat().withPath(
  
  "/stormdata"));

 
 
 
 
  
  

 
 
 
     
  
  //写入HDFS的数据的分隔符 | 结果：Beijing|10

 
 
 
 
  
      bolt.withRecordFormat(
  
  new 
  
  DelimitedRecordFormat().withFieldDelimiter(
  
  "|"));

 
 
 
 
  
  

 
 
 
     
  
  //每5M的数据生成一个文件

 
 
 
 
  
      bolt.withRotationPolicy(
  
  new 
  
  FileSizeRotationPolicy(
  
  5.0f, Units.MB));

 
 
 
     
  
  //Bolt输出tuple,当tuple达到一定的大小（没1K），与HDFS进行同步

 
 
 
 
  
      bolt.withSyncPolicy(
  
  new 
  
  CountSyncPolicy(
  
  1000));

 
 
 
 
  
  

 
 
 
     
  
  return bolt;

 
 
 
 
  
  }

4、与HBase集成

需要的jar包：HBase的相关包
开发新的bolt组件（WordCountBoltHBase.java）


 
 
  
  /**

 
 
 
 
  
   * 在HBase中创建表，保存数据

 
 
 
 
  
   * create 'result','info'

 
 
 
 
  
   */

 
 
 
  
  
  public 
  
  class WordCountBoltHBase extends BaseRichBolt {

 
 
 
     
  
  public 
  
  void execute(Tuple tuple){

 
 
 
         
  
  //如何处理？将上一个bolt组件发送过来的结果，存入HBase

 
 
 
         
  
  //取出上一个组件发送过来的数据

 
 
 
         
  
  String 
  
  word = tuple.getStringByField(
  
  "word");

 
 
 
         
  
  int total = tuple.getIntegerByField(
  
  "total");

 
 
 
 
  
  

 
 
 
         
  
  //构造一个Put对象

 
 
 
 
  
          Put 
  
  put = 
  
  new Put(Bytes.toBytes(
  
  word));

 
 
 
         
  
  put.add(Bytes.toBytes(
  
  "info"), Bytes.toBytes(
  
  "word"), Bytes.toBytes(
  
  word));

 
 
 
         
  
  put.add(Bytes.toBytes(
  
  "info"), Bytes.toBytes(
  
  "total"), Bytes.toBytes(
  
  String.valueOf(total)));

 
 
 
 
  
  

 
 
 
         
  
  //把数据插入HBase

 
 
 
         
  
  try{

 
 
 
 
  
              table.
  
  put(
  
  put);

 
 
 
 
  
          }
  
  catch(Exception e){

 
 
 
 
  
              e.printStackTrace();

 
 
 
 
  
          }

 
 
 
 
  
      }

 
 
 
 
  
  

 
 
 
     
  
  public 
  
  void 
  
  prepare(Map arg0, TopologyContext arg1, OutputCollector arg2){

 
 
 
         
  
  //初始化

 
 
 
         
  
  //指定ZK的地址

 
 
 
 
  
          Configuration conf = 
  
  new Configuration();

 
 
 
 
  
          conf.set(
  
  "hbase.zookeeper.quorum",
  
  "192.168.116.121");

 
 
 
 
  
  

 
 
 
         
  
  //创建table的客户端

 
 
 
         
  
  try{

 
 
 
 
  
              table = 
  
  new HTable(conf, 
  
  "result");

 
 
 
 
  
          }
  
  catch(Exception ex){

 
 
 
 
  
              ex.printStackTrace();

 
 
 
 
  
          }

 
 
 
 
  
      }

 
 
 
 
  
   }

5、与Apache Kafka集成

注意：需要把slf4j-log4j12-1.6.4.jar包去掉，有冲突（有两个）


 
 
  
  private 
  
  static IRichSpout creatKafkaSpout(){

 
 
 
     
  
  //定义ZK地址

 
 
 
 
  
      BrokerHosts hosts = 
  
  new 
  
  ZkHosts(
  
  "hadoop121:2181,hadoop122:2181,hadoop123:2181");

 
 
 
 
  
  

 
 
 
     
  
  //指定Topic的信息

 
 
 
 
  
      SpoutConfig spoutConf = 
  
  new 
  
  SpoutConfig(hosts, 
  
  "mydemo2", 
  
  "/mydemo2", UUID.randomUUID().toString());

 
 
 
 
  
  

 
 
 
     
  
  //定义收到消息的Schema格式

 
 
 
 
  
      spoutConf.scheme = 
  
  new 
  
  SchemeAsMultiScheme(
  
  new 
  
  Scheme(){

 
 
 
 
  
          @Override

 
 
 
         
  
  public Fields getOutputFields(){

 
 
 
             
  
  return 
  
  new 
  
  Fields(
  
  "sentence");

 
 
 
 
  
          }

 
 
 
 
  
  

 
 
 
 
  
          @Override

 
 
 
         
  
  public List<Object> deserialize(ByteBuffer buffer){

 
 
 
             
  
  try{

 
 
 
                 
  
  String msg = (Charset.forName(
  
  "UTF-8").
  
  new
  
  Decoder()).decode(buffer).asReadOnlyBuffer().toString();

 
 
 
 
  
                  System.out.println(
  
  "**********收到的数据是msg" + msg);

 
 
 
                 
  
  return 
  
  new 
  
  Values(msg);

 
 
 
 
  
              }
  
  catch(Exception e){

 
 
 
 
  
                  e.printStackTrace();

 
 
 
 
  
              }

 
 
 
             
  
  return 
  
  null;

 
 
 
 
  
          }

 
 
 
 
  
      });

 
 
 
     
  
  return 
  
  new 
  
  KafkaSpout(spoutConf);

 
 
 
 
  
  }

6、与Hive集成

由于集成Storm和Hive依赖的jar较多，并且冲突的jar包很多，强烈建议使用Maven来搭建新的工程


 
 
  
  <dependencies>

 
 
 
     
  
  <dependency>

 
 
 
         
  
  <groupId>org.apache.storm
  
  </groupId>

 
 
 
         
  
  <artifactId>storm-core
  
  </artifactId>

 
 
 
         
  
  <version>1.0.3
  
  </version>

 
 
 
         
  
  <scope>provided
  
  </scope>

 
 
 
     
  
  </dependency>

 
 
 
     
  
  <dependency>

 
 
 
         
  
  <groupId>org.apache.storm
  
  </groupId>

 
 
 
         
  
  <artifactId>storm-hive
  
  </artifactId>

 
 
 
         
  
  <version>1.0.3
  
  </version>

 
 
 
         
  
  <type>jar
  
  </type>

 
 
 
     
  
  </dependency>

 
 
 
 
  
  </dependencies>

需要对Hive做一定的配置（在hive-site.xml文件中）：


 
 
  
  <
  
  property>  

 
 
 
 
  
  <
  
  name>hive.
  
  in.test</
  
  name>  

 
 
 
 
  
  <value>
  
  true</value>  

 
 
 
 
  
  </
  
  property>

需要使用下面的语句在hive中创建表：


 
 
  
  create 
  
  table wordcount

 
 
 
 
  
  (word 
  
  string,total 
  
  int)

 
 
 
 
  
  clustered 
  
  by (word) 
  
  into 
  
  10 buckets

 
 
 
 
  
  stored 
  
  as orc TBLPROPERTIES(
  
  'transactional'=
  
  'true');

启动metastore服务：hive –service metastore
开发新的bolt组件，用于将前一个bolt处理的结果写入Hive


 
 
  
  private 
  
  static IRichBolt createHiveBolt(){

 
 
 
     
  
  //设置环境变量，能找到winutils.exe

 
 
 
 
  
      System.setProperty(
  
  "hadoop.home.dir", 
  
  "D:\\tools\\hadoop-2.8.4");

 
 
 
 
  
  

 
 
 
     
  
  //作用：将bolt组件处理后的结果tuple，如何存入hive表

 
 
 
 
  
      DelimitedRecordHiveMapper mapper = 
  
  new 
  
  DelimitedRecordHiveMapper().withColumnFields(
  
  new 
  
  Fields(
  
  "word", 
  
  "total"));

 
 
 
 
  
  

 
 
 
     
  
  //配置Hive的参数信息

 
 
 
 
  
      HiveOptions options = 
  
  new 
  
  HiveOptions(
  
  "thrift://hadoop121:9083",
  
  //hive的metastore

 
 
 
                                           
  
  "default",
  
  //hive数据库的名字

 
 
 
                                           
  
  "wordcount",
  
  //保存数据的表                          mapper)

 
 
 
 
  
                              .withTxnsPerBatch(
  
  10)

 
 
 
 
  
                              .withBatchSize(
  
  1000)

 
 
 
 
  
                              .withIdleTimeout(
  
  10);

 
 
 
 
  
  

 
 
 
     
  
  //创建一个Hive的bolt组件，将单词计数后的结果存入hive

 
 
 
 
  
      HiveBolt bolt = 
  
  new 
  
  HiveBolt(options);

 
 
 
     
  
  return bolt;

 
 
 
 
  
  }

为了测试的方便，我们依然采用之前随机产生字符串的Spout组件产生数据

7、与JMS集成

JMS即Java消息服务（Java Message Service）应用程序接口，是一个Java平台中关于面向消息中间件（MOM）的API，用于在两个应用程序之间，或分布式系统中发送消息，进行异步通信。Java消息服务是一个与具体平台无关的API，绝大多数MOM提供商都对JMS提供支持

JMS的两种消息类型：Queue和Topic
基于Weblogic的JMS架构：

基于Weblogic的JMS架构


 
 
  
  private 
  
  static 
  
  IRichBolt createJMSBolt(){

 
 
 
     
  
  //创建一个JMS Bolt，将前一个bolt发送过来的数据 写入JMS

 
 
 
 
  
      JmsBolt bolt = 
  
  new JmsBolt();

 
 
 
 
  
  

 
 
 
     
  
  //指定JMSBolt的provider

 
 
 
 
  
      bolt.setJmsProvider(
  
  new MyJMSProvider());

 
 
 
 
  
  

 
 
 
     
  
  //指定bolt如何解析信息

 
 
 
 
  
      bolt.setJmsMessageProducer(
  
  new JmsMessageProducer(){

 
 
 
 
  
  

 
 
 
         
  
  @Override

 
 
 
         
  
  public 
  
  Message toMessage(Session session, ITuple tuple) throws JMSException {

 
 
 
             
  
  //取出上一个组件发送过来的数据

 
 
 
 
  
              String word = tuple.getStringByField(
  
  "word");

 
 
 
             
  
  int total = tuple.getIntegerByField(
  
  "total");

 
 
 
             
  
  return session.createTextMessage(word + "   " + total);

 
 
 
 
  
          }

 
 
 
 
  
      });

 
 
 
     
  
  return bolt;

 
 
 
 
  
  }