StreamSets实战之路（十六）-实战篇-数据序列化与反序列化

最新推荐文章于 2024-03-09 11:39:09 发布

macalzheng

最新推荐文章于 2024-03-09 11:39:09 发布

阅读量778

点赞数 1

分类专栏： StreamSets实战之路大数据文章标签： StreamSets 大数据

本文链接：https://blog.csdn.net/macalzheng/article/details/114042274

版权

大数据同时被 2 个专栏收录

23 篇文章 5 订阅

订阅专栏

StreamSets实战之路

17 篇文章 121 订阅

订阅专栏

主要通过一个数据序列化与反序列化的案例来介绍Streamsets（3.20.0 汉化版）的使用，因为大数据加工与处理的时候，避免不了数据的序列化与反序列化，这里主要讲一下使用数据序列化插件和反序列化插件实现avro格式数据序列化与反序列化，。当然还是可以序列化其他格式，这里挑一个难的讲一下。

学习目的：学习使用Data Generator 和 Data Parser。

最终数据流的效果图：

需要配置一个数据流。

序列化效果：

反序列化效果：

前期准备：

1.一些JSON格式的数据：

{

    "cont":{

        "disk_total":1024,

        "disk_used":100,

        "disk_free":924,

        "file_sum":94,

        "file_type_sum":20,

        "file_grow_num":20,

        "disk_grow_num":20,

        "file_type_sum_document_docx":200,

        "file_type_sum_document_txt":200,

        "disk_used_document_docx":200,

        "disk_used_document_txt":600

    },

    "status_tag":{

        "tag_version":"1.0",

        "data_type":4,

        "data_subtype":16387,

        "producer_id":24705,

        "timestamp":"2020-03-24 12:00:00.00"

    }

}

Avro schema：

{

       "type": "record",

       "name": "cont1",

       "fields": [{

           "name": "cont",

           "type": {

                  "type": "record",

                  "name": "cont2",

                  "fields": [{

                         "name": "disk_total",

                         "type": "int"

                     },

                     {

                         "name": "disk_used",

                         "type": "int"

                     },

                     {

                         "name": "disk_free",

                         "type": "int"

                     },

                      {

                         "name": "file_sum",

                         "type": "int"

                     },

                     {

                         "name": "file_type_sum",

                         "type": "int"

                     },

                     {

                         "name": "file_grow_num",

                         "type": "int"

                     },

                     {

                         "name": "disk_grow_num",

                         "type": "int"

                     },

                     {

                         "name": "file_type_sum_document_docx",

                         "type": "int"

                     },

                     {

                         "name": "file_type_sum_document_txt",

                         "type": "int"

                     },

                     {

                         "name": "disk_used_document_docx",

                         "type": "int"

                     },

                     {

                         "name": "disk_used_document_txt",

                         "type": "int"

                     }

                  ]

             

           }

       }]

   

}