面向互联网日志分布式实时ETL系统

该博客介绍了面向互联网日志的分布式实时ETL系统,采用Storm、Kafka和Zookeeper技术栈。系统涵盖了数据抽取、转换和加载功能,包括URL关键词提取、请求串解析、JSON解析、反爬虫统计等。提供了系统截图和运行资源链接。
摘要由CSDN通过智能技术生成

20001 面向互联网日志分布式实时ETL系统

运行视频、代码等:
链接:https://pan.baidu.com/s/1tw4Qvtcuwt7ys36M7HvLSg
提取码:1589
复制这段内容后打开百度网盘手机App,操作更方便哦

技术
Storm + kafka + zookeeper

功能详情

  • 数据抽取
  • 数据转换
  • 无感知切换
  • 数据加载四个模块

主要包括URL站内搜索关键词提取、请求串解析、json格式解析、反爬虫数据统计、session切割、时间格式化等等。

系统相关截图
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

# -*- coding: utf-8 -*-
from django.http import HttpResponse
from django.conf import settings
from django.views.decorators.csrf import csrf_exempt
import os
import uuid
import json
import datetime as dt


@csrf_exempt
def upload_image(request, dir_name):
    ##################
    #  kindeditor图片上传返回数据格式说明:
    # {"error": 1, "message": "出错信息"}
    # {"error": 0, "url": "图片地址"}
    ##################
    result = {"error": 1, "message": "上传出错"}
    files = request.FILES.get("imgFile", None)

    print(dir_name)
    print(files)
    print(files.__dict__)

    if files:
        result = image_upload(f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值