20001 面向互联网日志分布式实时ETL系统
运行视频、代码等:
链接:https://pan.baidu.com/s/1tw4Qvtcuwt7ys36M7HvLSg
提取码:1589
复制这段内容后打开百度网盘手机App,操作更方便哦
技术
Storm + kafka + zookeeper
功能详情
- 数据抽取
- 数据转换
- 无感知切换
- 数据加载四个模块
主要包括URL站内搜索关键词提取、请求串解析、json格式解析、反爬虫数据统计、session切割、时间格式化等等。
系统相关截图
# -*- coding: utf-8 -*-
from django.http import HttpResponse
from django.conf import settings
from django.views.decorators.csrf import csrf_exempt
import os
import uuid
import json
import datetime as dt
@csrf_exempt
def upload_image(request, dir_name):
##################
# kindeditor图片上传返回数据格式说明:
# {"error": 1, "message": "出错信息"}
# {"error": 0, "url": "图片地址"}
##################
result = {"error": 1, "message": "上传出错"}
files = request.FILES.get("imgFile", None)
print(dir_name)
print(files)
print(files.__dict__)
if files:
result = image_upload(f