20002 基于网络爬虫技术的网络新闻分析系统
运行视频、代码等:
链接:https://pan.baidu.com/s/1tw4Qvtcuwt7ys36M7HvLSg
提取码:1589
复制这段内容后打开百度网盘手机App,操作更方便哦
技术
Java + HttpClient + IK Analyze(分词器) + JFreeChart
功能详情
- 数据抽取
- 数据清洗
- 数据分析
- 数据展示
主要包括了网络爬虫模块、中文分词模块、中文相似度判定模块、数据结构化存储模块、数据可视化展示模块
系统相关截图
- 系统结构图
- 中文分词结果
- 爬虫结果
# -*- coding: utf-8 -*-
from django.http import HttpResponse
from django.conf import settings
from django.views.decorators.csrf import csrf_exempt
import os
import uuid
import json
import datetime as dt
@csrf_exempt
def upload_image(request, dir_name):
##################
# kindeditor图片上传返回数据格式说明:
# {"error": 1, "message": "出错信息"}
# {"error": 0, "url": "图片地址"}
##################
result = {"error": 1, "message": "上传出错"}
files = request.FILES.get("imgFile", None)
print(dir_name)
print(files)