暑期实训项目(1)--项目结构及工作准备

1. 项目概要

用户画像是根据用户基本属性、社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。
通过对用户信息进行沉淀、加工和抽象,形成一个以用户为主key的标签树,用于全面刻画用户的属性和行为信息,构建用户画像的核心工作是给用户贴标签,通过国内外指定网站获取数据,结合算法模型,综合分析用户行为画像,构建立体化的人物分析系统。

2. 项目需要解决的问题

2.1 信息采集

通过技术方法实现国内、国外指定网站进行数据获取。

2.2 构建人物画像

将收集到的用户基本属性、行为特征等收集到的数据通过行为建模,抽象出用户标签,实现数据采集、存储、在线浏览、多视图、多维度等基本功能。

2.3 构建知识图谱

通过知识抽取技术,可以从半结构化、非结构化的数据中提取出实体、关系、属性等知识要素,将其知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库,使用知识推理,在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。

3. 系统功能

在这里插入图片描述

3.1 智能数据整合

主要是对自定义数据采集的网站进行数据抓取、数据存储、数据处理。
在这个模块中我们对国内的三个热门站点,如bilibili、知乎、微博,国外三个热门站点,如Twitter、Yotube、Facebook作为数据采集源,提取正文、用户、关键词等信息,为后面的数据分析做好准备,采集信息之后将数据保存在mysql数据库中。

3.2 用户画像模块

该模块对采集到的数据进行特征提取,将用户标签化,可通过聚类和分类等方式进行技术画像的构建。根据特定人物的信息数据得到个人画像,并为其智能化打标签,得到用户数据的整体统一综合视图。

3.3 数据可视化模块

该模块主要是将影像数据有效的组织和展示,进行用户的数据分析、用户的行为分析、知识图谱构建和数据可视化操作。

4. 项目架构

在这里插入图片描述
使用了前后端分离的形式,前端使用vue技术,通过http协议对服务器进行请求。java后台使用springboot框架,Python通过整合的爬虫程序对多个网站进行内容爬取,并通过flask后台进行接口信息的传递。数据库使用MySQL数据库,java后端通过mybatis与数据库进行交互,Python后端使用DB-API与数据库进行交互。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值