智能人物画像综合分析系统
1. 项目概要
用户画像是根据用户基本属性、社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。
通过对用户信息进行沉淀、加工和抽象,形成一个以用户为主key的标签树,用于全面刻画用户的属性和行为信息,构建用户画像的核心工作是给用户贴标签,通过国内外指定网站获取数据,结合算法模型,综合分析用户行为画像,构建立体化的人物分析系统。
2. 项目需要解决的问题
2.1 信息采集
通过技术方法实现国内、国外指定网站进行数据获取。
2.2 构建人物画像
将收集到的用户基本属性、行为特征等收集到的数据通过行为建模,抽象出用户标签,实现数据采集、存储、在线浏览、多视图、多维度等基本功能。
2.3 构建知识图谱
通过知识抽取技术,可以从半结构化、非结构化的数据中提取出实体、关系、属性等知识要素,将其知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库,使用知识推理,在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
3. 系统功能
3.1 智能数据整合
主要是对自定义数据采集的网站进行数据抓取、数据存储、数据处理。
在这个模块中我们对国内的三个热门站点,如bilibili、知乎、微博,国外三个热门站点,如Twitter、Yotube、Facebook作为数据采集源,提取正文、用户、关键词等信息,为后面的数据分析做好准备,采集信息之后将数据保存在mysql数据库中。
3.2 用户画像模块
该模块对采集到的数据进行特征提取,将用户标签化,可通过聚类和分类等方式进行技术画像的构建。根据特定人物的信息数据得到个人画像,并为其智能化打标签,得到用户数据的整体统一综合视图。
3.3 数据可视化模块
该模块主要是将影像数据有效的组织和展示,进行用户的数据分析、用户的行为分析、知识图谱构建和数据可视化操作。
4. 项目架构
使用了前后端分离的形式,前端使用vue技术,通过http协议对服务器进行请求。java后台使用springboot框架,Python通过整合的爬虫程序对多个网站进行内容爬取,并通过flask后台进行接口信息的传递。数据库使用MySQL数据库,java后端通过mybatis与数据库进行交互,Python后端使用DB-API与数据库进行交互。