目录
系统概述
构建一套自动化的互联网期货相关信息自动发现与智能推送系统,面向重点用户群体主动推送期货交易相关的新闻消息,实现信息化对用户进行交易决策的辅助作用,增加用户粘性,提升用户体验。
业务流程
- 在非交易时段从Oracle数据库中提取数据;
- 根据预定义规则,从数据中提取目标客户群及其相关的交易数据;
- 预先定义经济类目标网站及其文章栏目和关键词;
- 运用爬虫技术从目标网站获取文章类信息;
- 根据预定义的邮件(消息)模板生成待发送信息;
- 根据客户交易情况和期货相关网页文章,自动匹配收件人;
- 借助邮件(微信)向客户发送信息;
- 定期进行客户回访,获得用户反馈,持续改进服务;
注:爬取的网页信息可根据需要进行人工审核;提取的目标用户群需支持人工添加和修改;在上述流程中,除了3、4、5步骤外,其余均应在交易日18:30至21:00间完成。
系统设计
系统组成
本系统核心流程是获取客户群及其交易相关的互联网资讯,并向用户推送此类信息。在实现业务流程过程中,需要进行各门类数据的汇集、加工和存储。
构成系统核心部分如下:
- 交易镜像数据集
交易数据库是指期货现有的交易数据存储服务器,目前为Windows环境下的Oracle服务器。由于该服务器支撑期货核心业务服务,故为了降低对核心业务的影响,我们建议为本系统建立交易数据库中的用户数据、交易数据的镜像环境。后续的用户及交易分析和目标用户群的筛选均基于此镜像库完成。 - 用户行为数据集
在交易镜像数据集建立后,依据期货提供的规则,对该数据集进行分析,建立并持续更新接收资讯信息的目标用户群,同时根据规则对用户进行归类、分级,便于后续与期货资讯信息进行匹配。 - 期货特征数据集
依据期货提供的业务知识,对期货间相关性、期货与其他资讯(如天气、航运、农业等)相关性进行数据建模,为每类期货建立相关资讯特征,便于爬虫引擎进行网页发现。在系统一期建设中,首先实现期货关键词的特征定义。 - 消息模板
为各类消息建立消息模板,涵盖消息标题格式、正文格式以及依据资讯和用户反馈等情况再次加工而产生的有益于客户决策的信息内容格式。后续在生成邮件(消息)时,将依据模板生成对应类的消息。 - 资讯素材与资讯信息库
支持期货定义各类经济类网站作为资讯来源,并依据期货特征数据集自动进行网页发现,将采集的网页进行分类存储,形成资讯信息库。 - 规则库
可支持期货管理员对系统运行相关的规则进行定义,具体规则包括:
-
用户同步规则
-
交易提取规则
-
网页爬取规则
-
消息推送规则
- 数据清理规则
网络拓扑
系统运行环境如上图所示,网络分为两大区域:业务内网和互联网,内网与互联网区经防火墙进行安全隔离。本系统所使用的服务器部署在业务内网区,Web服务器上提供系统主体功能服务,并部署爬虫引擎服务;MySQL数据库服务器存储系统所有的各类数据集。其中,爬虫引擎从MySQL数据库中提取待搜索经济类网站列表,通过防火墙访问互联网进行资讯发现和网页爬取;爬取的各类资讯经匹配用户群后,借用互联网上的第三方邮件发送服务进行邮件推送。
注:第一期建设先完成邮件发送功能,后续实现基于微信公众号的资讯消息推送。
功能模块简述
登录
支持管理员、客户经理等用户验证后使用系统
首页
支持用户修改密码、头像等基本操作。
支持根据用户角色,显示系统运行情况、邮件发送情况、客户回访任务清单、客户反馈情况等汇总数据
数据源管理
支持管理员定义业务数据源信息,包括数据库访问参数、访问时间段等。
客户管理
支持对客户群进行检索、添加和删除等操作,并支持维护客户通讯信息等相关数据。
品类特征管理
支持定义期货信息;
支持定义期货相关性参数;
支持定义期货关键词;
支持定义期货相关类资讯及其参数(如天气、贸易等);
支持以期货检索该类期货相关的各类特征;
消息模板管理
支持用户定义邮件、微信消息等各类格式、样式等信息。
信息源管理
支持用户定义网页资讯来源网站,并支持用户对网站进行分类;
情报(资讯)素材管理
支持用户检索和维护爬取的各类资讯信息,设置分类、目标用户群等数据;
规则及参数管理
支持管理员设置系统各类规则,系统服务将根据规则进行自动化运行;
含邮件服务系统一些预定义参数设置,如邮件服务端口、发送验证账号等;
含数据过期清理规则设置,支持系统自动对失效过期数据进行自动清理;
客户回访
支持客户经理查看检索待回访任务,并支持记录和查看客户回访结果;
日志审计
支持管理员检索和查看系统运行日志和系统用户操作日志;
信息订阅
支持用户订阅推送服务
业务数据库
支持根据数据源管理定义的元数据,自动从业务数据库中提取用户及交易信息;
邮件接口
支持根据管理员在规则及参数管理模块中定义的邮件系统参数,自动进行邮件发送操作;
微信接口
支持面向关注微信服务号的用户发送服务类资讯信息;
爬虫服务
支持根据规则及参数管理中设置的网页爬取 规则和信息源定义的各类网站URL,自动爬取关注栏目和期货相关文章;
脚本支持
支持管理员对下列服务进行脚本控制,控制启动、停止、重启行为:爬虫服务、邮件服务、数据提取服务、数据清理服务、*订阅服务