处理不同数据库指定数据表相关联之后的处理结果

spark架构+nlpir分词方法+sql实现对每一位用户的情感分析,数据存储字段为最小粒度值。


需求:读取线上n个数据库中相应的表中的数据做关联然后处理完的结果写入对应的数据库新建表m中用于统计相应的租户相应的部门相应的用户在某一天或者某一月的情感分析统计

思路:读取租户id+部门id+用户id+年+月+日+积极词性个数+消极词性个数+中性词个数+情感结果(数据库中m表中的栏位),首先需要相应词库:积极词库,消极词库,否定词库,中性词库。

判断大致词性的思路;


总结一点:这个词是否是否定词,如果是的话,就读取下一个词next,如果next是积极那么久返回消极,反之亦然。最终情感分析的结果按照,一个日志中只要出现消极词就算消极,没有消极词有积极词的情况是积极,消极词语与积极词语都没有的话算为中性无情感。

分词方法:NLpir

spark架构(java)进行编写代码

(1)词库的路径以配置文件.xml的形式编写,可以快速读取

(2)广播变量直接把标准词库直接广播


xml以传参的形式给予。线上n个数据库也是如此。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值