1. 概论
社区是人与人交流的平台,是现代人生活中不和缺少的部分,一个社区需要引导好舆论的风向和价值观,鼓励正向内容的传播,抑制与社会和产品价值观相背的内容和行为,社区应该把价值观作为重要的因素加入到核心业务目标中。
那社区风险又是什么,我定义是,违反法律法规和相关政策,或者影响整体用户体验的内容和行为。风险主要分为两类内容风险和行为风险。
2. 文本算法
- 正则
正则是比较基础有效的工具,可以应用在在联系方式(如QQ号、微信号)、链接(URL)等内容的识别上。
- 多模式匹配
关键词是内容场景最为常用的管控手段。关键词的规模会不断增加,管理是一项很有挑战的工作。
- 相似算法
计算相似的主要思想是将目标向量化,再对向量进行相似比较。常用的文本向量表达方法有 simhash、minhash、训练embedding,相似对比有编辑距离、余弦相似度、jaccad等,还有一些提效算法如LSH和HNSW等。
- GBDT
抽取文本统计特征,使用GBDT可以对批量文本有较好的识别效果。
- 深度学习
常用的文本算法有Fasttext、TextCnn、Bert、GCN等。目前深度学习算法发展迅速,只要定义好风险问题,配合好的数据集,能把识别的效果做到很好。
3. 图像算法
- 相似算法
比较简单的向量算法phash,能解决