要做一个什么样的东西
将数据加工运用到实际的应用中,处理分类和拟合。这个月最好做出一个反垃圾的产品出来。
组成部分
1、客户端:根据具体的功能抽象出一些接口。
a、文本
b、文本+用户ID
c、文本+用户ID+维度
2、抽象:对接收到的文本进行提取,最好能做到动态编译。
a、特征:数字、URL、EMAIL等。
b、维度抽象。
c、处理过程。
3、训练:
a、从已经是垃圾的内容中提取特征,最好保存在本地。
b、根据垃圾的内容训练分类模型。
4、工具:
a、特征提取的工具。
b、公用的分类模型。
处理流程
1、收到文本。
2、提取特征、抽象维度。
3、如果特征命中,返回是垃圾,否则继续。
4、根据分类模型判断是垃圾的可能性,返回结果。