相似度分析:
- 欧式距离(坐标距离)
- 皮尔逊相关系数
非监督聚合:
- K-均值聚合(随机选聚合数量值,就近聚合)
- 分类聚合(两两聚合形成树)
搜索引擎:
- 爬虫(URL追踪,去环)
- 分词(最小词串法,统计语言模型法-相近词条件概率计算乘积)
- 索引/检索(Big Table/Nosql DB)
- 排序(词频,词距,PageRank,点击率-样本学习,首段出现位置,URL,Meta)
最优化算法:
- 多变量(不同布局)求低cost
- 随机大量解选优
- 爬山调优
- 模拟退火算法(多变量上下范围调优)
- 遗传算法(随机起点,精英遴选,变异/杂交)
文本过滤:
- 简单特征过滤 - 广告标记,大写字符,显著色彩
- 贝叶斯分类
监督算法:
- 贝叶斯分类
- 决策树
- 神经网络
- 支持向量机
- K最邻近