互联网搜索原理:
网页采集技术;
文本查重技术;
内容抽取技术;
信息预处理技术;
中文分词、实体识别技术;
布尔查询处理技术;
倒排索引构建于压缩技术;
搜索结果的评价;
Top K检索技术;
基于向量空间的文档排名技术;
基于概率模型的文档排名技术;
基于语言模型的文档排名技术;
基于连接分析的文档排名技术;
基于机器学习的文档排名技术;
搜索结果的摘要技术;
互联网挖掘原理:
文本分类技术;
特征选择技术;
KNN分类器;
朴素贝叶斯分类器;
决策树分类器;
支持向量机分类器;
文本聚类技术;
K-均值聚类;
凝聚式层次聚类;