一、信息检索概念
信息检索是从大量非结构化的文档集中找到用户需要的信息;
当然信息检索远不止这些,比如从包中拿出信用卡并查看卡号,在计算机中查找文件等;
非结构化:数据没有清晰的语义结构,计算机不容易处理;
严格的非结构化数据是不存在的,比如文本虽然属于非结构化,但是文本也有固定的格式,如标题等;
半结构化数据:处在结构化和非结构化之中的信息;
分类:给定类别,将文档进行指派给特定的类别;一般都是有训练集和测试集;
聚类:将给定的文档集进行自动聚团并分开,即预先不指定类别;
grep是Unix中查询的命令;
语料库(corpus)=Collection;
ad-hoc检索:文档集相对静