数据分类:
结构化数据
行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,能够用数据或统一的结构加以表示
数字、符号
非结构化数据
无法用数字或统一的结构表示
文本、图像、声音、网页
结构化数据属于非结构化数据
非结构化数据即为全文数据
全文数据的检索
相关概念
一种将文件中或者数据库中所有文本与检索项匹配的文字资料检索方法。
对全文数据的检索。
两种方法
顺序扫描法:
索引扫描法:全文检索的基本思路,也就是将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。
全文检索的过程:
索引创建:字典。索引只创建一次
索引搜索:
1.用户输入查询语句
2.对查询语句进行词法分析,语法分析,及语言处理
3.搜索索引,得到符合文档