转载请署名:印风
1.简介
全文索引插件用于对MYISAM的全文检索特性进行扩展。通过全文检索,我们可以对文档、图片或者视频等丰富的数据类型进行分词,建立索引,以便进行快速的检索。
目前MySQL仅在MYISAM存储引擎里支持全文检索,而对于innodb,则要在6.0以后的版本中才会实现。
但目前全文索引也有着如下的限制:
1. 只支持MyISAM
2. 不支持中文
3. 如果支持在一个单独表中使用多个字符集,则所有fulltext索引的列必须使用完全一样的字符集和库
4. MATCH()列列表必须同该表中一些FULLTEXT索引定义中的列列表完全符合,除非MATCH()在IN BOOLEAN MODE
5. 对AGAINST() 的参数必须是一个常数字符串。
那么Full Text Plugin在这其中扮演什么样的角色呢。MYISAM本身自带的分词程序会将列里面的数据进行分词存储到全文索引里,同时也会使用分词来处理查询中出现的字符串;Full Text Plugin可以完全接管该功能。
例如,我们可以通过Plugin实现对多媒体数据的分词检索,可以使用自己的算法进行分词,甚至可以改变全文检索的语法。
2. 如何编写Full Text Plugin
插件的编写主要包括: init、deinit以及parse程序;每次执行sql之前会调用一次init(),执行完成后会调用deinit函数。Parse()函数在执行SQL的过程中进行语法分析
1)声明插件
结构体st_mysql_ftparser用于声明一个full text插件
struct st_mysql_ftparser
{
intinterface_version;
int(*parse)(MYSQL_FTPARSER_PARAM *param);
int(*init)(MYSQL_FTPARSER_PARAM *param);
int(*deinit)(MYSQL_FTPARSER_PARAM *param);
};
字段 | 类型 | 描述 |
interface_version | int | 版本号 |
parse | int (*parse)(MYSQL_FTPARSER_PARAM *param); | 语法分析程序 |
init | int (*init)(MYSQL_FTPARSER_PARAM *param); | 初始化函数,函数指针 |
deinit | int (*deinit)(MYSQL_FTPARSER_PARAM *param); | 清理函数,函数指针 |
可以看到,这三个函数公用一种参数类型:MYSQL_FTPARSER_PARAM,这个结构体由MySQL来初始化,但我们同样可以修改其函数指针,以使用自定义的函数,结构体如下:
字段 | 类型 | 描述 |
mysql_parse | int (*mysql_parse)(struct st_mysql_ftparser_param *, char *doc, int doc_len) | 默认指向mysql内建的全文分词函数。 |
mysql_add_word | int (*mysql_add_word)(struct st_mysql_ftparser_param *, char *word, int word_len, MYSQL_FTPARSER_BOOLEAN_INFO *) | 用于对每个分解的单词进行处理;通常会把这些单词加到一颗树或列表里。并在结束后插入/更新/删除全文索引里的记录 |
ftparser_state | void * | 我们可以在该指针分配额外的内存,用于在不同的API接口间传递 |
mysql_ftparam | void * | 由MySQL内部使用,将信息传递给mysql_parse和mysql_add_word,编写plugin时无需修改 |
cs | struct charset_info_st * | 文档的字符集 |
doc | char * | 需要被解析的文档,例如,我们可以填写一个url,那么在语法分析程序里。我们可以读取到Url对应的文件,再进行分析 |
length | int | 文档的长度,这是因为doc可能并不是以\0结尾的,我们在写plugin时需要注意这一点 |
flags | int | 目前仅有一个选项:MYSQL_FTFLAGS_NEED_COPY。该选项用于告诉mysql_add_word需要一份单词的拷贝;内建的mysql_parse()无需指定该Flag,这是因为其使用doc的指针,而doc在离开函数后也是有效的 |
mode | enum enum_ftparser_mode | 操作的类型,主要包括以下几种: MYSQL_FTPARSER_SIMPLE_MODE :解析程序仅返回需要的单词,剔除停词、过滤词 MYSQL_FTPARSER_WITH_STOPWORDS :用于布尔查询的单词匹配,这种情况下需要考虑所有的单词,包括停词 MYSQL_FTPARSER_FULL_BOOLEAN_ INFO :用于解析一个包含布尔操作符的布尔查询字符串;这种情况下,我们需要 设置mysql_add_word的参数——MYSQL_FTPARSER_BOOLEAN_INFO |
当mode被设置为MYSQL_FTPARSER_FULL_BOOLEAN_ INFO时。我们需要为函数mysql_add_word设置其最后一个参数,我们再看该函数的原型:
int (*mysql_add_word)(structst_mysql_ftparser_param *,
char *word, int word_len,
MYSQL_FTPARSER_BOOLEAN_INFO *);
最后一个参数结构体为MYSQL_FTPARSER_BOOLEAN_INFO,也就是结构体st_mysql_ftparser_boolean_info,如下所示:
字段 | 类型 | 描述 |
type | enum enum_ft_token_type | 用于标示token的类型,有如下几种: FT_TOKEN_EOF : 无需设置 FT_TOKEN_WORD : 表示普通的单词 FT_TOKEN_STOPWORD: 停词 ,建立索引时会被忽略 FT_TOKEN_LEFT_PAREN : 表示一个子表达式开始 FT_TOKEN_RIGHT_PAREN : 表示一个子表达式结束 |
yesno | int | 用于支持布尔操作: >0 单词必须要匹配,对应 + <0 不允许匹配,对应 - =0 可能匹配,会增加关联度 |
weight_adjust | int | 关联词的重要性、 >0, 对应于>操作符 <0, 对应于<操作符
|
wasign | char | 单词的重要性: 非0 表示噪音单词,会减少关联度,对应于操作符 ~ |
trunc | char | 如果为非0,则单词被认为是一个前缀,所有以此为前缀的都会被匹配,对应的操作符为 * |
prev | char | 忽略 |
quot | char* | 对应于””双引号操作符 |
为了帮助大家了解布尔查询,这里摘录一段MySQL手册里的相关描述。如下:
1. 'applebanana'
寻找包含至少两个单词中的一个的行。
2. '+apple+juice'
寻找两个单词都包含的行。
3. '+applemacintosh'
寻找包含单词“apple”的行,若这些行也包含单词“macintosh”,则列为更高等级。
4. '+apple-macintosh'
寻找包含单词“apple”但不包含单词 “macintosh”的行。
5. '+apple+(>turnover <strudel)'
寻找包含单词“apple”和“turnover”的行,或包含“apple”和“strudel”的行 (无先后顺序),然而包含“apple turnover”的行较包含“apple strudel”的行排列等级更为高。
6. 'apple*'
寻找包含“apple”、“apples”、“applesauce”或“applet”的行。
7. '"somewords"'
寻找包含原短语“some words”的行 (例如,包含“some words of wisdom”的行,而非包含 “some noisewords”的行)。注意包围词组的‘"’符号是界定短语的操作符字符。它们不是包围搜索字符串本身的引号。
full text plugin的工作流程如下图所示:
下面,我们通过一个简单的例子来理解创建Full Text Plugin的过程
2)示例:对内建的布尔操作符进行改进,实现AND、OR和NOT操作(摘自<mysql plugin development>)
实现思路:
基本思想是通过预读取的方法,在读单词时总是向后看有没有操作符,以决定当前单词的yesno,即是否是需要匹配的单词。
Ø 在AND前后的word yesno= 1
Ø 对于foo AND NOTbar 需要向前看两个单词
Ø wd1 OR wd2 ,前后的yesno = 0. 但当包含AND时,例如wd1 or wd2 and wd3,wd2的yesno = 1;
Ø 对于类似wd1 andwd2 or wd3 and wdb4,需要使用子表达式来分离AND和OR
Ø 如果没有使用操作符,例如wd1 wd2 转换为wd1 OR wd2
/*必要的头文件*/
#include <mysql/plugin.h>
#include <stdio.h>
#include <ctype.h>
#include <string.h>
/*用于辅助记录分词*/
typedef struct{
char *start; //在字符串中的起始指针
int len; //长度
int yesno; //是否被忽略
}WORD;
/*找到s和end间的第一个单词*/
static char *get_word(WORD *word, char *s,char *end)
{
word->yesno = 0;
while (s < end && !isalnum(*s))
s++;
word->start = s;
while (s < end && isalnum(*s))
s++;
word->len = s - word->start;
return s;
}
static int andor_parse(MYSQL_FTPARSER_PARAM*param)
{
/*需要解析的文档*/
char *end = param->doc + param->length;
char *s = param->doc;
WORD word, next;
MYSQL_FTPARSER_BOOLEAN_INFO bool_info =
{ FT_TOKEN_WORD, 0, 0, 0, 0, 0, 0 };
/*获取第一个单词*/
s = get_word(&next, s, end);
for (;;)
{
word = next;
/*向后看一个单词*/
s = get_word(&next, s, end);
/*已解析完文档,返回0*/
if (word.start >= end)
return 0;
/*首先判断是否为boolean mode*/
if(param->mode == MYSQL_FTPARSER_FULL_BOOLEAN_INFO)
{
/*检查下一个单词是否为AND*/
if(next.start < end && strncasecmp(next.start, "and", next.len)== 0) {
if (word.yesno == 0){ //当前单词之前没有AND
bool_info.yesno = 0;
bool_info.type = FT_TOKEN_LEFT_PAREN;
/*增加子表达式开始标记*/
param->mysql_add_word(param, 0, 0,&bool_info);
/*置当前单词yesno为1,表示不可忽略*/
word.yesno = 1;
}
/*读下一个单词*/
s =get_word(&next, s, end);
/*如果下一个单词为”not” 例如,word1 and notword2*/
if (next.start< end && strncasecmp(next.start, "not", next.len) == 0) {
/*继续读下一个单词*/
s = get_word(&next, s , end);
/*忽略该单词*/
next.yesno = -1;
}else
next.yesno= 1; //AND的下一个单词
}
else
if (next.start< end &&strncasecmp(next.start, "or", next.len) == 0) //下一个单词为or
/*获取下一个单词*/
s = get_word(&next, s, end);
bool_info.type = FT_TOKEN_WORD;
bool_info.yesno = word.yesno;
}
/*将当前单词加入到param中*/
param->mysql_add_word(param,word.start, word.len, &bool_info);
/*if there isAND before current word and no AND after it ,need to end subexpression*/
/*如果当前词之前有AND,并且当前词之后没有AND,则结束子表达式*/
if (word.yesno && !next.yesno){
bool_info.type = FT_TOKEN_RIGHT_PAREN;
param->mysql_add_word(param, 0, 0,&bool_info);
}
}
}
/*声明插件结构体*/
static struct st_mysql_ftparser ft_andor =
{
MYSQL_FTPARSER_INTERFACE_VERSION,
audor_parse,
NULL, /*init,SET NULL */
NULL /*deinit,SET NULL*/
};
mysql_declare_plugin(andor)
{
MYSQL_FTPARSER_PLUGIN,
&ft_andor,
"andor",
"Sergei Golubchik",
"A Full-Text AND/OR boolean parser",
PLUGIN_LICENSE_GPL,
NULL,
NULL,
0x0100,
NULL,
NULL,
NULL
}
mysql_declare_plugin_end;
参考:
《MySQL Plugin Development》
MySQL5.1.48源代码