PHP扩展方式使用scws中文分词

参考文档:http://www.xunsearch.com/scws/docs.php#phpscws

基本应用

//实例化分词插件核心类
$so = scws_new();
//设置分词时所用编码
$so->set_charset('utf8');
//设置分词所用词典(此处使用utf8的词典)
$so->set_dict('/usr/local/scws12/etc/dict.utf8.xdb');
//设置分词所用规则
$so->set_rule('/usr/local/scws12/etc/rules.utf8.ini');
//分词前去掉标点符号
$so->set_ignore(true);
//是否复式分割,如“中国人”返回“中国+人+中国人”三个词。
//取值可组合 (1)短词 (2)二元(将相邻的2个单字组合成一个词) (4)重要单字 (8)全部单字
$so->set_multi(1);
//$so->set_multi(2);
//如果为 true 则结果中多个单字会自动按二分法聚分,如果为 false 则不处理,缺省为 false
$so->set_duality(true);
//要进行分词的语句  get_result
$so->send_text("陈凯歌并不是《无极》的唯一著作权人");
//获取分词结果,如果提取高频词用get_tops方法(不需要循环调用)
//**注意** get_result每次切词后本函数应该循环调用,直到返回 false 为止,因为程序每次返回的词数是不确定的。
while ($tmp = $so->get_result()) {
    foreach($tmp as $v){$words[] = $v['word'];}
}
$so->close();
echo implode("-",$words)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程工人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值