基于MySQL数据库的UTF8中文网站全文检索的实现(2)

来源：互联网责任编辑：admin 发表时间:2013-07-02 02:39　点击:次

ASP PHP JSP JavaScript 网页设计 DIVCSS Ajax技术 HTML5

2. 对用户信息表（members）的User_introduction字段内容进行中文分词处理

中文分词的处理过程，可以参考简易中文分词系统http://www.ftphp.com/scws/，在城市黄页网中，我们采用了scws的PHP扩展模块方式来实现中文分词。scws的php扩展模块安装非常简单，只需简单编译配置后即可使用。在具体的php代码中，我们写了如下的函数来实现分词后将分词结果用空格进行连接。

//中文分词函数
function str_fc($str) {
$so = scws_new();
$so->set_charset('utf8');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text($str);
while ($tmp = $so->get_result())
{
  foreach ( $tmp as $ss ){
   $s = trim($ss[word]);
   if ( $s )
    $mystr .= trim($ss[word]) . " ";
    //echo urlencode(trim($ss[word])) . " ";
  }
}
return $mystr;
}
该函数返回就是用空格连接的分词结果。

3. 对分词结果进行编码，可以采用多种编码方式，比如base64编码、urlencode编码、汉字转拼音等，对gb2312甚至可以采用区位码编码方式。考虑到存储空间以及便利性，我们采用了PHP的urlencode编码方式。需要注意的是，在编码前，我们可以去掉重复的分词来节约存储空间，编码后要去掉编码结果中的%符号，因为urlencode采用RFC 1738进行编码，会产生很多%，而%在MySQL是通配符。下