<转>Solr Suggest实现搜索智能提示 -

yingbin920

浏览: 380045 次
性别:
来自: 上海

最近访客更多访客>>

fan0128

hongbo.wu

qsjiangs

粪海狂蛆

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

<转>Solr Suggest实现搜索智能提示

博客分类：

搜索

智能提示简介

搜索的智能提示目前是各大搜索的标配应用，主要作用是避免用户输入错误的搜索词，同时将用户引导到相应的关键词搜索上。

Solr Suggestion智能提示模块

作为一个应用广泛的搜索引擎系统，Solr内置了智能提示功能，它在Solr里叫做Suggest模块.该模块可选择基于提示词文本做智能提示，还支持通过针对索引的某个字段建立索引词库做智能提示。在诸多文档中都推荐使用基于索引来做智能提示，因此我们目前的实现也是采取该方案。

Solr Suggest的配置要点

Suggest字段的选择

因为现在整个平台是基于SPU的构建的，因此决定采用SPU关键属性组合及类目名称来做Suggest的索引字段。首先在schema.xml中添加存储Suggest的新字段，如下：

 <field name="suggestion" type="string" indexed="true" stored="true" 
        termVectors="true" multiValued="true"/>

在该field的配置中，FieldType的选择非常关键，通常建议智能提示字段的FieldType不需要配置复杂的Analyzer，避免因为分词导致智能提示的词失控。

配置Suggest模块

在solrconfig.xml文件中配置Suggest模块，其中Suggest依赖于SpellChecker模块，所以这两个都需要配置。具体配置如下：

 <searchComponent class="solr.SpellCheckComponent" name="suggest">
        <str name="queryAnalyzerFieldType">string</str>
        <lst name="spellchecker">
            <str name="name">suggest</str>
            <str name="classname">org.apache.solr.spelling.suggest.Suggester</str>
            <str name="lookupImpl">org.apache.solr.spelling.suggest.tst.TSTLookup</str>
            <str name="field">suggestion</str>
            <!-- the indexed field to derive suggestions from -->
            <float name="threshold">0.0001</float>
            <str name="spellcheckIndexDir">spellchecker</str>
            <str name="comparatorClass">freq</str>
            <str name="buildOnOptimize">true</str>

            <!--<str name="buildOnCommit">true</str>-->
        </lst>
    </searchComponent>
    <requestHandler class="org.apache.solr.handler.component.SearchHandler"
                    name="/suggest">
        <lst name="defaults">
            <str name="spellcheck">true</str>
            <str name="spellcheck.dictionary">suggest</str>
            <str name="spellcheck.onlyMorePopular">true</str>
            <str name="spellcheck.extendedResults">false</str>
            <str name="spellcheck.count">10</str>
            <str name="spellcheck.collate">true</str>
        </lst>
        <arr name="components">
            <str>suggest</str>
        </arr>
    </requestHandler>
    <queryConverter name="phraseQueryConverter" 
                    class="com.hqb360.solr.suggest.PhraseQueryConverter"/>

上述配置的具体说明可参照solr的官方文档，下面对其中几个容易疑惑的地方做一下说明

queryAnalyzerFieldType 配置参数
queryAnalyzerFieldType参数指定访问suggest的SearchHandler处理查询参数的Analyzer，如果指定的Analyzer很复杂的话，会导致suggest返回的结果不符合预期。在这们项目中，我们现希望Analyzer不对查询做任何的改变，因此选择string。

spellcheck.dictionary的值必须与searchComponent中spellchecker标签下<str name=”name”>suggest</str>配置对应。

Suggest返回结果的排序
spellchecker组件中的comparatorClass参数可配置Suggest返回结果的排序，目前有如下几种可选方案：
- Empty – in which case the default is used.
- score – explicitly choose the default case
- freq – Sort by frequency first, then score.
- A fully qualified class name – Provide a custom comparator that implements Comparator<SuggestWord>.
  可查看SuggestWordScoreComparator类了解更多细节

QueryConverter定制
上面的配置中，我们定制了自己的QueryConverter，主要原因是Solr默认的SpellQueryConvert是根据空格对查询参数做分隔，导致 “nokia e”这样的字符被当作“nokia”，“e”这样的两个字符处理，不符合我们的要求。定制的PhraseQueryConverter代码，需要打成jar包，放到Solr能访问到的目录下，在我们系统中是${solr.solr.home}/lib目录。

Suggest测试

配置完成之后，重启Solr后，访问如下链接

http://192.168.100.10:8080/solr/suggest?q=motorola%20x

结果如下：

<response>
  <lst name="responseHeader">
  <int name="status">0</int>
  <int name="QTime">0</int>
  </lst>
  <lst name="spellcheck">
    <lst name="suggestions">
      <lst name="motorola x">
        <int name="numFound">10</int>
        <int name="startOffset">0</int>
        <int name="endOffset">10</int>
        <arr name="suggestion">
          <str>motorola xoom 3g版</str>
          <str>motorola xt875</str>
          <str>motorola xt300</str>
          <str>motorola xt883</str>
          <str>motorola xt702</str>
          <str>motorola xt806</str>
          <str>motorola xt800</str>
          <str>motorola xt502</str>
          <str>motorola xt882</str>
          <str>motorola xt316</str>
        </arr>
      </lst>
      <str name="collation">motorola xoom 3g版</str>
  </lst>
</lst>
</response>

需要注意的点

重启Solr后，第一次访问时需要在Suggest请求中添加spellcheck.build=true参数，用于创建spellchecker的索引。
通过threshold参数来限制一些不常用的词不出现在智能提示列表中，当这个值设置过大时，可能导致结果太少，需要引起注意。

存在的问题

目前主要存在的问题是使用freq排序算法，返回的结果完全基于索引中字符的出现次数，没有兼顾用户搜索词语的频率，因此无法将一些热门词排在更靠前的位置。这块可定制SuggestWordScoreComparator来实现，目前还没有着手做这件事情。

链接：http://www.colorfuldays.org/tag/solr/

分享到：

solr 对拼音搜索和拼音首字母搜索的支持 | IK的整个分词处理过程

2012-06-27 10:15
浏览 13836
评论(2)
分类:开源软件
查看更多

2 楼 panghaoyu 2017-03-17

实现一个智能提示功能需要ajax、数据库、jsp/php、算法等很多知识，
如果数据量大，还需要特殊优化
一个小功能，花费太大精力很不划算
92find.com上的一个js插件实现了搜索框自动补全托管服务，
只要一行javascript代码就可以实现百度、淘宝搜索框提示的全部功能
比如：汉字拼音匹配、拼音前缀匹配、模糊搜索、智能容错，还可以自定义提示词汇及其排序权重
花五分钟我的网站就可以部署同百度、淘宝一样强大好用的输入提示功能
同时兼容IE、Firefox、Safari、Chrome、Opera各种浏览器
兼容ios、Android、Windows

1 楼 panghaoyu 2017-03-15

实现一个智能提示功能需要ajax、数据库、jsp/php、算法等很多知识，
如果数据量大，还需要特殊优化
一个小功能，花费太大精力很不划算
我使用了92find.c-o-m的搜索框智能提示功能托管服务，
只要一行javascript代码就可以实现百度、淘宝搜索框提示的全部功能
比如：汉字拼音匹配、拼音前缀匹配、模糊搜索、智能容错，还可以自定义提示词汇及其排序权重
花五分钟我的网站就可以部署同百度、淘宝一样强大好用的输入提示功能
同时兼容IE、Firefox、Safari、Chrome、Opera各种浏览器
兼容ios、Android、Windows

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

<转>Solr Suggest实现搜索智能提示

智能提示简介

Solr Suggestion智能提示模块

Solr Suggest的配置要点

Suggest字段的选择

配置Suggest模块

Suggest测试

需要注意的点

存在的问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

<转>Solr Suggest实现搜索智能提示

智能提示简介

Solr Suggestion智能提示模块

Solr Suggest的配置要点

Suggest字段的选择

配置Suggest模块

Suggest测试

需要注意的点

存在的问题

评论

发表评论

相关推荐

百度GOOGLE的用户鼠标行为分析<转>

lucene 一些性能调优建议

<转>庖丁解牛分词之自定义词库[自定义词典]

庖丁（Paoding）分词的词典原理解析

solr 百度相关搜索类似功能的实现

solr 索引库同步数据库

solr 对拼音搜索和拼音首字母搜索的支持

IK的整个分词处理过程

Solr的检索运算符

Solr 学习（5） —- Solr查询语法和参数

Apache Solr schema.xml及solrconfig.xml文件中文注解

<转>LUCENE3.0 自学吧 4 TermDocs

<转>Lucene里经常被聊到的几个话题

<转>浅谈文档索引普遍原理<笔记>

Lucene中Field类很重要

Lucene架构简单分析

<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解

<转>用于Lucene的各中文分词比较

Lucene3参考资料

lucene索引word/pdf/html/txt文件及检索(搜索引擎)

最近访客更多访客>>