Solr分布式搜索系统搭建及使用

5,893浏览
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...

今天偶然发现了我四年前写的一篇关于solr搭建使用的文章,当时是因为要在工作中使用到搜索引擎,发现solr不错,于是就使用了它,并将搭建使用过程用文档总结了下来,之后也将文档发给了几位同事,以供参考。

现在既然偶然发现了它,我想就把它发在博客中吧,虽然是四年前的文档,但我想也不会过时,总会有点参考价值的吧。 继续阅读“Solr分布式搜索系统搭建及使用”

Solr配置中文分词器

7,176浏览
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...

在Solr中如果不配置中文分词器,则默认是不支持中文分词的。不过在Solr中配置中文分词器其实是很容易的,在你了解如何配置中文分词器前,你肯定已经知道如何搭建起一个Solr的开发环境了,假设你在本机创建了一个core,在其中的目录conf下,我们需要修改schema.xml文件,在这里我以最新版的apache-solr-4.0.0-BETA为例来说明。

继续阅读“Solr配置中文分词器”

基于分面搜索引擎Solr的机构知识库访问统计

3,310浏览
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...

【摘要】采用Solr对中国科学院机构知识库CAS-IR的访问统计部分进行改进,结果表明改进后的系统即使在海量数据的环境下也能达到很快的响应速度。

引 言
机构知识库是大学或研究机构通过网络来收集、保存、管理、检索和利用其学术资源的数据库。它具有学术传播、电子出版、长期保存、知识管理、促进教育、科研评价、共享利用等功能[1]。机构知识库的访问统计[2]可以帮助管理者更好地了解知识库的访问利用情况,如哪些学术资源是用户比较感兴趣的、哪些时间段访问人数比较多等。

继续阅读“基于分面搜索引擎Solr的机构知识库访问统计”

Solr分布式搜索功能体验

5,940浏览
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...

Solr最显著的特点就是其分布式,不然的话跟Lucene也就没多大区别了,那么什么时候我们会用到分布式搜索呢?那就是当索引过多的时候,多到了在一台服务器上存放时会因此而影响到搜索速度,这个时候就可以考虑将索引划分成多个分片,搜索时在多个分片上进行搜索,最后将多个搜索结果进行合并。

接下来,我们将在一台服务器上使用solr-3.6.0为例来体验一下Solr的分布式搜索特性。在一台服务器上,我们将创建两个端口不一样的Solr服务,以此来模拟其分布式搜索功能。

继续阅读“Solr分布式搜索功能体验”

Solr开发环境搭建

10,945浏览
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...

要使用Solr进行开发,必须得自己搭建其开发环境,Solr自带的只有运行例子,而且直接部署运行还会报错。这里就来说明一下搭建Solr开发环境的过程,我的开发环境为Eclipse、Tomcat。

目前Solr和Lucene的最新版本已经是3.6.0的了,我就以该最新的版本为例。先从其官网下载到最新的发布包apache-solr-3.6.0.zip和源码包apache-solr-3.6.0-src.tgz,分别将

apache-solr-3.6.0-src.tgz解压开来为apache-solr-3.6.0.src及apache-solr-3.6.0.zip解压开来为apache-solr-3.6.0。

继续阅读“Solr开发环境搭建”

Lucene-3.6.0和Solr-3.6.0发布

5,625浏览
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...

Lucene和Solr的版本更新得比较快,在4月12日,新的版本3.6.0都已经发布了!

此次Lucene更新的亮点及Bug如下:

  • In addition to Java 5 and Java 6, this release has now full Java 7 support (minimum JDK 7u1 required).
  • TypeTokenFilter filters tokens based on their TypeAttribute.
  • Fixed offset bugs in a number of CharFilters, Tokenizers and TokenFilters that could lead to exceptions during highlighting.
  • Added phonetic encoders: Metaphone, Soundex, Caverphone, Beider-Morse, etc.
  • CJKBigramFilter and CJKWidthFilter replace CJKTokenizer(CJKTokenizer就没有了).
  • 继续阅读“Lucene-3.6.0和Solr-3.6.0发布”

Solr:强大的企业级搜索引擎平台

12,467浏览
1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Loading...

Solr是Lucene下面的一个用Java写的开源子工程项目,它是一个非常强大的企业级搜索平台,它的主要特征包括强大的全文检索、高亮显示、分面搜索、动态聚类、数据库集成、富文本(比如word、PDF)及地理空间搜索等。Solr高度可扩展,提供分布式搜索及索引复制,它为许多世界上大的网站提供了强大的搜索服务,诸如CNet、Zappos等。

Solr使用Lucene的搜索核心库来做全文检索,它的接口采用HTTP/XML和JSON APIs传输数据,这使得它更易用并可以支持不同的语言。Solr强大的配置可以允许它被定制成各种没有Java代码的应用,你还可以通过扩展它的插件来获得更多的自定义功能。

继续阅读“Solr:强大的企业级搜索引擎平台”