lucene全文检索精华

2019-08-31 12:51

lucene全文检索

1 概念

全文检索（Full-Text Retrieval）是计算机程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程.

1.1 lucene全文检索的特性

全文检索（Full-Text Retrieval）是指以文本作为检索对象，找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索的特性，我们要知道：1，只处理文本。2，不处理语义。3，搜索时英文不区分大小写。4，结果列表有相关度排序。

下图就是显示“1+1等于几”这个搜索要求对应的结果。可以看到，是没有“2”这个结果的，结果页面都是出现了这些词的网页 .

1.2 全文检索的应用场景

我们使用Lucene，主要是做站内搜索，即对一个系统内的资源进行搜索。如BBS、BLOG中的文章搜索，网上商店中的商品搜索等。使用Lucene的项目有Eclipse、Jira等。一般不做互联网中资源的搜索，因为不易获取与管理海量资源（专业搜索方向的公司除外）。

2 第一个lunece程序

2.1 准备lucene的开发环境

搭建Lucene的开发环境只需要加入Lucene的Jar包，要加入的jar包至少要有： ? lucene-core-4.4.0.jar（核心包）

? analysis\\common\\lucene-analyzers-common-4.4.0.jar（分词器） ? highlighter\\lucene-highlighter-4.4.0.jar（高亮） ? \\memory\\lucene-memory-4.4.0.jar（高亮）

? queryparser\\ lucene-queryparser-4.4.0.jar (查询解析)

2.2 实现建立索引功能(IndexWriter)

/**

* 使用indexWriter对数据库建立索引.. * @throws IOException */ @Test

public void createIndex() throws IOException{

//索引存放的位置...

Directory directory=FSDirectory.open(new File(\));

//lucene当前使用的匹配版本

Version matchVersion=Version.LUCENE_44;

//分词器，对文本进行分词,抽象类,由子类实现不同的分词方式

Analyzer analyzer=new StandardAnalyzer(matchVersion); //索引写入的配置

IndexWriterConfig indexWriterConfig=new

//构建用于操作索引的类

IndexWriter indexWriter=new IndexWriter(directory,

IndexWriterConfig(matchVersion, analyzer);

indexWriterConfig);

//索引库里面的要遵守一定的结构，(索引结构...) 在索引库当中保存的都是document

Document doc=new Document(); //索引document里面页游很多的字段... /**

* 1：字段的名称 * 2：字段对应的值

* 3：该字段在索引库中是否存储 */

IndexableField id=new IntField(\, 1, Store.YES);

//StringField不会根据分词器去拆分，只有后面的String全包括才能被搜索到 IndexableField title=new StringField(\, \培训,传智播客//TextField如果按照默认分词器去拆分，中文则是按照单个中文拆分的

专注Java培训10年\, Store.YES);

IndexableField content=new TextField(\, \培训的龙头老

大,口碑最好的java培训机构,进来看看同学们的呐喊\, Store.YES); doc.add(id);

}

doc.add(title); doc.add(content);

indexWriter.addDocument(doc);

indexWriter.close();

2.3 实现搜索功能(IndexSearcher)

/**

* 使用indexSearcher对数据进行搜索 * @throws IOException */ @Test

public void queryIndex() throws IOException{

//索引存放的位置

Directory directory=FSDirectory.open(new File(\)); //创建索引读取器

IndexReader indexReader=DirectoryReader.open(directory);

//通过indexSearcher去检索索引目录...

IndexSearcher indexSearcher=new IndexSearcher(indexReader);

//我们以后只要根据索引查找，整个过程肯定要分2次..

//这是一个搜索条件..,通过定义条件来进行查找...(可以拿到编号,编号都放在了//term 我需要根据哪个字段进行检索，字段对应的值...

//Query是抽象类,由子类去实现不同的查询规则

Query query=new TermQuery(new Term(\, \));

//搜索先搜索索引目录(第一次搜)..不会直接搜索到document(第二次搜) //找到符合query条件的前面N条记录...如果不加条件则会全部查询出来

ScoreDoc数组中，遍历数组就获得了编号)

TopDocs topDocs=indexSearcher.search(query, 10); System.out.println(\总记录数是：\+topDocs.totalHits);

//返回结果的数组(得分文档)

ScoreDoc[] scoreDocs=topDocs.scoreDocs; //返回一个击中..

for(ScoreDoc scoreDoc:scoreDocs){

int docID=scoreDoc.doc; //根据编号去击中对应的文档

//lucene的索引库里有很多document,lucene为每个document定义一个编号，唯一标识(docId)，是自增长的。 Document document=indexSearcher.doc(docID); }

System.out.println(document.get(\)); System.out.println(document.get(\)); System.out.println(document.get(\));

}

2.4 创建索引与搜索的原理分析 2.4.1 建立索引的执行过程

在建立索引时，先要把文档存到索引库中，还要更新词汇表。如下图：

1. 我们做的操作：把数据对象转成相应的Document，其中的属性转为Field。 2. 我们做的操作：调用工具IndexWriter的addDocument(doc)，把Document添加

到索引库中。

3. Lucene做的操作：把文档存到索引库中，并自动指定一个内部编号，用来唯一标识这

条数据。内部编号类似于这条数据的地址，在索引库内部的数据进行调整后，这个编号就可能会改变，同时词汇表中引用的编号也会做相应改变，以保证正确。但我们如果在外面引用了这个编号，前后两次去取，得到的可能不是同一个文档！所以内部编号最好只在内部用。

4. Lucene做的操作：更新词汇表。把文本中的词找出并放到词汇表中，建立与文档的对

应关系。要把哪些词放到词汇表中呢，也就是文本中包含哪些词呢？这就用到了一个叫做Analyzer（分词器）的工具。他的作用是把一段文本中的词按规则取出所包含的所有词。对应的是Analyzer类，这是一个抽象类，切分词的具体规则是由子类实现的，所以对于不同的语言（规则），要用不同的分词器。如下图：

在把对象的属性转为Field时，相关代码为：doc.add(new Field(\,

共6页:

lucene全文检索精华.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档