lucene全文检索精华

2019-08-31 12:51

lucene全文检索

1 概念

全文检索(Full-Text Retrieval)是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程.

1.1 lucene全文检索的特性

全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。

关于全文检索的特性,我们要知道:1,只处理文本。2,不处理语义。3,搜索时英文不区分大小写。4,结果列表有相关度排序。

下图就是显示“1+1等于几”这个搜索要求对应的结果。可以看到,是没有“2”这个结果的,结果页面都是出现了这些词的网页 .

1.2 全文检索的应用场景

我们使用Lucene,主要是做站内搜索,即对一个系统内的资源进行搜索。如BBS、BLOG中的文章搜索,网上商店中的商品搜索等。使用Lucene的项目有Eclipse、Jira等。一般不做互联网中资源的搜索,因为不易获取与管理海量资源(专业搜索方向的公司除外)。

2 第一个lunece程序

2.1 准备lucene的开发环境

搭建Lucene的开发环境只需要加入Lucene的Jar包,要加入的jar包至少要有: ? lucene-core-4.4.0.jar(核心包)

? analysis\\common\\lucene-analyzers-common-4.4.0.jar(分词器) ? highlighter\\lucene-highlighter-4.4.0.jar(高亮) ? \\memory\\lucene-memory-4.4.0.jar(高亮)

? queryparser\\ lucene-queryparser-4.4.0.jar (查询解析)

2.2 实现建立索引功能(IndexWriter)

/**

* 使用indexWriter对数据库建立索引.. * @throws IOException */ @Test

public void createIndex() throws IOException{

//索引存放的位置...

Directory directory=FSDirectory.open(new File(\));

//lucene当前使用的匹配版本

Version matchVersion=Version.LUCENE_44;

//分词器,对文本进行分词,抽象类,由子类实现不同的分词方式

Analyzer analyzer=new StandardAnalyzer(matchVersion); //索引写入的配置

IndexWriterConfig indexWriterConfig=new

//构建用于操作索引的类

IndexWriter indexWriter=new IndexWriter(directory,

IndexWriterConfig(matchVersion, analyzer);

indexWriterConfig);

//索引库里面的要遵守一定的结构,(索引结构...) 在索引库当中保存的都是document

Document doc=new Document(); //索引document里面页游很多的字段... /**

* 1:字段的名称 * 2:字段对应的值

* 3:该字段在索引库中是否存储 */

IndexableField id=new IntField(\, 1, Store.YES);

//StringField不会根据分词器去拆分,只有后面的String全包括才能被搜索到 IndexableField title=new StringField(\, \培训,传智播客//TextField如果按照默认分词器去拆分,中文则是按照单个中文拆分的

专注Java培训10年\, Store.YES);

IndexableField content=new TextField(\, \培训的龙头老

大,口碑最好的java培训机构,进来看看同学们的呐喊\, Store.YES); doc.add(id);

}

doc.add(title); doc.add(content);

indexWriter.addDocument(doc);

indexWriter.close();

2.3 实现搜索功能(IndexSearcher)

/**

* 使用indexSearcher对数据进行搜索 * @throws IOException */ @Test

public void queryIndex() throws IOException{

//索引存放的位置

Directory directory=FSDirectory.open(new File(\)); //创建索引读取器

IndexReader indexReader=DirectoryReader.open(directory);

//通过indexSearcher去检索索引目录...

IndexSearcher indexSearcher=new IndexSearcher(indexReader);

//我们以后只要根据索引查找,整个过程肯定要分2次..

//这是一个搜索条件..,通过定义条件来进行查找...(可以拿到编号,编号都放在了//term 我需要根据哪个字段进行检索,字段对应的值...

//Query是抽象类,由子类去实现不同的查询规则

Query query=new TermQuery(new Term(\, \));

//搜索先搜索索引目录(第一次搜)..不会直接搜索到document(第二次搜) //找到符合query条件的前面N条记录...如果不加条件则会全部查询出来

ScoreDoc数组中,遍历数组就获得了编号)

TopDocs topDocs=indexSearcher.search(query, 10); System.out.println(\总记录数是:\+topDocs.totalHits);

//返回结果的数组(得分文档)

ScoreDoc[] scoreDocs=topDocs.scoreDocs; //返回一个击中..

for(ScoreDoc scoreDoc:scoreDocs){

int docID=scoreDoc.doc; //根据编号去击中对应的文档

//lucene的索引库里有很多document,lucene为每个document定义一个编号,唯一标识(docId),是自增长的。 Document document=indexSearcher.doc(docID); }

System.out.println(document.get(\)); System.out.println(document.get(\)); System.out.println(document.get(\));

}

2.4 创建索引与搜索的原理分析 2.4.1 建立索引的执行过程

在建立索引时,先要把文档存到索引库中,还要更新词汇表。如下图:

1. 我们做的操作:把数据对象转成相应的Document,其中的属性转为Field。 2. 我们做的操作:调用工具IndexWriter的addDocument(doc),把Document添加

到索引库中。

3. Lucene做的操作:把文档存到索引库中,并自动指定一个内部编号,用来唯一标识这

条数据。内部编号类似于这条数据的地址,在索引库内部的数据进行调整后,这个编号就可能会改变,同时词汇表中引用的编号也会做相应改变,以保证正确。但我们如果在外面引用了这个编号,前后两次去取,得到的可能不是同一个文档!所以内部编号最好只在内部用。

4. Lucene做的操作:更新词汇表。把文本中的词找出并放到词汇表中,建立与文档的对

应关系。要把哪些词放到词汇表中呢,也就是文本中包含哪些词呢?这就用到了一个叫做Analyzer(分词器)的工具。他的作用是把一段文本中的词按规则取出所包含的所有词。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言(规则),要用不同的分词器。如下图:

在把对象的属性转为Field时,相关代码为:doc.add(new Field(\,


lucene全文检索精华.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:帮助孩子正确面对挫折与失败

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: