lucene全文检索
1 概念
全文检索(Full-Text Retrieval)是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程.
1.1 lucene全文检索的特性
全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和快速是衡量全文检索系统的关键指标。
关于全文检索的特性,我们要知道:1,只处理文本。2,不处理语义。3,搜索时英文不区分大小写。4,结果列表有相关度排序。
下图就是显示“1+1等于几”这个搜索要求对应的结果。可以看到,是没有“2”这个结果的,结果页面都是出现了这些词的网页 .
1.2 全文检索的应用场景
我们使用Lucene,主要是做站内搜索,即对一个系统内的资源进行搜索。如BBS、BLOG中的文章搜索,网上商店中的商品搜索等。使用Lucene的项目有Eclipse、Jira等。一般不做互联网中资源的搜索,因为不易获取与管理海量资源(专业搜索方向的公司除外)。
2 第一个lunece程序
2.1 准备lucene的开发环境
搭建Lucene的开发环境只需要加入Lucene的Jar包,要加入的jar包至少要有: ? lucene-core-4.4.0.jar(核心包)
? analysis\\common\\lucene-analyzers-common-4.4.0.jar(分词器) ? highlighter\\lucene-highlighter-4.4.0.jar(高亮) ? \\memory\\lucene-memory-4.4.0.jar(高亮)
? queryparser\\ lucene-queryparser-4.4.0.jar (查询解析)
2.2 实现建立索引功能(IndexWriter)
/**
* 使用indexWriter对数据库建立索引.. * @throws IOException */ @Test
public void createIndex() throws IOException{
//索引存放的位置...
Directory directory=FSDirectory.open(new File(\));
//lucene当前使用的匹配版本
Version matchVersion=Version.LUCENE_44;
//分词器,对文本进行分词,抽象类,由子类实现不同的分词方式
Analyzer analyzer=new StandardAnalyzer(matchVersion); //索引写入的配置
IndexWriterConfig indexWriterConfig=new
//构建用于操作索引的类
IndexWriter indexWriter=new IndexWriter(directory,
IndexWriterConfig(matchVersion, analyzer);
indexWriterConfig);
//索引库里面的要遵守一定的结构,(索引结构...) 在索引库当中保存的都是document
Document doc=new Document(); //索引document里面页游很多的字段... /**
* 1:字段的名称 * 2:字段对应的值
* 3:该字段在索引库中是否存储 */
IndexableField id=new IntField(\, 1, Store.YES);
//StringField不会根据分词器去拆分,只有后面的String全包括才能被搜索到 IndexableField title=new StringField(\, \培训,传智播客//TextField如果按照默认分词器去拆分,中文则是按照单个中文拆分的
专注Java培训10年\, Store.YES);
IndexableField content=new TextField(\, \培训的龙头老
大,口碑最好的java培训机构,进来看看同学们的呐喊\, Store.YES); doc.add(id);
}
doc.add(title); doc.add(content);
indexWriter.addDocument(doc);
indexWriter.close();
2.3 实现搜索功能(IndexSearcher)
/**
* 使用indexSearcher对数据进行搜索 * @throws IOException */ @Test
public void queryIndex() throws IOException{
//索引存放的位置
Directory directory=FSDirectory.open(new File(\)); //创建索引读取器
IndexReader indexReader=DirectoryReader.open(directory);
//通过indexSearcher去检索索引目录...
IndexSearcher indexSearcher=new IndexSearcher(indexReader);
//我们以后只要根据索引查找,整个过程肯定要分2次..
//这是一个搜索条件..,通过定义条件来进行查找...(可以拿到编号,编号都放在了//term 我需要根据哪个字段进行检索,字段对应的值...
//Query是抽象类,由子类去实现不同的查询规则
Query query=new TermQuery(new Term(\, \));
//搜索先搜索索引目录(第一次搜)..不会直接搜索到document(第二次搜) //找到符合query条件的前面N条记录...如果不加条件则会全部查询出来
ScoreDoc数组中,遍历数组就获得了编号)
TopDocs topDocs=indexSearcher.search(query, 10); System.out.println(\总记录数是:\+topDocs.totalHits);
//返回结果的数组(得分文档)
ScoreDoc[] scoreDocs=topDocs.scoreDocs; //返回一个击中..
for(ScoreDoc scoreDoc:scoreDocs){
int docID=scoreDoc.doc; //根据编号去击中对应的文档
//lucene的索引库里有很多document,lucene为每个document定义一个编号,唯一标识(docId),是自增长的。 Document document=indexSearcher.doc(docID); }
System.out.println(document.get(\)); System.out.println(document.get(\)); System.out.println(document.get(\));
}
2.4 创建索引与搜索的原理分析 2.4.1 建立索引的执行过程
在建立索引时,先要把文档存到索引库中,还要更新词汇表。如下图:
1. 我们做的操作:把数据对象转成相应的Document,其中的属性转为Field。 2. 我们做的操作:调用工具IndexWriter的addDocument(doc),把Document添加
到索引库中。
3. Lucene做的操作:把文档存到索引库中,并自动指定一个内部编号,用来唯一标识这
条数据。内部编号类似于这条数据的地址,在索引库内部的数据进行调整后,这个编号就可能会改变,同时词汇表中引用的编号也会做相应改变,以保证正确。但我们如果在外面引用了这个编号,前后两次去取,得到的可能不是同一个文档!所以内部编号最好只在内部用。
4. Lucene做的操作:更新词汇表。把文本中的词找出并放到词汇表中,建立与文档的对
应关系。要把哪些词放到词汇表中呢,也就是文本中包含哪些词呢?这就用到了一个叫做Analyzer(分词器)的工具。他的作用是把一段文本中的词按规则取出所包含的所有词。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言(规则),要用不同的分词器。如下图:
在把对象的属性转为Field时,相关代码为:doc.add(new Field(\,