天津市科技发展计划项目申请书(2)

2019-07-30 13:32

项目经费其以及中来源总经费市财政拨款银行贷款单位自筹其它 50 万元 25 万元万元 25 万元万元项目负责人及其项目组保证与承诺：我谨代表项目组全体成员保证 1.本申请书提供的材料真实可靠，不存在知识产权争议； 2.我们将严格按照天津市科技发展计划管理办法认真履行项目合同，采取一切措施确保项目进度和达到预期目标和技术经济指标； 3.严格按照科技经费开支范围使用政府资助经费； 4.若遇重大变动，一定及时向市科委报告并履行程序; 5.其它（请叙述）：项目负责人签名（亲笔）：年月日主承担单位承诺： 1.优先提供本项目实施所必须的工作条件、人力资源和物质保障； 2.严格按照项目经费预算管理项目资金，确保自筹经费和银行贷款按时到位； 3.严格管理项目组成员，任何情况下均不因人员出国、调动等原因而影响项目指标和目标的完成； 4.认真协调合作单位关系，督促项目组及时报送项目进度报告和按期结项验收； 5.申请政府补贴资金额度不能得到完全批准时.差额部分由本单位筹集.项目指标不下降； 6.同意市科委在政务公告和对外宣传中使用本项目的基本信息。 7.其它（请叙述）：单位负责人（签字）：（单位公章）年月日第二承担单位承诺：第三承担单位承诺：我们将认真履行合作单位职责，确保项我们将认真履行合作单位职责，确保项目目按合同完成。年月日按合同完成。年月日负责人（签字）：（单位公章）负责人（签字）：（单位公章）局级主管部门审查意见（无上级主管的单位由注册地区县科技主管部门填写）：同意申报。我们将认真履行管理职责，督促项目承担单位和项目负责人按合同完成项目，实现预期目标，及时结项验收。负责人（签字）：（单位公章）年月日

2. 项目实施方案（提纲）

1．研究目的、意义和必要性（主要包括项目提出的背景和必要性。国内外

现状和技术发展趋势、市场需求分析。本项目在产业链发展中的地位与作用，说明项目产业化前景以及对相关技术与产品及其产业的带动作用等。）

我们正处于“信息爆炸”的时代，因特网是最主要的信息源。然而，因特网信息使用技术的发展往往跟不上因特网信息的增长。搜索引擎可以为人们查找与关键词相关的文档，但返回的结果往往是文档数量太多而命中率不高。如何合理地挖掘和利用Web信息，使因特网的巨大作用和潜能得以发挥，一直是具有挑战性的课题。

现有的Web搜索引擎普遍存在以下两方面的问题[1,2,3]：

首先，绝大部分搜索引擎，如国外的Google (http://www.google.com), Yahoo (http://www.yahoo.com),国内的天网(http://bingle.edu.cn/),百度（http://www.http://www.wodefanwen.com/）等都属于通用型的信息检索系统，它们索引的内容覆盖到所有领域。然而，由于Web信息量增长极快，作为开发和维护此类搜索引擎的实体，出于经济和技术等方面的考虑，往往不能也无法做到把Web空间上的所有内容都收录进来，因此出现搜索不完全的现象。在信息选取的策略方面，也会出现某些倾向性。比如，出于商业利益上的考虑，大部分搜索引擎都会优先搜索本国站点，优先搜索商业价值高的.com站点，而对于其他国家的许多站点就相对忽略。此外，由于其服务器存储容量的限制，Google等还规定每个站点最多索引3000个页面[4]。这样，对于某个特定的领域或主题，通用搜索引擎无法保证在信息采集方面做到真正的全面。从另一方面看，通用搜索引擎的海量存储不利于对索引内容的实时更新，存在更新成本高、频率低、周期长等问题，无法保证提供给用户的信息总是最新的，并不可避免地出现大量的“空链接”[5]。

其次就是检索模式单一，检索精度低[6,7]。目前搜索引擎在检索的时候主要还是基于传统的“关键词匹配”，常常会因为关键词存在歧义性影响查询的准确性。再加上Web信息数量庞大，而用户在进行Web信息检索时输入的查询关键词通常比较简单（70%的情况下只输入单个词[8]），导致查询结果集膨胀，用户必须在大量的与自己查询意图相关和不相关的结果集中寻找自己需要的东西。

九十年代之后，国外出现了面向领域（或主题）的Web信息检索系统，例如CiteSeer(http://www.CiteSeer.com)，Coral(http://www.coral.justsearch.com)[9,10]。面向领域（或主题）的Web搜索引擎追求的是“小而全，小而精”[11]：由于搜索范围小，可以对该领域的内容进行全面索引；由于信息存储量相对较小，索引数据库的更新速度较快[12]；还可以充分结合领域知识的特点，在优化信息抽取、丰富查询模式、提高检索精度等方面做更多的工作。比如，可以建立更加结构化的索引数据库以支持用户多种查询功能，可以分析本领域特定访问群体的查询特点以提供更加专门化、个性化的查询功能。而且，由于用户查询的范围限定在某个特定领域，可以在一定程度上避免查询词的歧义性，从而提高查询的准确度。总之，建立面向领域的高性能信息检索系统，不但在特定领域信息覆盖量、信息更新速度等方面有明显的优势，提高了检索质量，而且可以满足用户的特定查询需求。因此，面向领域（或主题）的Web信息检索系统是今后的重要发展方向。目前国内尚未出现成熟的面向领域的检索系统。

本课题开发面向领域的Web信息检索技术，对于我市实施信息化带动现代化有积极意义。天津市是我国北方的经贸中心，近年一直保持经济快速增长的强劲势头，全市经济发展已经全面驶入了快车道。为了不断迎接新挑战，抢占发展先机，做到与国际接轨，各企事业单位和各级行政部门的工作人员和决策者都需要随时获取确切而全面的相关信息资料。本课题所开发的高性能智能检索系统将为用户提供本领域全面而确切的相关信息，将成为企事业单位工作人员和决策者的得力助手和信息秘书。

当今任何行业的发展都离不开信息的带动和支持。面向领域的检索系统可为相关行业提供准确、全面、及时的信息，有利于掌握市场动向，做出正确决策，优化资源配置，提高行业的经济效益和服务水平。

参考文献：

[1] Andrew McCallum, Kamal Nigam etc, Building Domain-Specific Search Engines with Machine Learning

Techniques, School of Computer Science, Carnegie Mellon University,2002.

[2] Soumen Chkrabariti,Martin van den Berg,Byron Dom, Focused crawling:a new approach to topic-sepcific

Web resource discovery, published by Elsevier Science B.V.,1999.

[3] M.Diligenti, F.Mcoetzee,S.Lawrence,C.L.Giles and M.Gori, Focused Crawling Using Context

Graphs ,2000.

[4] Ph.D. in Computer Science at the University of Washington, Seattle. Areas of interest: Information

Retrieval, User Interfaces, Machine Learning and Knowledge Discovery.M.S. received 1997.

[5] Krellenstein, M., Chief Technology Officer, Northern Light Technology LLC. The added value of

classification intelligence. Talk at the 2001 Search Engines and Beyond Conference, 2001.

[6] Boyan, J., Freitag, D. and Joachims, T. A machine architecture for optimizing Web search engines. In

Proceedings of the AAAI-99 Workshop on Internet based Information Systems, 1999.

[7] Robert Steele, Techniques for Specialized Search Engines,Department of Computer Systems,University of

Technology ,Sydney,2001.

[8] Brin, S. and Page, L. The anatomy of a large-scale hypertextual Web search engine. In Proceedings of the

Seventh International Web Wide World Conference (WWW7), 1998. [9] http://www.CiteSeer.com. [10] http://www.cora.justsearch.com. [11]

Taher

H.Haveliwala,Topic-Sentsitive

PageRank,

Computer

Science

Department,Standford

University,2002.

[12] Guha, S., Rastogi, R. and Shim, K. CURE: An efficient clustering algorithm for large databases. In Proceedings of the ACM-SIGMOD 1998 International Conference on Management of Data (SIGMOD’98), 73-84, 1998.

2．基础条件（主要包括项目前期工作、现有技术基础和工作基础、国内外的专利情况、研究队伍和产学研情况该项目产业链条中的位置和作用等）

课题组在相关领域具有很强的学术背景。自20世纪90年代以来，一直从事人工智能、自然语言处理和信息检索方面的研究，已开发出拥有自主版权的信息检索辅助系统，包括中文分词工具、分词性能评价工具、中文文本分类工具、简易词性标注工具及词共现模型研究工具等，并发表几十篇相关论文。

本课题组与亚洲微软研究院合作建立了计算语言学研究室。多次派遣访问学生到亚洲微软研究参加并出色完成高水平的研究工作。与亚洲微软研究院合作参加TREC-10，取得了优异的成绩。

研究小组成员具有计算机和语言处理等多重研究背景，学科交叉将保证本课题高水平完成。项目负责人有完成多项国家自然科学基金项目的经验，刚刚完成的国家自然科学基金高技术项目被评为优秀，项目组成员老中青结合，梯队组成合理。

项目主要参加人田梅是天津科技信息研究所高级工程师，长期从事国内外科技信息咨询，互联网信息资源开发与利用，在信息检索领域具有丰富的经验。

项目主要参加人王中（天津大学在读博士生）任中信证券（天津）电脑部经理，在证券信息咨询领域积累了多年的经验，掌握大量翔实可靠的相关数据。

3．主要研究内容

本课题应用多项Web挖掘和自然语言处理（NLP）技术，结合面向领域信息检索的特点，研究基于拓扑结构挖掘的动态聚类、基于超链接分析的自动摘要和基于访问模式挖掘的查询扩展等项创新性的技术，开发面向领域的智能信息检索系统，为用户准确定位信息资源并提供高质量的检索结果。

本项目研究的关键技术主要有三点： ? 基于拓扑结构挖掘的动态聚类

当前检索系统使用的文本聚类方法，一般是通过向量空间模型将文本标准化，形成基于距离或密度的文本层次聚类。这些方法没有充分考虑Web拓扑结构的特点，准确度还有较大的提高空间。

考虑到网站的设计者在规划网站页面时，总会根据内容特点将其放到一个合适的位置，通过Anchor文本对其内容进行适当的描述，以吸引用户浏览相关内容，我们拟采用“基于拓扑结构挖掘的动态聚类”的新思路。依据Web页面文本所在的位置，挖掘出网页在网站中的层次类别信息，通过这些信息进行动态聚类。把网站的聚类层次结构看作是一个树形目录，基于拓扑结构挖掘的动态聚类就是将这个树形目录进行归并，动态生成一个“聚类树”，从而为用户提供一种“动态的目录聚类查询服务”。 ? 基于超链接分析的自动摘要

当前绝大部分Web信息检索系统的返回结果中不包含目标网页的摘要，只提供包含检索词的部分文本，用户难以通过这些文本确定目标页面的中心内容，只有在打开目标网页后才能知道是否是所需要的信息。显然，如果提供目标网页的摘要，可为用户节省大量的时间和精力。国内外对文本摘要技术的研究已有多年，但主要是针对纯文本而设计的。

考虑到网页及其链接比纯文本包含更丰富的信息，我们拟采用“基于超链接分析的自动摘要”方法，利用半结构化网页提供的隐含信息来提高网页文本摘要的精确度。为了充分利用这些信息，首先挖掘出网页的超链接信息，得到所有链接到该网页的文本，并根据语法/语义规则进行噪音过滤，得到该网页的特权候选摘要语句；然后利用HTML标识的知识和纯文本的词、句、段及篇章知识，计算网

页中每个词句的权重；最后根据字数的要求提取权重值较大者形成网页摘要。 ? 基于访问模式挖掘的查询扩展

目前查询扩展主要有两种途径：查询前扩展和查询后扩展。查询前扩展就是根据同义词词典、语义蕴涵词典来扩展查询检索项，在提交查询时把与检索项相关的词汇或短语添加到检索条件中；查询后扩展则是在查询后应用相关反馈法发现与查询检索项相关的词汇和短语，把它们添加到检索条件中，再次进行检索。然而，增加检索项容易引入噪音，导致检索到的不相关文本增多。另一方面，查询扩展可能由于引入不适当的关键词产生主题漂移现象。

针对上述情况，我们拟采用“基于访问模式挖掘的查询扩展”方法。通过对用户以往搜索记录的分析，即Web日志挖掘，推测用户的搜索偏好，将偏好近似的用户分类。根据已经建立的用户查询模型产生该类用户的访问模式，由此设计反映访问特征的查询扩展方法。从单一的、静态的、当前的检索过程来看，该方法具有查询前扩展的优点；而从群体的，动态的，历史的检索过程来看，该方法又具有查询后扩展的优点。该方法突破了单一扩展模式的局限，可以在一定程度上抑制噪音，避免主题漂移。

本课题的预期结果是开发面向领域的智能信息检索系统，针对领域用户提出的查询，系统提供全面、准确、精练的相关信息。计划分别面向高等教育和证券信息咨询两个领域进行开发，为今后面向其它领域的开发应用积累经验。

下面举例说明与传统的信息检索系统相比，本课题开发的系统具有的优势。假设某用户需要检索与高等教育的现状和改革相关的研究论文，如果使用通用网站搜索，在www.google.com上输入查询“高等教育的现状和改革”，检索到的文档数量将会大得惊人（例如，17800篇）。假设该用户想要得到的只是相关的研究论文，而通用搜索引擎会把包含“高等教育”，“现状”和“改革”的所有相关报道连同研究论文一同呈现出来，其中大部分并不是该用户想要的。如果使用本课题开发的面向高等教育的智能信息检索系统，将会根据该用户以往的搜索偏好，重点搜索用户喜好的内容，至少会将该用户感兴趣的研究论文放在前面。提交的信息不但准确，而且更全面，还能够提供文本摘要，有利于用户快速掌握目标页面的中心内容。

再看看证券信息咨询领域，目前市场上主要有三种类型的检索服务系统：综合性网站(例如新浪www.sina.com)、专业资讯网站（例如和讯www.homeway.com.cn）和证券公司网站（例如中信证券www.citics.com）。这些检索系统的共同特点是用户必须输入具体的证券代码，证券简称等信息，检索结果也只是一些数据信息的简单罗列，例如走势图、股本结构、财务数据等，不能全面反映股市的状况，无法把行业信息、宏观经济走势、国家政策调整等许多更为丰富的信息提供给投资者进行决策。本课题完成的面向证券信息咨询领域的智能检索系统将有效地解决上述问题。首先，系统对证券领域的特征信息进行抽取，通过机器学习把证券代码、价格、成交量、技术指标、财务指标等数据信息与相关的文本信息绑定起来，建立特征信息库。其次，在此基础上对证券领域的结构化信息和文本信息进行动态聚类、索引和自动摘要，并通过进一步整理形成客户需要的输出形式。最后，通过对用户Web日志的挖掘进行归纳学习，发现并获得用户的习惯性访问模式，从而设计出个性化的查询扩展方法；同时可以发现客户对某些证券、板块、行业及其技术指标、财务指标的兴趣，建立这些项目间的相关性模型，通过相关性模型建立有关文本、数据的快速检索，明显地提高客户查询的响应速度和咨询质量。

共7页:

天津市科技发展计划项目申请书(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档