天津市科技发展计划项目申请书(3)

2019-07-30 13:32

4.研究目标(包括总体目标、实施年限和进度安排、考核指标等)

总体目标:

完成面向高等教育领域和证券信息咨询领域的高性能智能检索软件系统。 实施年限和进度安排:

2004年4月-6月 调研、资料准备、总体设计

2004年7月-12月 文本收集、搭建基本研究系统平台

1) 面向领域的文本收集 建立基本的爬行器,在因特网上收集高等教育领域和证券信息咨询领

域的资料。

2) 建立与领域内容相关的结构化索引数据库 考虑高等教育领域和证券信息咨询领域的特点,

建立与领域内容相关的结构化索引数据库,并为每个页面提取其网站自身的类别信息。 3) 确定PageRank分类策略

4) 利用目前较成熟的传统算法和技术,实现基本的聚类、摘要和查询扩展,搭建基本研究系统

平台

本阶段预计完成系统基础平台的建设,完成高水平论文2篇。

2005年1月-12月 深入研究与集成

1) 在前述系统平台的基础上,对聚类模型、摘要提取算法和查询扩展方法进行改进。

2) 通过本系统在试运行期间提供的日志文件挖掘用户访问模型,研究其与查询扩展相结合的方

案。在支持传统关键词查询的基础上实现“查询扩展功能”和“动态的目录聚类查询服务”。设计并实现个性化查询扩展。

3) 开发个性化、多功能信息查询接口,实现用户输入的自动检错。

4) 建立面向高等教育和证券信息咨询领域的高性能智能检索系统原型投入试运行。 本阶段预计完成技术报告,申请专利2项,并发表高水平论文2-3篇。

2006年1月-2月:系统评测与验收

本阶段将提供系统评测报告和研究工作报告,进行项目验收。 申请软件系统的自主版权。

5.主要技术特点和创新点(包括主要技术特点、创新点和关键技术、技术工艺路线、专利和知识产权等)

技术路线:

合理吸收、有效利用现有的成熟方法,在相关领域已有的研究结果之上,加入我们提出的“基于拓扑结构挖掘的动态聚类”、“基于超链接分析的自动摘要”、“基于访问模式挖掘的查询扩展”等新方

法。以集成化的技术路线完成智能检索系统的研究和开发,将数据挖掘、自然语言处理等人工智能技术与网络、数据库技术相融合。具体分以下三个阶段实现。

阶段一 搭建试验平台。建立结构化的面向高等教育领域和证券信息咨询领域的Web信息检索系统,开发爬行器、后台数据库和前台界面。这一阶段主要是实现当今大部分Web信息检索系统所具有的基本功能。试运行该Web信息检索系统,搜集相当齐全的关于高等教育领域和证券信息咨询领域的Web页面。

阶段二 技术探索。深入研究如下3方面的关键技术:

1)动态聚类:通过挖掘网站自身的拓扑结构/布局,获取该网站中表征页面分类特征的结构信息,利用分类特征标识进行聚类。利用语义分析、贝叶斯算法、决策树等技术将这些树形目录加以削减、结合、归并,动态生成一个“层次结构聚类树”。

2)自动摘要:挖掘网页链接中相关联的Anchor文本和其所在段落所提供的隐含的、带有导航性描述内容的关键字词句,利用半结构化网页提供的隐含信息来提高网页文本摘要的精确度。首先进行结构挖掘,挖掘出所有通过超链接指向该网页的文本,并根据语法/语义规则进行噪音过滤,得到该网页的特权候选摘要语句;然后进行内容挖掘,通过HTML标识的知识和纯文本的词、句、段及篇章知识,计算网页文本中每句话的权重;最后根据字数要求,通过关联度分析、语法分析生成摘要。

3)查询扩展:应用相关反馈法,综合使用查询前扩展和查询后扩展两种方法,通过Web日志挖掘得到用户的查询习惯和兴趣特点,建立个性化的查询扩展模型。利用该模型,结合词共现和语义分析技术,对查询进行修改、扩展并自动选择搜索策略。

阶段三 系统集成。将第二阶段的研究成果整合到试验平台系统中,并进行系统评测和改进。

拟解决的关键问题:

1) 基于网站拓扑结构挖掘的动态聚类模型

2) 超链接分析与Web结构挖掘相结合的摘要形成技术 3) 基于用户访问模式的查询扩展方法

6.总投资预算、资金筹措方式及来源(包括项目总投资概算、新增资金筹措及来源、资金使用计划等)

项目的总投资预算为50万元,其中25万元申请市政府拨款,在与中信证券合作的基础上,由天津大学和中信证券自筹25万元经费。随着项目的进展和市场前景的变换,根据形势决定新增资金的数目。目前申请的资金11万元用于服务器等设备的购置和词典、语料库等语言处理工具的购买。9万元用于购买微机、人工处理语料等能源耗材费用。其它资金用于实验测试、会议差旅等。

7.预期成果的经济、社会、环境效益分析及成果应用、产业化衔接情况(包括产品成本分析、产品单位售价与盈利预测、经济效益分析、项目投资评价、社会效益分析等)

信息需求已成为企业最重要的资源需求之一,而专门行业对其所需要的信息又具有特殊性,这导

致了对面向领域的检索系统的迫切需求。而目前国内尚无此类系统,广泛的行业应用空间为本项目的产出/投入比提供了坚实的保证。巨大的市场潜力也确保了项目投资可顺利回收并获取丰厚赢利。同时,本项目不仅填补了我国在这方面的空白,而且将推动行业的信息化步伐。

随着我国经济的发展,证券行业知识更新的速度越来越快,投资者对证券知识以及相关经济、法律、各行业等背景信息的关注程度和咨询需求越来越高;同时,目前证券行业垄断性低,全国有百余家证券公司,市场竞争激烈,相互之间在不断地压低成本、提高服务质量,面向证券领域的智能检索系统对提高证券公司的核心竞争力有着重要的作用。目前,证券行业的网上交易相当流行,我们的系统可以嵌入网上交易中为投资者提供便捷、及时的定制信息服务;同时,可以为证券公司客户服务中心的建设提供信息检索方面的核心技术,因此,面向证券领域的智能检索系统具有良好的市场前景。

我们预计在全国百余家证券公司实现30%的市场占有率,每套计划售价15万元,可实现销售额450余万元;每家证券公司的年维护费1万元,每年的维护费总额计30万余元。

在教育领域,我们将着重以社会效益为主,以普及教育知识为目的,为广大师生提供便利的信息服务,同时有助于提高学校管理效率。我们计划向全国1000多所高校免费赠送智能检索系统,同时每年向每所学校收取技术维护费1000元,每年的维护费总额预计100万元。

更有效的出售形式是:掌握本项目的核心技术后,我们可以向各个行业的企事业单位转让核心技术,这些技术可以嵌入到其它软件产品。而且通过这种方式,购买方可以自己在行业内进行扩展。这样,因为不需要承担向具体行业扩展的任务,所以我们可以只专心于研究专有的核心技术,同样可获得良好的经济效益。

8.风险分析(包括技术、人员、市场、政策和项目承担单位等方面)

本项目中用到了一些成熟技术,也用到一些自主开发的关键技术。关键技术利用现有语料库已经得到初步验证。集成这些技术的过程中可能出现磨合的问题,但经过反复调试是可以解决的,技术风险很小。任何新的软件系统都有一定的市场风险,但是本系统的市场很广阔,加上发展信息产业为我国长期方针,因此市场风险不大,更没有政策风险。

9.承担单位简介及合作方式(如有国际科技合作内容请简要叙述合作内容、方式、主要合作人员等)

本项目的承担单位天津大学是教育部直属重点大学,是中国近代第一所大学。

10.项目负责人及主要成员简介(姓名、性别、年龄、学历、学位、技术职称与职务以及与项目相关的主要工作业绩等)

项目负责人

何丕廉 男 60岁,研究生,天津大学信息学院教授 博士生导师 天津大学-微软研究院计算语言学

研究室主任

1968 北京大学物理系研究生毕业 1981-1983 日本神户大学系统工程系访问学者

1996.7-12 美国罗德爱兰大学计算机系高级访问学者 近期发表的与本项目有关的主要论著:

1. 一种基于上下文的中文信息检索查询扩展,中文信息学报, Vol.16, No. 6, 2002.11

2. 利用人工和自动生成的资源进行中文信息检索查询扩展,计算机工程与应用, Vol.38 , No.21,

2002.11

3. Query Expansion for Chinese Information Retrieval by Using a Decaying Co-occurrence Model,

Transactions of Tianjin University, Vol.8 No.3 ,2002.3

4. On Difficulties of Chinese-English Machine Translation, IEEE Proceeding of 2002 International

Conference on Machine Learning and Cybernetics(ICMLC-2002),Nov. 2002 Beijing, China 5. Dynamic Clustering Analysis of Documents Based on Cluster Centroids,IEEE Proceeding of 2003

International Conference on Machine Learning and Cybernetics (ICMLC-2003), Nov. 2003 ,Xian, China

6. Algorithm of Documents Clustering Based on Minimum Spanning Tree,IEEE Proceeding of 2003

International Conference on Machine Learning and Cybernetics (ICMLC-2003), Nov. 2003 ,Xian, China

7. Chinese Segmentation System Based on Document Self-Matching for Identifying the Unknown Words,

IEEE Proceeding of 2003 International Conference on Machine Learning and Cybernetics (ICMLC-2003), Nov. 2003,Xian, China

8. Web 日志挖掘中的数据预处理技术研究,计算机应用Vol.23, No.5 ,2003.5 9. 基于结构挖掘的Web文本自动分类技术, 计算机应用Vol.3, No.7 ,2003. , 2003.7

10. Performance of Two Information Retrieval Systems in Chinese IR: SMART System and Okapi System ,

IEEE Region 10 Technical Conference on Computers, Communications, Control and Power Engineering(TENCON’02) Oct. 28-31,2002 Beijing, China

11. 中文分词对中文信息检索系统性能的影响,计算机工程与应用,Vol.39 ,No.19 2003 12. 基于向量空间模型的词共现研究及其在文本分类中的应用,计算机应用Vol.23,No.6,2003 13. 时间延迟反馈神经网络及其在股市预测中的应用,南京大学学报(自然科学),2000.10 14. 自适应随机链路状态路由算法,计算机研究与发展, Vol.39, No.11, 2002.11 15. 语音/数据同帧传输方法,天津大学学报, Vol.35, No.5 Sep. 2002 16. 二值图象压缩标准-JBIG2,计算机工程与应用, Vol.38 No.13, 2002.7 17. 神经网络与模糊技术的结合与发展,计算机应研究Vol.18 No.5,2001.5 18. 模糊聚类神经网络的非对称性学习算法,计算机研究与发展,Vol.38 No.3, 2001.3 19. 基于神经网络的时间序列鲁棒预测,控制与决策, Vol.16 No.3,2001.3 20. 基于预测复杂性的神经网络预测子辨识,信息与控制Vol.30 No.1,2001.2 21. PHP在Web数据库的应用研究,计算机工程,2000.9, Vol.26 No.9 22. 基于WWW的学习语义网络导引图,ICCE'98,1998

23. 论数据库技术与人工智能的融合,计算机工程与设计,1999.10 Vol.20 No.5

24. 适用于高必要嵌入维的混沌时间序列预测算法,天津大学学报,Vol.32 No.5 1999.9

科研成果及获奖情况:

1 智能化课件写作系统,国家自然科学基金(主持),1989 完成

2人工智能在微波电路CAD中的应用,国家自然科学基金(参加),1993完成

3 师生同步协作的超媒体虚拟教室,国家自然科学基金高技术项目(主持),2000完成 4基于CSCW的远程教学环境,天津市自然科学基金重点科学基金(主持),2002完成 4 超媒体智能CAI系统,天津市自然科学基金(主持),1998 完成 5 交互式程序自动生成系统,天津市自然科学基金(主持),1995 完成 6 实用多机系统的研制与开发,天津市自然科学基金项目(参加),1996 完成 7教育网络管理系统,九五攻关项目(参加),已商品化,1993 完成 8 通用报表生成程序系统 ,中国计算机用户协会软件应用成果奖 ,1985 9 企业管理自动化多层微机局部网络 ,天津市科学技术进步三等奖 ,1986 10 微型机及其应用课程教学改革及实践 ,天津市优秀教学成果三等奖 ,1993 11通用课件写作系统CACAS,全国首届最佳CAI软件二等奖(软件平台最高奖), 1994 12网上虚拟教室——同步浏览与交互学习,天津市教委一等软件,1999

主要参加人

孙学军 男 57岁,本科,副教授,1970年至今一直从事计算网络与机通信方面的教学和科研工作。主要论著和科研成果如下:

[1] A New Mobility Management and Routing Scheme for Mobile Computing Environments, Journal of

Tianjin University, 2002. Vol.8(4).

[2] Agent-Based Approach for Universal Personal Computing, IEEE APCCA 2000, 2000.12 [3] Self-Adaptively Randomized Loop-Free Routing Algorithm, ASIAN MIRROR, 2001(34) [4] Research on Sharing Compressed File in Different Systems. IEEE APCCAS 2000 2000.12 [5] 语音/数据同帧传输方法,天津大学学报,2002. Vol.35(5) [6] 自适应随机链路状态路由算法,计算机研究与发展,2002.11 [7] 语音与数据综合传输的带宽利用率,计算机工程,2003.12 [8] 未来因特网的移动性支持,计算机应用研究,2003.12

[9] 基于神经网络时间序列鲁棒预测,控制与决策,2001,Vol.16(3) [10] 锁相式跳频器快速锁定的研究,国家自然科学基金,1989.12 [11] 师生同步协作的多媒体虚拟教室,国家自然科学基金,2000.12 [12] 基于CSCW的远程教学环境,天津市重点基金,2001.12

[13] 智能化网络多媒体教学支撑环境及软件库,天津市重点基金,2002.9~2004.3 田梅 女 48岁,本科,天津市科技信息研究所高级工程师 天津市科技情报学会会员 天津市图书馆学会会员 天津市科技信息研究所网络与信息资源建设领导小组成员

1988年8-11月赴日参加 JICA 信息处理人员培训 1994年5-6月赴美参加VAX7610操作系统培训 1995年11月初率先在本市主讲Internet 培训课。

参加《天津联科信息网络系统研究》课题,获1996年"天津市最佳科技信息成果一等奖"。 2001年 先后完成的互联网上免费全文科技期刊网址等信息200余条、互联网上世界各国专利免费全文检索报告及跟踪报告、DIALOG5000种刊物试用评估报告。


天津市科技发展计划项目申请书(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:浙江师范大学 税法与税收筹划期末复习题库(附答案)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: