语义map的数据结构++(2)

2020-02-21 01:36

词汇、单个概念、概念体系、语法规则等核心语义领域,都会用不同的1个或数个XML文档描述,以此支持相应的思维过程或函数,不断处理语义信息。 单个XML结构内的元素:节点,节点集合s,节点名,值 ,表达不同于语义关系:

节点与值可以表达属性和值的关系;同一节点下多个值的关系是直接并列关系,节点与节点直接体现不同层次的关系;同一层次下节点与节点拥有共同的上一级抽象内容.......,用于表达概念的语义结构。

以搜索和匹配为基本操作,建立一系列过程,处理语义数据,模拟从词汇、句式、内涵、概念的回忆、匹配、判断、基本疑问等简单直接的理解过程,支持用简单过程组合更复杂的思维过程。思维过程(函数)中输入参数、控制参数、函数值,及其之间的相互关系 ,也将对应语义思维中各种元素和关系。

举例:语义map.xml,本系统将这个XML文档专用于自上而下装载最常用概念。文档中每一个值,都代表自然语言中的一个概念。

0.2拟人思维引擎的XML语义库预览 分类描述: 0.2.1概念库:由独立概念和概念集合(库)组成。 我们对大部分事物处于不完整的理解状态(一知半解)状态,使用独立概念文档模板中规定的格式属性,汇集在同一个文档中描述,比如:甘蔗是一种水果,那么就使用水果概念模板,(甘蔗的形状)长约...直径约...,(营养成分)多汁,甜.......;信息以一些相对固定句式的简化方式在预备概念库中存储。 认识内容深刻全面的概念,按照形成独立概念文档,可以分为事物、运动、理论、领域......等不同模板。通常,长期经历的关键内容,认真学习思考过事物,积累后会形成独立概念:如日常生活中的“物体”及其分类 、“利益”、你学习且正在的各种学科,自己的职业领域。 概念存储了大家公认的客观信息,可以按照多种标准划分并存入不同位置:生活常识、各种学科划分、单个概念和词汇相关;可以独立生成XML文档,也可分散到个重要概念中,甚至预备概念库的更低一级标签中。 0.2.1.0概念map库 将常见和基础的概念汇集形成概念map库。该xml文档自上而下建立了概念之间相互关联的结构空间,对概念运用画龙点睛的作用,将成为语义分析最频繁使用的数据库。后面将围绕概念map进行最详细的讨论。 0.2.2经验知识库: 经验知识是以个体为基础掌握的信息(不等于仅自己掌握),经验隐含着“特殊的,不确定大家都经历的,也未必是普遍适用的”知识,来源可以是亲历、听说、阅读、自己思考猜测推断等。 知识和经验,都使用语言概念系统描述的“存在”,而存在,则一定与时间、空间、认知主体有关。所以知识经验库中,时间、空间、主体(主要指认知主体)是必要元素,如果缺少则使用隐含参数补足。

经验库将按照不同内容和方式分类,分别存入不同区域: 1、词汇的使用经验,必然在按照核心词分散到很多的概念(预备概念)的同时,也在词组类型的经验库;将词汇按句型顺序排列即形成句子经验库。 2、亲身经历之类的经验,这一类经验内容通常特别丰富详实,因为包含了主体认知方面的内容,包括时间地点、自己心态、连续的思维流程、看到听到周边环境。情境库也是一种经验格式,是以时间、地点为线索,持续地跟踪事物的活动,较详细、完备地容纳各种元素:动作(或运动、关系)-主体-对象-状态(形容词或副词描述)的字符串格式。

3、理论性质的经验库:理论的应用也形成实例,一次实例可以视为以参数或条件为时间或空间的一个对象,如果与“我”关联起来,也形成经验。

如:惯性是物体不受外力时保持运动的性质,所用物体都有惯性。所以(每一辆)汽车高速行驶时,将滑行很长的距离带回停下来。前一句为“惯性”这个概念,同时也是一个普遍性理论描述,后一句为理论的一个使用。与概念-对象的关系类似。

经验库中的数据开放程度高,数量巨大,在理论知识不足的条件下,经验库的知识可以用于推测、联想和演绎,将其中的某个元素推广到更多的元素。达到举一反三的作用。

internet时代,我们可以认为拥有一个无限开放的文本经验库,拥有足够数量的语言常识资料,等待我们分析汲取。

0.2.3词汇表: 当我们对“语言”、“词汇”这个领域的知识进行学习,就可以把“词汇(表)”建立为独立的概念(群),它的概念部分(即语法),上级是语言、文字,下级分类是各种类型;它的内涵,可以描述各种词汇的作用和组合方式等;经验,则可以包括一个最常用的词汇表。显然词汇概念的内容中,词汇分类和词组搭配的内容特别庞大,侧重于经验表中使用的具体词语。 句子分析时需要快速搜索各种常用词汇,如数量少又非常常用的虚词、代词、数量词,最常用的语义如时间、形状、部位等。 大型词汇表按照词性、常用语义、近义反义...等多种方式分类,也将不断增加新的词语、用法,甚至新的分类方式。 在编写思维过程,优化搜索处理语义数据的时候,会将某些最常用词汇表或一部分单独提出来,做成静态变量。

0.2.5思维代码库:

对自然语言的理解中,分词后从需要词组、句型、语义的各种匹配。期间大量搜索、改写不同的数据库。

人类思维过程中有回忆、联想、疑问、交流、求知、等各种基本过程和组合活动。每一种过程都以不同模式组合以上匹配过程。思维代码库提供搜索之前描

述的语言概念和经验的静态信息库的操作。

因此拟人AI引擎需要提供大量基本思维操作的匹配过程,以供自由组合模拟细腻的思维逻辑模式。比如:一个普通而基本的AI阅读过程组合如下: 1、读入一段文档,分词,搜索概念map,获取概念分类; 2、根据词性和概念分类做词组分析,集合词语,简化句子成分

3、语义分析,通过句式库匹配描述句型,转化为逻辑句型。各种逻辑句型能指向句子包含的语义成分。

3.0、在这一步,判别句子是讨论概念的结构,还是描述具体的存在。分别指向概念库或经验库。目前最简单而直接的方法是,如果句子中包含了已知概念模板的结构属性、或者内涵值,还有“是、有”等描述概念本身的动词,认定为概念讨论;如出现、多次数量词、较详细的时间空间、具体动作、“着了过”等时态助词、较多并列的视觉和运动描述,以上情况之一,则都视为具体经验。 3.x、其它各方面的语义匹配(暂不讨论)

4、提取逻辑句式中各元素,与已知的元素比较,判断是否是新知识。 5、对与已掌握知识匹配的句子表示认可接受,对新知识确认可信后收入相关区域。

阅读中发现新词语,可以形成疑问,满足条件时并选择一个“词语学习”的分支过程集合,打开词典条目,重复以上阅读过程,按照概念模板补充概念条目或新的经验;资源不足时保存为“词语的疑问”......

只要简单改变搜索目标,搜索深度广度,学习条件等,或套用过程,或细细匹配,或持续联想,或本能反应,就能产生类似人类的丰富的思维表现和交流反映...

在AI引擎建立很长一段时期,依靠人工编写并组合使用思维代码建立并使用思维模式。当思维代码完善丰富以后,也会建立并改造脚本,让AI系统能自主选择组建思维活动,进入更高的主动层次。人类思维层次不断提升的关键之一,在于对思维自身的不断认识。描述思维操作、动作,以及各种逻辑过程,也终将通过XML结构和特殊定义的字符串文档,形成概念模板,并和各种抽象的、具体的概念一样,登记在概念map之中,进入语言表达、描述、更新的概念系统之中。

0.3系统目标和规模

拟人AI系统设计目标,不是人类拥有的知识体系。而是人类个体的思维和逻辑。在初始阶段,它只需要以少儿为基础,模拟最基础的知识经验、最原始最幼稚的思维过程。只要它能以已有的数据结构(库)为核心,以已知理解未知,扩大自己的知识和结构,那么它就能展示自己蕴含的无穷潜力。

1、以可数、半开放的概念类型(主要模板类型100以内),生成有限的概念(K级),通过从外界输入或内部思考,记录产生无限可能性的实例和情境数据(记忆有限,通过遗忘机制保持1M以内吧)。这样将自然语言和常识世界的复杂性都隐射到有限的XML文本(符号)结构中。以上数量级别均指成熟系统(模拟接近成人的智力)为目标,不需要这么大规模的系统也能体现明显的拟人思维逻辑。

2、 所有过程在算法基本以对模板的搜索读写和对比来实现思维方法,即

所有方法的操作都是执行XML文档中文字符号的读写和搜索,所有方法均实施时间控制,确保复杂性以线行叠加。

3、构建一系列简单的模拟思维过程和函数,留下自由搭配积木的余地;主动运行,充分利用无限的网络资源,记录语义理解过程中新的内容;正如人的思维生生不息,哪怕睡觉时也未必停止,以时间累积获取新的语义知识,并增加语义的深度和广度。

当今自然语言理解的实践中,主流思路是依托海量语料进行统计学的暴力分析,大集团之所长非我辈所能。一个普通人拥有的资源,决定了他只能另辟蹊径,但求享受探索中的乐趣。同时也相信,基于认知内省和语言分析,与主流的数学方法并非背道而驰,是可以互补相容的。也就是说,对语言和认知过程的分析,也能为神经网络、深度学习、自编程等提供更明确的目标。

第1章:围绕概念

1.1概念是语义的核心结构

1.2名词概念模板 1.3动词概念模板

1.4开放式的概念模板

1.1概念是语义的核心结构

先看看概念的原始定义,fr百度百科。

概念亦即反映事物的本质属性的思维形式。概念具有两个基本特征,即概念的内涵和外延。

概念是抽象的、普遍的想法、观念或充当指明实体、事件或关系的范畴或类的实体。在它们的外延中忽略事物的差异,把这些外延中的实体作为同一体而去处理它们,所以概念是抽象的。它们等同的适用于在它们外延中的所有事物,所以它们是普遍的。概念也是命题的基本元素,如同词是句子的基本语义元素一样。 以上定义大致是对哲学、语言、认知领域的“概念”给予综合理解

中华人民共和国国家标准GB/T 15237.1—2000:“概念”是对特征的独特组合而形成的知识单元。

德国工业标准2342的概念定义:通过使用抽象化的方式从一群事物中提取出来的反映其共同特性的思维单位 认知科学和人工智能中概念被用来作为知识的模型。以下更进一步讨论自然语言的“概念”,以数据结构方式理解。

1.1.1概念首先是语义知识的集合和包装。 插入文档说明概念本身结构:语法(言)、内涵、经验三部分

语法:语言规则,重点在文字组合的规律。对概念而言,包含了词性、上下级概念(分类)、称呼(也叫....,同义词近义词等)

内涵:包括各种形象特征等属性;组成部分;名词的相关运动和作用;发展演变等;同类概念相关的知识。

经验:意义即使用。在语言上,一次使用就是该概念(或对象)与其它概念的一次组合实例,也就是文字上词汇的排列。经验包括在时间和空间之中,时空将很多活动连成一体。

从存在的角度,经验是概念在具体时间空间之中的一个对象,通常为“我”以不同方式(通常是看见、听说、阅读)直接或间接地认识。

1.1.2概念第二层作用是分类和关联 1、子概念-上级概念

基本上所有概念都能更进一步概括-抽象为上一级的概念,同时又进一步细分为更详细的下一集概念。子概念继承上级概念的内涵,可以认为,这就是演绎逻辑方式的信息存储基础,可以大大精简知识体系。

2、主体-运动-目标的关联。

参考主谓宾结构,运动的主体和客体都不是随意的,而是与特定领域的名词概念或对象(概念实例 )发生关系 ,在概念中的经验部分或独立经验库中关联。 举例:“说-歌唱-思考”之类的动词()主体总是人或拟人,进一步延伸也是到信息渠道。

分析、计算、证明之类的动词,主体是人或团队,延伸到计算设备,对象则是综合抽象的事物。

这些动词到名词的概念关系,会在概念领域中体现。

3、主体概念-概念属性关联;运动概念-运动属性关联 可以简化理解为名词-定语;动词-状语之间的搭配关系 例如:属性颜色和形状,基本上可以搭配所有物体 站在阳台上面对大街用粤语高声唱歌,

1.1.3概念模板和概念库:

1、具体名词模板:苹果

概念是开放自由的,但设计者自然要将最基础认知框架和常识直接赋予AI,让它走上拟人思维的轨道。

这最基本的知识和框架,一定包括物体这种比较实在而广泛的概念,因此根据常识先写出一个苹果的概念,并对此进行详细讨论:

从苹果概念抽象到物体概念:

2、具体动作模板:抓 用step1...n的方式最简单地分解描述基本动作。动词的内涵可以和具体名词的结构对应,围绕时间、空间;前提、步骤、结果、影响来描述。

从抓的概念抽象到活动的概念。


语义map的数据结构++(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:新人教版九年级数学上册25.3用频率估计概率导学案新版

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: