PART B
语义map的数据结构_ 构造拟人AI语义引擎的核心
第0章 AI的语义 第1章 围绕概念
第2章 概念分类表--概念map 第3章 语义维度和语义向量 第4章 语义描述与语义串规范
序言:自然语言与AI:
0.1.1 自然语言-思维:
自然语言即人们交流使用的日常语言,存在于生活的语境背景之中,丰富生动但不精确。
自然语言的底层由字符号构成,因此自然语言理解,即拟人AI的实践仅讨论符号、文字环境;对于图像、声音等外部环境信息,也全部从语言,即文字符号的形式进行理解。
自然语言和思维关系极其密切,语言的运用,不仅在社会层面上将交流的效率提升了数量级,同样在个人内部同样程度地提升了认知效率。某种程度上(某个角度看,某些门派观点),思维是无声的语言,语言是
有声思维,理解了自然语言即成功模拟人类思维。
理解人类的语言,模拟人的思维,是强人工智能支持者的梦想和
追求。在以下对拟人AI的研究和实践中,将自然语言和日常思维近似等同。
当前实践:图灵测试、聊天-客服机器人、IBM沃森、AI考试研究。
0.1.2拟人思维AI,来自孩子的启发
自然语言理解的现有方向:计算语言学、本体网、语义网、专家系统…..HNC概念层次网,谈不上研究,不作介绍讨论。
存在问题:1直接面对人类常识或领域知识,目标过大;2重知识
重形式化,忽视思维过程,忽视应用,忽视知识的更新,目前无法面对动态的认知世界。3对人的思维本身理解远远不足。
新思想新思路会引发新的实践:从观察孩子(幼儿)开始的:3
岁大约是幼儿的语言思维元年,孩子掌握语言极其贫乏,它可怜的几个概念(也许只能成为词汇)也是错误百出,为什么我们从不怀疑孩子的智能?……忽略多年思考过程.....有一些初步的观点:
1、以有限(初始时是及其有限)的知识/结构,映射理解无限未知的世界,这就是智能,这才是智能!(顺便回答中文屋问题:面对包容
一切的操作手册,确实毫无智能可言,不过这样的手册仅存在于上帝手中。人类,只有人类,一个个个体组成的人类,由于没有这份万能手册,所以产生了关于智能的讨论和实践)
2、孩子无知,却有求知的冲动和欲望。这是智能之源,也是智能之路!
观察孩子,让AI面对个体,面对认知,让它从我手写的概念集,从我拿到的简单字典开始,让它错漏百出,让它自相矛盾…..因为个
体必有局限,认知必有过程。
3、自然语言支持并强化了疑惑、搜索、理解、验证的完整求知过程,模拟这个过程,是拟人AI设计的关键。
一个拟人思维的自然语言AI系统,不是知识库,不是专家系统…..,更不为完成特定的功能 。与任何有输入-输出的系统不同: 它应该主动提出问题、查找资料,去探索各种文字形式的知识(互联网为
它提供无尽的便捷资源);
它要区分知识的类型,计入不同的模板; 它记录知识的来源和过程,掌握知识的背景; 它会记忆、反思也遗忘;
它需要对掌握的知识进行演绎和归纳;
它必须对自身的改变保持认识,建立一个“我”的架构,从“我”出发掌控全局活动.......
在初始阶段,有人对它的幼稚颇有不屑,但更会对它体现孩子一般的思路发出惊叹。
这个系统称为主体意识驱动的自然语言引擎。
它模拟人类的认知过程,它按照信息的客观规律和自身构造的规则来运行,依靠自身的结构来理解文字符号的世界,它将不断自主学习永无止境。
输入与输出,对话聊天的反应,对整个系统而言,只不过是涛涛大河中投入石块泛起的涟漪而已。
它可能会被分割成很多个体 在普通PC机等小型终端上,类似
QQ软件一样驻留运行。每个个体有自己的兴趣,可能积累出专业领域……….
建立这样的代码系统,应该包括描述语言思维的基本数据结构、文本描述格式、搜索和写入的基本过程等,就是本篇要讨论的的自然语言的XML数据架构。这个架构中,处于最核心的,则是一个通过概念自上而下分层,对自然语言常识内容进行描述的一个XML文档,文档的适当位置接入其它xml数据库。这个XML体系命名为语义map。围绕语义map建立名为“语义串”的字符文本规则,描述概念、语法(语形)、逻辑、语义本身......等不同层次、领域的语义变量,用于AI代码理解无穷无尽的自然语言字符语义体系,在不同层次采取不同的模拟思维操作。本文讨论是概念map的起源、建立、内容和运用,如何与其它数据结构合作,使描述语言和思维的过程成为可能。
第0章:AI的语义?
0.0指称论及其变形、真值论等;推荐《21世纪的意义理论》,思维物理范式的思考《part A 意义是思维的光线》 那是讲给人听的,AI呢! 0.1给AI的回答:
AI用数据结构描述世界,语义是信息的结构化表示。
建立适当的结构表达自然语言语义(后简称语义)及其思维过程,
在适当位置读写即实现对自然语言的理解。
Data_Structure=(D,R),其中D是数据元素的集合,R是该集合中所有元素之间的关系的有限集合。
以树形XML为普遍结构,将各领域、各层次的语义关系(语法、
概念、经验、思维活动)建立起来。
为什么是XML:
1. XML有简单格式和无限扩展的树状结构,可以得到方便的扩展。自然语言语义结构层次的复杂和变化难以准确预估,本身结构可能需要频繁扩展,XML结构能够很好适应。
2. XML可以对自身进行更深刻的描述定义,如同Xsd文档中定义复杂元素,可对自身进行抽象和反思。建立模板自由随意,确定的模板中蕴含了严谨和深刻。
3. XML是独立于编程语言的脚本描述,主流编程语言和数据库均有很好的支持。
XML语义体系的基本思路
1、以可数、半开放的概念类型(主要模板类型30-50),在各领域(物理、认识、社会、各专业等),按不同抽象程度,生成有限的概念(K级),通过从外界输入或内部思考,记录产生无限可能性的实例和情境数据(记忆有限,通过遗忘机制将本地经验保持10M以内吧)。这样将自然语言和常识世界的复杂性都隐射到有限的XML文本(符号)结构中。以上数量级别均指成熟系统(模拟接近成人的智力)为目标,不需要这么大规模的系统也能体现明显的拟人思维逻辑。
2、建立众多XML语义模板之间,统一文本描述格式,渗透到从词语、概念、内涵,到句式、段落篇章主题的诸多方面,暂名为语义串-逻辑句式。
3、利用统一格式,建立一系列过程对语言的文本数据进行简单的运算和处理,基本上对模板的搜索读写来对语言和思维进行模拟。即所有方法的大部分操作都是执行XML文档中文字符号的读写和搜索。
4、以时间累积获得深度和广度。算法(方法)简单,主动运行,充分利用资源;正如人的思维生生不息,哪怕睡觉时也未必停止。
5、不断提升文档和过程的抽象程度,降低算法的迭代层次。
简述: