^mmmm2021年第04期
(总第220期)知识驱动数据驱动系统构建综述
万超
(三峡大学,湖北宜昌443002)
摘要:人工智能的发展衍生出了两大主义解决问题的方法,一个是数据驱动方法,另一个是知识驱动的方法。这两种方 法各有优劣,从人工智能定义和发展出发,对这两种方法做出说明,分析这两种方法采用的技术,以及对比二者的优劣。
举例说明数据驱动方法与知识驱动方法结合应用研究现状,最后总结结合二者的优势的应用前景。
关键词:知识驱动;数据驱动;系统构建
中图分类号:TP11 文献标识码:A文章编号:2096-9759(2021)04-0145-03
人工智能的发展不断的推动着社会的变革,人工智能(A r­tific ia l Intelligence)主要研宄用人工的方法和技术,模仿、延伸 扩展的智能,实现机器智能,最终目标是使机器智能达到人类 的水平。在人工智能发展
的阶段,衍生出代表人工智能的两 大主义:符号主义和连接主义,分别代表着知识驱动与数据驱 动。符号人工智能的子领域专注于硬编码(即显式编写)特定 领域中每个可能场景的规则,这些规则是由人类编写的,规则 来自于对要完成的特定主题和任务的先验知识。在此基础上 发展的知识工程有着一系列应用,如专家系统、知识图谱等。连接主义是建立在人脑研宄基础之上的,它从神经元开始进 而研宄神经网络模型和脑模型,开辟了人工智能的又一发展 道路,其代表就是一系列数据驱动的方法。机器学习和深度 学习方法代表着数据驱动。
知识驱动方法的特点是擅长解决定义清晰的逻辑问题, 解决问题的规则通常由人为定义,知识推理的过程与人的认 知过程相似,但是知识驱动方法往往缺乏数理基础,在高层次 模式识别任务(语音识别或图像分类)中难以使用,另一方面 计算机对知识还是难以处理,需要人为来对知识进行整理。数 据驱动方法在数据规模较大、任务复杂的情况下表现较好,在 语音识别、计算机视觉、自然语言处理等领域得到了大规模应 用。虽然数据驱动的方法在一些任务下能够达到与人相似的 水平或者更好,例如深度学习可以处理大多数问题,但是存在着不可解释性(黑箱特征),导致在一些情况下无法被采信,还 需要人为来进行判断,在一些生命财产安全领域这种情况下 难以被接受。
本文将整理阐述数据驱动与知识驱动的方法原理和主流 应用,以及知识驱动和数据驱动优缺点,说明将数据驱动与知 识驱动结合的优势及应用前景。
1数据驱动方法
1.1机器学习
机器学习是利用算法指导计算机利用已知数据得出适当 数学模型,机器学习可以利用拟合的模型对新输入的数据进 行进一步判断的方法,机器学习的学习方式有三种,分别是监 督学习,半监督学习,无监督学习。
监督学习是一种利用已知类别的样本数据集和模型来对 未知的数据进行分类的方法,其思想通过输入与输出的样本 L= ,其中x^y分别代表样本和样本对应 的标签,通过调整算法中的参数,模型在监督学习使用训练数 据集中的模式将特征样本X映射到标签Y。监督机器学习的 基本步骤是:①获取数据集,并将其分为单独的训练、验证和 测试数据集;②使用训练和验证数据集提供特征和目标之间 关系的模型;③通过测试数据集评估模型。常见的监督学习 任务有分类和回归两种。常见的监督学习算法有支持向量机、
收稿日期:2021-03-18
作者简介:万超(1994-),男,江西南昌人,硕士研究生在读,研究方向:智能信息处理。
STC=DC+IDC=11019.04+2700=13719.04 元
根据某第三方机构报价体系,功能测试50个功能点报价 为10000元,估算的报价与实际报价偏差为27.
11%。通过偏 差原因分析,主要问题在于测试环境成本估算、管理成本估算, 根据标准要求测试环境成本不超过软件测试人工成本的20%,案例中取值为最高标准20%;案例中管理成本为2000元,是 软件测试直接成本的18.15%,估值偏高,因此造成估算结果有 一定偏差。
5结语
IFPUG功能点分析方法是一种目前被广泛应用于软件规 模估算的方法,它基于明确的规则约束,可应用于软件项目的 不同阶段或应用场景中,尤其适用于M IS类项目[8]。
参考文献:
[1]吴叶青.功能点在软件造价评估中的应用[J].舰船电子工
程,2018,38(08):26-31.[2]郑自国.一种利用U M L建模技术对功能点度量模型的改钢琴独奏曲
进方法[D].2004.
[3]Bundschuh M,Dekkers C.IFPUG Function Point Coun­
ting Rules[M].Springer Berlin Heidelberg,2008.
[4]梁荣贞.浅析软件测试理念与策略[J].华东科技(综合),
2020(1):0375-0375,
[5]张斌斌,李伟松,彭晓龙,等.浅谈GB/T25000.51-2016《系
统与软件工程系统与软件质量要求和评价(SQuaRE)第51
部分:就绪可用软件产品(RUSP)的质量要求和测试细则》
的变化[J].中国医疗器械信息,2018, 024(013):1-2.
[6]乐亮,张宝林,高员.基于GB/T25000.10-2016的软件质
量度量框架实例的应用[J].现代计算机(专业版),2019,000
(035):89-92,
[7]石宇楠.基于多目标协同进化的测试用例优先排序[D L2015.
[8]朱安江.早期阶段软件规模估算方法研究与应用[D].国
防科学技术大学,2011.
145
kim、神经网络等算法。
半监督学习是介于监督学习和无监督学习之间的一种方 法,在许多任务中如图像分类、语音识别等任务,获得带标签 的数据往往是困难的、昂贵的或耗时的,因为它们需要有经验 的人类注释人员花费大量时间进行标记,所以出现了一种带 少量标记数据中加入大量无标记数据学习的半监督学习的方 法。半监督学习方法从理论上来说优于无监督学习的方法,避免了数据和资源的浪费,同时解决了监督学习的模型泛化 能力不强和无监督学习的模型不精确等问题。
无监督学习和监督学习相反,无监督学习是利用没有标 记的数据集利用模型来学习其对应的标签。无监督学习的目 的是检测数据集中的模式,并对数据集中的单个实例进行分 类,由学习到的类标签信息把样例划分到不同的簇或到高 维输入数据的低维结构。常见的无监督学习算法有k均值、主成分分析、层次聚类等。
1.2深度学习
深度学习是机器学习当中的一个子集,上个世纪诞生的 连接主义认为将大量的计算单元连接成网络可
以实现智能, 随着对生物神经科学和计算机领域深入研宄,人们逐渐认识 到神经网络的分层计算模型与人类大脑的神经网络相似。随 着数据量的增加,深度学习在一些复杂的任务下能达到与人 相当的水平。深度学习是目前最接近人脑神经分层的学习方 法,能够突破浅层计算的限制,能够自动从数据中组合底层特 征形成高级特征表示。深度学习技术发展受到当时硬件水平 的限制,直到G PU运算能力逐渐提高,深度学习才得以发展。例如击败李世石Alpha g o即是深度学习的一个很好的示例。也出现了例如 TensorFlow、Pytorch、caffee、paddle等深度学习 框架,支持CNN、ResNet、R N N和LS T M等网络,这些在计算 机视觉和自然语言处理等方面应用较广。
1.3数据驱动方法主流技术及优缺点
智能计算、数据挖掘、机器学习、深度学习等技术为许多 面向应用的研宄领域提供了丰富的数据处理方法和算法资源。例如计算机视觉己经取得了长足的进步,特别是深度学习方 法的应用,在图像目标检测、人脸识别、自动驾驶等方面有很 大的突破。尽管有了这些快速的发展,计算机视觉和人类视 觉之间仍然存在着很大的差距。造成这一差距的一个因素是 现有视觉学习方法的数据驱动和纯自下而上的性质,无法直 接识别图像中的高层语义,造成语义鸿沟,在遥感影像分析领 域,由于涉及的领域知识较多,单靠数据驱动无法有效的解释 结果。因此计算机视觉系统的最终目标是具有一般图像解释 和语义描述的能力。在医学领域,数据驱动方法可以辅助预 测病症,但是要求的数据质量往往较高,否则可能发生误判等 情况,一些数据驱动的方法例如深度学习存在着“黑箱性质”,过程无法被解释,解
释性差的输出阻止了许多深层模型在实 际医学应用中被广泛接受。在数据分析中,数据驱动的方法 可以帮助企业进行分析决策,现如今面临数据的大规模增长,传统分析手段无法应对,而且只能发掘表层信息,而不能获得 数据属性的内在关系和隐含的信息(重要的知识)》
2知识驱动方法
知识是人类通过实践(包括学习、模仿、试验、生理等实践 活动)认识到客观世界的规律,是信息经过加工、整理、解释、挑选和改造而形成的。知识是用于解决问题的信息。智能活动主要是获得知识并运用知识的过程。因此知识是构成人工 智能的要素之一。知识工程的起源于1977年美国斯坦福大 学计算机科学家费根鲍姆教授(B.A.Feigenbaum)在第五届国 际人工智能会议一提出知识工程(Knowledge Engineering, K E)的概念,知识工程是人工智能的原理和方法,对那些需要 专家知识才能解决的应用难题提供求解的手段。恰当运用专 家知识的获取、表达和推理过程的构成与解释,是设计基于知 识的系统的重要技术问题[1],知识工程代表的知识驱动方法主 要的过程包括知识发现、知识的表示、知识的推理等过程。从 专家系统到如今的知识图谱,尤其是知识图谱的出现使得早 前黯然失的知识工程走向复兴。
2.1知识发现
知识系统需要解决知识的获取问题,传统的知识获取流 程需要人工来参与,即知识工程师从知识来源
获取所需的知 识,通过相应的知识编辑器,来将知识加入到知识库中。面对 数据量的增长,传统手段的效率低下成为了一个问题,而且从 海量的信息中发现知识也是一个问题。为了解决这一效率低 下的问题,需要一种自动化的方法能够发现信息之间内在的 知识,知识发现技术应运而生。知识发现是从海量数据库中 发掘数据中的内在关联和隐含的信息,能够帮助人理解数据 之间的内在关系,帮助作出决策。
2.2知识表示
知识系统可以解决不同的问题,而如何表示这些知识是 人工智能和认知科学的研究热点之一。知识表示是认知科学 和人工智能两个领域共存的问题。在认知科学里,它研宄的 是人类如何储存和处理资料。在人工智能里,其主要目标表 现为如何储存知识,让计算机能够处理知识。知识的表示方 法目前己经有几种,其中有谓词逻辑表示法、产生式表示法、框架表示法、语义网络表示法、本体表示法等。
2.3知识推理
知识推理就是通过知识库建立起的已有关系基础之上,推断和扩展知识的网络。知识推理可以从已知的知识推理出 己有知识,另一种是从已有的知识关系中归纳总结出新的事 实以及关系。知识推理是知识驱动方法中一个重要的环节,其方法主要有基于传统逻辑的推理方法以及基于图的推理两 种方法气
2.4专家系统
专家系统是利用大量的专门知识,通过知识推理来解决 特定领域中实际问题的计算机程序系统。专家系统通常由人 机交互界面、知识库、推理机、解释器、综合数据库、知识获取 等6个部分构成,模拟专家的解决问题的决策过程。专家系 统只能应对轻量级应用,无法面对目前大规模数据以及实时 智能需求。
2.5知识图谱
2012年,谷歌发布了知识图谱项目,以知识图谱为基础构 建下一代搜索引擎。知识图谱的出现使得语义网络技术前进 了一大步。知识图谱在实质上就是结构化的语义知识库,用 于以符号形式描述物理世界中的概念及其相互关系.其基本 组成单位是“实体一关系一实体”三元组,以及实体及其相关 属性一值对,实体间通过关系相互联结,构成网状的知识结构[2]。知识图谱的作用主要是在于辅助作用,如搜索、决策等。知 识图谱面临的是如何解决知识的自动获取、多源知识的融合、
146
知识存储和知识推理等问题。解决这些关键问题是发展知识 图谱的关键所在。
表1知识驱动与数据驱动的优缺点
优点缺点
知识驱动可解释好.类似人的认
知过桴自上而下
推理无法应对S汆檳式
仔务
数据驱动在痛层次模式识別任
务下农现好
自F而匕可解释性差,
对数据的要求较高
3数据驱动与知识驱动结合解决问题的应用
知识驱动与数据驱动各有相应的应用场景,知识驱动方 法的优势是大部分研宄探索如何将二者的优势
互补,使数据 驱动方法或者知识驱动方法的缺陷影响达到最小,一般来说 都是将二者的优点相结合互补。己经有许多实现了将二者应 用在一起的研宄。一种方法是将数据驱动的模型与知识驱动 模型结合,数据驱动模型能适应输入动态数据,以此来不断的 提升知识驱动模型的适应性。例如在活动识别领域,知识驱 动模型存在的问题是模型是静态的,无法适应每一个个体。因此G orka等人[3]提出了一种利用数据驱动技术,利用用户行为 数据演化知识驱动活动模型的方法,该方法包括一个新的聚 类过程,利用知识工程开发的初始不完全模型来检测代表活 动的行为簇并聚合新的行为。A b d u l等人[4]提出了一种将知识 驱动与数据驱动相结合的混合方法。其目的是建立一个学习 的活动模型,该模型能够根据动作生成的数据自动适应和演 化,弥补了基于知识的活动模型中信息不足的问题。
图1数据驱动方法演化知识驱动模型
知识还可以使得机器学习加快收敛r a,研宄了一般的机器 学习模型,其中知识转移是提高其收敛性的主要方法。研宄 表明这种机制适用大部分机器学习框架。
将知识图谱中的实体关系抽取出来转化成低维向量嵌入 向量空间,用深度学习方法对其进行训练。文献[6]提出了一 个可解释的、知识导向的深度模型来解决这些挑战。从临床 知识图谱中显式和隐式地提取知识,不仅可以补充不充分的 病历,而且可以指导模型的预测过程。采用了技巧连接和注 意机制来提高模型的可解释性。在心力衰竭预测任务的背景 下,模型优于几种最先进的方法。文献[7]利用知识
图谱技术, 将各种医学信息系统中的琐碎和分散的知识联系起来,辅助 疾病诊断。以甲状腺疾病为例,提取生物医学实体之间的关 系,构建生物医学知识图。通过知识图谱嵌入方法将知识图 中的实体和关系转化为低维连续向量。利用已知的病理疾病 关系数据训练双向长短期记忆网络(BSTLM)的疾病诊断模 型。将甲状腺的特征词向量和相关的知识实体向量输入到训 练的模型中,得到决策结果。实验表明,知识图谱与深度学习 相结合的甲状腺疾病诊断方法具有较好的诊断效果。这些方法解决了知识图谱中数据稀疏,效率低等问题,利用数据驱动
实现输出的高效。
图2知识图谱与深度学习融合方法
软件工程实习报告在计算机视觉领域中,影像的语义信息十分重要,因此如
何使得计算机的解释能和人的解释一致是个十分重要的研宄
学习法
课题。Nanfei1"等人在模型中加入了基于本体的领域知识,可没有比脚更长的路
以模拟人类在视觉领域的学习能力之一,通过使用少量照片
识别特定对象的实体几何结构和纹理来合成凸面物体图像的
能力M。在遥感影像分类利用知识工程创建出了本体语义网络,
采用机器学习中的决策树进行分类,有效的识别出了滑坡,以
及其他的地物类型。
4总结
数据驱动方法和知识驱动方法虽然各有优缺点,但是知
识驱动和数据驱动融合技是一个新的研宄方向,为许多无法
采用数据驱动技术或者知识驱动技术学科领域提供了解决问
题的新方案。是突破当前人工智能无法真正模拟人类的关键
所在。人工智能的未来应该是知识驱动和数据驱动相结合的
人工智能,只有不断的探索如何将数据驱动与知识驱动优势
结合,才能更好的服务未来社会。希望引起更多人重视和投
入这项研宄工作。
参考文献:
[1]袁国铭,李洪奇,樊波.关于知识工程的发展综述[J].计算技
术与自动化,2011. 30(01):第138-143页.
[2]刘桥,等.知识图谱构建技术综述[J].计算机研究与发展,
2016. 53(03): 582-600.
[3]Gorka,A.,et al.,Extending knowledge-driven activity mod­
els through data-driven learning techniques.Expert Systems
W ith Applications,2015. 42(6).
[4]Abdul,S.A.S.,et al.,A hybrid approach o f knowledge-
driven and data-driven reasoning for activity recognition in
smart homes.Journal o f Intelligent&Fuzzy Systems,2019.
人民币牌价
36(5).
[5]Vapnik V ,Izm ailov R.Knowledge transfer in SVM and
neural networks[J],Annals o f Mathematics&A rtific ia l In­
telligence,2017, 81(l-2):3-19.
[6]Zhang,X.,et al.KnowRisk:An Interpretable Knowledge-
Guided Model fo r Disease Risk Prediction,in2019 IEEE In­
ternational Conference on Data M ining(IC D M).2019.
[7]Chai,X.,Diagnosis method o f thyroid disease combining
knowledge graph and deep learning.IEEE Access,2020. PP
(99): p. 1-1.
[8]Nanfei,S.,D.L.Jian and Y.W.Michael,An cmtology-based hy­
八字缺火怎么取名
brid methodology for image synthesis and identification with
convex objects.The Imaging Science Journal,2018.66(8).
[9]魏家旺,等.地理本体驱动的面向对象滑坡识别[J].遥感信
息,2020. 035(002): 94-99.
147