Ontology learning: Grand tour and challenges

Title: 《Ontology learning:Grand tour and challenges》

Author: Ahlem Chérifa Khadira, Hassina Aliane,Ahmed Guessoum

DOI:  https://doi.org/10.1016/j.cosrev.2020.100339

URI: https://www.sciencedirect.com/science/article/pii/S1574013720304391?via%3Dihub

Introduction

本体的构建是耗时耗力的,因此自动或半自动构建本体的一些方法被提出,这些方法构成了本体学习(Ontology Learning , OL)的领域。

Ontology definition

本体是一种形式化的、某一共享概念化的显式说明。

概念化指的是由世界上某种现象的抽象模型产生的与这些现象有明确关联的概念。

显式指的这些使用的概念以及约束是显式定义的。

形式化指的是本体必须是机器可以理解的。

共享反映的是需要了解到本体应该捕获被共同体所接受的共性知识。

换句话来说,本体是组织好的知识的共享的结果,它们是机器可读的,并且它们捕获了世上某一显式定义的明确概念。

比如“写作”这个概念,我们可以将之概念化为一个简单的抽象模型包括概念:“人”,“书”和“写作”。然后将它显式化,即“人”和“书”是实体,“写作”是一个动作,一个可能的关联是:写作(人,书)。

然而,人这个实体很宽泛,它可以是女人、作者、儿童等,这种可能性是无线的,但是在一个确定的需求下,对于一个考虑的现象可以给出一个简单的抽象模型,从而满足一个确定的形式化的需求。

Ontology components

本体由下列基本元素构成:

  • 类:对象的类别或事物的种类,用于定义实体的一个类别。类表示了本体中的概念,“活人”和“人类”都是本体中的类别。
  • 实例(个体):实例表示的是本体类的对象,它们是类的实例化,比如“尼尔森-曼德拉”是人类类别的一个实体。
  • 属性:属性是与类和实例有关联的特性,包括“数据类型”以及“数据值”,比如“尼尔森-曼德拉”能与属性“国家”进行关联,并且属性值为“南非”。
  • 关系:表示两个对象的相关性的链接,有两种类别的关系包括:分类意义的关系以及非分类意义的关系:
    • 分类意义的关系:其中具有代表性的关系为is-a、subClassOf关系,有时has-part关系也包含其中。它们形成了本体(具有层次结构的实体)的分类。比如人类 is-a 活人,人类 has-part 胳膊。
    • 非分类意义的关系: 这种类型的关系表示的一些其他种类的链接,它们被用于增强本体的语义,但是不会改变本体的结构,比如“吃”是一种非分类意义上的关系,“人” 吃 “蔬菜”
  • 公理:形式化定义本体知识。公理的目的是显式描述概念化的规范,通常用“一阶逻辑”或“描述逻辑”进行表达。公理通过它们所表达的功能被分为下列几种:
    • 实例化:实例化公理指的是一个类别的实例。
    • 断言:断言式公理指的是给一个实例的属性指定一个值
    • 深层次:深层公理指的是被归并类的实例也是归并类的实例。
    • 邻域:领域公理给一个领域类指定一个属性。话句话说,通过属性的任何一个实例或值的连接都表明实例从属于领域类别。
    • 范围:范围公理给一个范围类的属性指定一个值。
    • 不相关性:不相关性公理指的是一个类的任何实例都不是另一个类的实例,因此两个类可以相互独立。
    • 任意的复杂和复杂的公理:大多数本体语言允许陈述不属于上述的任何公理。

上述的本体组件不是创建一个本体所必需的。本体可以仅包含层次概念。

Ontology types

基于本体论的标准可以将本体进行分类:

  • 一般情况:最广泛的分类类别,高层次的本体包含了世界的广阔的范围,而领域本体这仅仅限制在某一个特定领域的被使用的知识。
  • 粒度:本体可以是粗粒度和细粒度的。前者对一个邻域进行概念化在一个宏观层面而不考虑细节,后者相反的对一个微观层面的领域进行概念化。
  • 形式化的表达:自然语言表达的是高度非形式化的本体,而严格且正式的本体通过具有形式化的语义的语言进行定义,并且包含了某些特定的属性如健全性和完整性。

Ontology specification language

本体规范任务目的是用一种明确的语言来定义本体,使其可以被计算机理解,这些语言可以分类为web语言以及传统语言:

  • Web Languages: XML、RDF(Resource Description Framework)、OWL(Web Ontology Language),其中OWL是用于本体实现最广泛使用的语言,并且有许多变体,每种变体在表达能力与可判定性以及归因花费上有不同的平衡。
  • 传统语言:对比于web语言、这类语言是基于一阶逻辑或框架,更富有展现能力和表达能力,然而基于表达能力与算力的平衡,这些语言经常产生不可逆的系统使得归因变得困难。

Ontology Learning

本体学习的目的是本体构建变成一项自动或半自动的工作。

本体学习过程不是一个由一系列步骤显式定义的,但是也有部分工作试图区形式化这些方法去进行本体学习:

上述工作由五个明确的步骤组成:

(1)提取:使用不同的技术从语料库中提取概念、属性、关系、公理等

(2)分析:对提取的元素进行整合、检测。例如相同意义的概念与结构

(3)生成:使用特定的语言对本体进行描述

(4)验证:验证本体组件(这步在学习本体的过程中可能被执行多次)

(5)评估:对本体可能受到改变这一事实进行处理。

也有工作将本体学习过程视为数据挖掘:

image-20220305140918761

Linguistic and statistical approaches

这类方法的观点是使用基于语言和统计学的技术根据语料库中的词频与模式学习本体。经典的场景如下:

  • 通过运用语言分析如词汇性文本分析收集本体概念。如在英语的一般领域一个词应该有下列形式:【形容词 名词】或【名词 名词】,另外,使用停顿列表以及消除重现和不理想的结果。剩余的候选使用统计技术如TF-IDF以及C-Value等进行一个排名。最后获取到的术语被直接点视为概念或基于Harris分布的同义词集群。

  • 对于提取本体分类关系,广泛使用到技术是基于语法-句法模式,称为Hearst 模式(它们本质上是编码词汇和句法约束的语言表达式关于概念表达的文本语境)。这种模式的一个例子:

    cats、dogs、animals

    --> NP{,NP}*{,}{and/or} other NP

​ 最后一个NP表示超类(animals)

  • 提取非分类学的关系(概念性的关系)

Machine learning approaches

本体学习中,机器学习技术常常被用于结合语法-句法方法来获得结果。例如:关联规则发现算法被用于提取单词间的感兴趣的联系、使用相似度度量的层次聚类算法被用于对单词聚类、分类算法用于对新的概念分类进入现有的层次中、归纳逻辑编程用于从可拓展的数据中获取新概念。然而上面这些算法仅仅是基于机器学习技术来产生本体。下面的方法分为两类:传统机器学习方法、深度学习方法。

Conventional machine learning approaches

这些机器学习算法均采取一个基于规则的算法如一阶逻辑归纳学习(FOIL)。FOIL算法是一种监督式的算法,它学习正例和反例的概念例子。

Deep learning approaches

深度学习的方法式将本体学习过程视为一个transduction任务(传导,推导?),主要的想法是把一个明确的句子转为一个描述逻辑(Description Logic)的形式。

Frameworks and Systems

为了使专家和用户简便地进程本体学习处理,一些框架和系统被提出:

  • Gate:一个被维护的开源免费软件,它集成了几个自然语言处理工具并提出了一套庞大的插件来支持术语提取、语义注释等。

  • Text2Onto:本体学习领域中一个著名的框架。尽管它提供了在完全自动化过程中生成本体的可能性,但它并不一定会生成没有错误或完全定义良好的本体。Text2Onto还实现了数据驱动的变更发现策略,提供了根据资源数据修改自动或半自动更新本体的方法。

  • LExO(Learning Expressive Ontologies):该方法是为本体的自动生成而开发的为数不多的方法之一,这些方法以OWL DL的完整表达为特征,其核心是定义自然语言句子向描述逻辑的句法转换。

    image-20220305160808579
  • OntoLearn:OntoLearn是最早提出从文档和网站自动归纳分类法以进行领域本体学习的系统之一。

    image-20220305160743587
  • SPRAT(Semantic Pattern Recognition and Annotation Tool): 它是GATE web服务的一部分,它是基于模式的工具,帮助用户从文本中生成和/或填充本体。

  • OntoCmaps:它是一个基于图理论的系统,它依赖于三个主要阶段:提取阶段、集成阶段和过滤阶段。

  • OntoGain:OntoGrain是一个无监督的本体学习系统用于非结构化的数据,主要包含四个主要模块:预处理、概念提取、分类学构建和非分类学关系获取

Descriptive summary

image-20220305163310629

从表中,我们注意到,大多数方法产生的概念分类丰富了非分类关系,而忽略了公理部分。此外,注意到,人类的干预是必要的,至少是为了预先开发特定的工具,如语法或特定模式。

The Ontology evaluation issue

本体评估步骤对于验证和确认本体至关重要,根据不同的语言类型和领域,以及黄金标准的可用性,评估是根据不同的方法进行的。

Discussion

我们注意到,有一些独立的方法和工具提出了学习本体的所有不同组成部分的方法,但仍然没有一个接近于生成一个可供使用的本体。此外,几乎所有的方法都依赖于语言,因为它们使用特定于自然语言的模式、WordNet等,无法以明显的方式概括。

Concluision

在本文中,作者试图对从文本中学习本体的最相关方法进行一次很好的综述。介绍了不同种类的算法和系统,包括深度学习新兴技术。本文列出了几种允许管理本体学习过程的框架,并指出了它们在这一领域的主要贡献。还对几种方法进行了描述性总结,重点介绍了这些方法可能产生的本体组件,以及可能受益的人类干预。

我们可以得出结论,本体学习研究领域尚未成熟,尚未为研究人员制定标准。不幸的是,我们在本文中研究和介绍的几乎每种方法都提出了自己的方法,并引用了不同的技术来学习本体。