首页  > 热点财经

语义网:“人工智能当法官”的第一步

2021-09-09 10:56:00 来源:法治日报·法治周末


视觉中国 

金亚丽

前不久,在第18届“国际人工智能与法律大会”上,意大利著名学者恩里科·弗兰切斯科尼教授作了主题发言。

这次发言的题目是“人工智能与法律的严冬与盛夏”。弗兰切斯科尼教授从法律人工智能学术史的视角,追溯到了语义网出现的节点,并阐明语义网的基础设施地位以及其如何影响法律人工智能的未来走向。

笔者试对上述发言进行简要述评,以期让更多人看到语义网在法律人工智能中的重要性。

语义网是什么?

我们可以设想一个场景——

一位法官正在审理一起房屋买卖合同纠纷。当他看到《商品房买卖合同》时,大脑中储存的合同法、物权法、担保法等相关知识已经处于活跃状态,以备随时调用。此时,他眼睛捕捉到的每一个法律概念都会与大脑中的相关知识建立联系。

例如,当他阅读到“违约责任”时,就会考虑发生了什么“违约行为”,是否存在“根本违约”,是否存在“免责事由”或“不可抗力”等一系列与“违约责任”相关的法律知识。然后,他就会根据法律规则,结合案件事实进行法律推理。

我们继续设想,如果上述审理活动让一个机器人来进行,这个机器人至少应该具备什么条件或能力?

首先,它要能够阅读这份《商品房买卖合同》。其次,它的系统应该储备好民法典。再次,它要能理解“违约责任”“根本违约”“不可抗力”等法律概念。最后,它能根据系统的数据进行法律推理。

事实上,对于机器人而言,能够做到上述其中一点就已经很难。关键在于,其需要通过某种内部关系将这些法律信息建立连接,形成一个结构化的知识体系。

人类法官之所以能够快速完成法律推理,是因为他通过长期学习和经验积累,已经在大脑中形成了结构化的知识体系。相比之下,机器人只是从外界获得了大量的数据。

如果想要让这些数据变成结构化的知识体系,就要通过某种工具对这些数据进行加工和组织,使其能够被计算机理解。而这个工具,就是语义网。

“语义网”的概念由万维网联盟的蒂姆·伯纳斯-李于1998年提出。它是指一种智能网络,通过给万维网上的文档添加能够被计算机理解的元数据,使整个互联网成为一个通用的信息交换介质。

所谓“元数据”,是指描述数据的数据。通过这样的描述,能够反映某个数据某方面的特征。因此,每一类事物都可以定义一组元数据。在法律领域,元数据就是要通过语义网对网页中的数据进行明确描述和定义,使其成为具有法律意义的法律信息,进而能够被计算机阅读和理解。

“人工智能与法律”的理论路径和实践路径

弗兰切斯科尼教授回顾了“人工智能与法律”的早期研究,以便探察语义网在该领域如何产生影响。

1990年,索恩·麦卡蒂提出了“人工智能与法律”的理论路径和实践路径。

理论路径旨在通过应用计算机模型,更好地理解法律推理和法律论证过程。实践路径旨在建立智能法律信息系统,用来为法律实践者、决策者和普通公民提供便利。这两条路径都需要构建以“深度概念模型”为基础的法律推理可计算模型。

但是,本奇·卡彭强调最实用的智能法律信息系统应用程序不应该以“深度概念模型”为基础。在疑难复杂案件中,由于法律的模糊性需要对法律概念进行阐释,这种情况下,以“深度概念模型”为基础的专家系统是能够发挥作用。但是,在简单案件中,法律与事实明晰,这种系统就没有用武之处。实践中,法官要面对各类案件,因此,以“深度概念模型”为基础的法律推理可计算模型便暴露出自身的局限性。

关于构建法律推理可计算模型出现的上述分歧,弗兰切斯科尼认为,他们并不是对立的,只是强调的路径不同。

麦卡蒂强调自上而下的路径,而卡彭强调自下而上的路径。这两条路径演变为后来的基于规则的推理和基于案例的推理,并且逐渐互为补充。

事实上,沿着上述两条路径取得了丰硕的研究成果,但是大规模应用的数量非常有限。这是为什么?弗兰切斯科尼认为,是由于法律知识的缺乏。

早在1991年,伊莱恩·里奇和凯文·奈特提出,智能需要知识,而当时知识是极度缺乏的。但上世纪90年代初,人工智能与互联网的结合改变了知识缺乏的局面。互联网被认为是人工智能的知识来源,可提供大量用于开发人工智能系统的数据信息。那么,新的问题出现了,面对大量的数据信息,如何才能有效进行管理?

2006年开始,关联开放数据(不同组织将现有的数据按照特定方式发布到互联网上,并且与其他数据关联起来,提供计算机能理解的语义网络)急剧增长,于2014年集中爆发。基于这样的背景,弗兰切斯科尼认为,语义网是管理关联开放数据的有效工具,能够将这些数据组织成为一个知识体系。

于是,他得出结论:“人工智能与法律”的语义网进路是必然的。因为真正的法律智能系统需要结构化的法律知识体系,而语义网正是基于这样的需求发挥作用。

语义网如何发挥作用?

目前,我们有“中国裁判文书网”“中国司法案例网”等包含海量法律知识的数据库。但面对体量如此巨大且不断变化的数据库,法律智能系统如何自动获得法律知识?如何管理这些数据库?这些,正是语义网要做的工作。

语义网中的大量智能数据,可用于法律人工智能自下而上的学习。比如,自然语言处理、论证挖掘、法律信息发现和检索,等等。

同时,为了打通不同数据库之间的障碍,智能系统将从这个过程中获得不断优化的语言和推理规则,用来组织和管理数据库。

可见,语义网的角色很清楚——它提供了智能数据、语言和推理规则,并且能够使法律人工智能自下而上和自上而下的方法相结合。

弗兰切斯科尼沿着这个方向,正在进行自己的研究。他开发了一个使用语义网标准的模型,即“规范语句模型”。该模型的使用,是通过机器学习和自然语言处理,对法律条款进行语义标注,从法律文本中提取知识,推动法律信息检索,进行法律合规性审查。

弗兰切斯科尼认为,要使推理系统能够正常运作,关键因素是法律知识建模的质量。而这,将引出关于法律本体知识研究的新问题。

构建法律概念分类体系尚存诸多障碍

法律数据存在于多个数据库。由于不同数据库给同一个概念用了不同的标识码,作为一个要在多个数据库之间比较或组合信息的程序,必须知道它们是指同样的事物。

解决这个问题的办法就是语义网的构成要素之一:“本体知识”。本体知识是一种规范化和形式化的知识分类体系和概念化体系。法律本体知识本质上就是法律概念分类体系。

构建法律本体知识模型将为语义网的架设提供理论支撑,但要跨越诸多障碍。它不仅要遵循法律概念内部的统一性,而且要考虑与其他不同领域本体知识的对接。

2010年,我国确立了案例指导制度,指导性案例是提取法律本体知识的重要资源。但是,如何设计案例的法律知识图谱、表征案例特征,如何挖掘案例中的法律知识,都面临着不同程度的挑战。

总之,在关联开放数据日益剧增的背景下,语义网的构建是法律人工智能的根基性工作。它需要把所有数据库连接起来,形成一个智能化法律数据网络,而所有的法律智能系统在此基础上才能实现智能化。

另外,语义网也是连接人工智能与法律理论的桥梁。因为,语义网一方面需要法律概念的类型化研究,这是法律理论的重点内容;另一方面需要从海量的数据库中挖掘并提取法律知识,这是目前人工智能最重要的技术之一。

(作者系中南大学法学院、博洛尼亚大学联合培养博士生)

责编:王硕

——法治周末
联系我们 诚聘英才 广告征订 本站公告 法律声明 报纸订阅
本社运营代理:北京慧海联文化传媒有限公司
本社(网)常年法律顾问 北京佳创律师事务所律师 黄海光 联系方式 13522015000 邮箱 bjhhg@126.com
版权所有 Copyrights ? 2014-2020 www.legalweekly.cn ALL RIGHTS Reserved 《法治周末》

京ICP备10019071号-1