数据标注在类案推荐研发中怎样进行?

发布于 2021-10-12 22:44

类案推荐是近年来人工智能技术在法律领域的一项主要探索,在法律数据检索产品中得以普遍应用,为辅助司法办案、强化审判管理提供了便利,但同时也存在推送案例的时间、地域分布不全面、关联案由的业务理解有偏差、类案识别设定的颗粒度不精细等缺憾,降低了用户使用意愿度。

相关论文发表在《人民司法》2021年第28期,供感兴趣的师友查阅。此处对法律文本的数据标注要旨作以摘要介绍。

第一,法律知识表达方式的科技化、图谱化。

高质量的裁判文书集中体现了审判智慧与法学知识的生动运用,含有对法律条文的解读,也有法官对裁判思路的阐释。至今,我国公开裁判文书的总量已经超过一亿份,其中丰富多元的法律知识有待挖掘。有法官指出,在智能辅助的办案系统研发过程中,作为用户的法官在提出产品需求时,必须抛弃传统的纯文字表达方式,力争用文字和思维导图结合的方式进行可视化表达。此处指向的其实是知识图谱对于表达案件构成要素的重要价值,它是连接法律人和技术人思维的利器。

知识图谱是一种比较通用的语义知识的形式化描述框架,它用节点表示语义符号,用边表示符号之间的语义关系。这种使用统一形式描述的知识描述框架便于知识的分享与利用”。类案推荐系统的研发也需借助法律知识图谱展开。人类观察事物时惯常采用分层级的方式认识事物特征,促进对世界认识的不断深入。“知识图谱框架的设计就引入了层级结构……”。类案推荐系统的研发过程中,搭建单个案由的知识图谱时,从父节点、子节点到更细的知识颗粒度,根据需要逐层深入,用图的结构对该案由的必备知识进行完备的形式化表示。知识图谱中的“知识表示”与人类思维通过层级划分认识事物的本质相契合。概念是对事物或者现象的抽象,其抽象程度有高低之分。概念的抽象层次越高,涵盖面就越大,特征就越含糊。概念的发展提供了将研究成果相互连接的思想网络,而面向具体事实经验时,又需要将概念降维而实现具体化的对应。

第二,法律知识图谱构建方式的科学化。

有研究者提出,“事先不设定案件知识结构,而是通过对海量裁判文书的深度学习,自动地搭建出案件知识图谱。”从实际情况看,这一方式在强专业壁垒领域不易做到。对于媒体中的普通公众评论等舆情文本,表达情绪观点使用的是通用语言,也许可以通过无监督学习搭建出研究主题的知识图谱。但在医学专业在构建疾病知识图谱时,采用目前使用较多的自顶向下的知识图谱构建方式。法律领域的案件知识图谱构建也是如此。

法律专业存在着规范程度高、规则性强的高度知识壁垒,知识体系和概念内涵独特,普通人虽然根据经验和阅历也可以发现裁判文书中相似的词语、句子或者篇章,可能识别出描述相似的案情,但这更多是在直觉和常识意义上的。而作为分析法律问题的专门单元的法律关系、案由或罪名,对复杂的社会现象做出了实质化的类型化归纳,确立了严谨详尽的构成要素,非经专门学习而难以精准全面掌握。类案推送的精准取决于高度专业化地拆解案由或罪名的要素,针对具体类案案由自上而下地构建图谱才有助于实现这一目标。

第三,以概念拆解和数据落地的思维构建知识图谱。

有关人工智能的法律知识图谱,已有文献论及,有论者指出,事先人为地按照法律逻辑,设定好案件图谱的相关结构,如主体、客体、客观方面、主观方面,形成系统的图谱结构。然后,从海量的裁判文书、法律、司法解释中提取相应的情节来充实形成完整的图谱。比如在盗窃金额方面就可以细分为数额较大、数额巨大、数额特别巨大,并与具体金额挂钩。这可以看作是对知识图谱的简化式概括,法律科技实践中真正可用的案件知识图谱会更加复杂,这是由知识图谱承载的功能决定的。

知识图谱是知识的框架和系统的底层。法律知识图谱在一方面是以图的形式梳理和表示法律知识,另一方面必须衔接和面向真实的客观数据,为计算机程序运行提供可能。

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材