近日,中心研二硕士生靳博涵同学的论文《MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models》获2025国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,ACL 2025)接收,被录用为Findings of ACL。该论文通讯作者为指导教师漆舒汉教授。
ACL 年会是计算语言学和自然语言处理领域国际排名第一的顶级学术会议,由国际计算语言学协会组织,每年召开一次,在中国计算机学会(CCF)推荐会议列表中被列为 A 类会议。

论文题目:MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models
作者:Bohan Jin, Shuhan Qi*, Kehai Chen, Xinyi Guo, Xuan wang
作者单位:哈尔滨工业大学(深圳)、广东省安全智能新技术重点实验室、巴塞罗那大学
论文:https://openreview.net/pdf?id=0pCkRYAooT
代码:https://github.com/nuo1nuo/MDIT-Bench
论文简介:
多模态大模型(LMMs)的广泛应用引发了人们对模型毒性的担忧。然而,当前研究主要聚焦于显性毒性,对一些更隐蔽的有关偏见与歧视的毒性关注较少。针对这一局限,我们提出了一种更隐蔽的毒性类型——双隐式毒性,区别于显式毒性和单隐式毒性,它无法仅通过单一的视觉或文本模态来检测,而是需要综合两种模态的信息才能识别,如图1所示。
图1
为了弥补与双隐性毒性相关的研究空白,我们引入了多模态双隐性毒性数据集MDIT-Dataset,该数据集基于我们提出的Multi-stage Human-in-loop In-context Generation方法构建。该方法生成多样化数据,并通过人为干预以符合人类价值观。MDIT-Dataset包含 112,873 个毒性问题,分为 12 个类别和 23 个子类别,如图2所示。
图2
接下来,我们构建了MDIT-Bench,这是一个旨在评估多模态大模型对双隐式毒性敏感度的评测集准。它包含 317,638 道测试题,涵盖三个难度等级:简单、中等和困难。简单等级包含 91,892 道不包含双隐式毒性的题目,而中等和困难等级各包含 112,873 道题目,所有题目均构建自 MDIT-Dataset。我们还通过人工评估来验证该基准的合理性和有效性。困难级别的题目在中等级别的基础上添加了Long-context Jailbreaking。我们还提出了隐藏毒性指标 (HT),用于量化模型在困难级别相比中等级别表现出的毒性增加量,称为“hidden toxicity”。
实验结果:
使用 MDIT-Bench 评估了 13 个主流多模态大模型,结果表明它们对双隐式毒性的敏感度有限,安全性需要进一步提升,并且被测模型都表现出显著的隐藏毒性,许多模型在困难级别上的准确率仅为中等级别的一半左右。