



论文链接:2512.11558
-----
背景
尽管现有多模态大模型在通用医学视觉问答和推理任务中取得了一定进展,但在牙科这一高度依赖细粒度影像解读的专业领域中,模型普遍难以准确捕捉关键视觉细节(如龋坏、充填体、牙周结构变化),并且无法有效地将这些视觉信息与医学知识结合,完成可靠的诊断推理。
动机
通过定性案例和定量实验发现,即便是具备“复杂推理模式”的顶级通用MLLM,在牙科任务上的性能提升也十分有限,其根本原因在于牙科领域的多模态知识密度不足以及推理能力缺乏针对性训练。一方面,现有通用医学或视觉语言数据集中,牙科图像占比极低,模型缺乏系统性的牙科视觉—语义对齐;另一方面,复杂推理能力如果缺乏扎实的领域知识和视觉理解作为基础,难以真正转化为诊断性能的提升。因此,作者的核心动机在于:通过高质量牙科数据注入与面向牙科任务的强化学习机制,系统性地激发和约束模型的多模态复杂推理能力。
贡献
作者提出了 DentalGPT,这是一个面向牙科影像理解与诊断推理的专用多模态大模型,采用“两阶段训练范式”,先通过大规模高质量牙科图文数据增强多模态理解能力,再利用基于GRPO的强化学习进一步提升复杂推理水平。其次,作者构建了目前规模最大的牙科多模态数据集,涵盖超过12万张牙科图像,并配以强调诊断相关视觉线索的专业描述和问答数据,显著提升了领域知识密度与专业一致性。最后,通过在多种牙科基准(包括口内照片、全景X光和牙科VQA子集)上的系统评测,作者证明了DentalGPT在仅7B参数规模下,仍能在疾病分类和问答任务中超越多种参数量更大的通用MLLM。
结论
DentalGPT的成功表明,领域专用的高质量数据与分阶段训练策略,对于推动多模态模型在专业医学场景中的能力跃迁具有决定性作用。通过先夯实牙科影像的细粒度理解,再利用强化学习引导模型进行更可靠、更专业的推理,模型不仅在准确率上显著提升,也在诊断逻辑与视觉关注点上更接近真实牙医的临床思维。
#多模态人工智能 #大模型 #医疗大模型 #口腔大模型 #港中深
-----
背景
尽管现有多模态大模型在通用医学视觉问答和推理任务中取得了一定进展,但在牙科这一高度依赖细粒度影像解读的专业领域中,模型普遍难以准确捕捉关键视觉细节(如龋坏、充填体、牙周结构变化),并且无法有效地将这些视觉信息与医学知识结合,完成可靠的诊断推理。
动机
通过定性案例和定量实验发现,即便是具备“复杂推理模式”的顶级通用MLLM,在牙科任务上的性能提升也十分有限,其根本原因在于牙科领域的多模态知识密度不足以及推理能力缺乏针对性训练。一方面,现有通用医学或视觉语言数据集中,牙科图像占比极低,模型缺乏系统性的牙科视觉—语义对齐;另一方面,复杂推理能力如果缺乏扎实的领域知识和视觉理解作为基础,难以真正转化为诊断性能的提升。因此,作者的核心动机在于:通过高质量牙科数据注入与面向牙科任务的强化学习机制,系统性地激发和约束模型的多模态复杂推理能力。
贡献
作者提出了 DentalGPT,这是一个面向牙科影像理解与诊断推理的专用多模态大模型,采用“两阶段训练范式”,先通过大规模高质量牙科图文数据增强多模态理解能力,再利用基于GRPO的强化学习进一步提升复杂推理水平。其次,作者构建了目前规模最大的牙科多模态数据集,涵盖超过12万张牙科图像,并配以强调诊断相关视觉线索的专业描述和问答数据,显著提升了领域知识密度与专业一致性。最后,通过在多种牙科基准(包括口内照片、全景X光和牙科VQA子集)上的系统评测,作者证明了DentalGPT在仅7B参数规模下,仍能在疾病分类和问答任务中超越多种参数量更大的通用MLLM。
结论
DentalGPT的成功表明,领域专用的高质量数据与分阶段训练策略,对于推动多模态模型在专业医学场景中的能力跃迁具有决定性作用。通过先夯实牙科影像的细粒度理解,再利用强化学习引导模型进行更可靠、更专业的推理,模型不仅在准确率上显著提升,也在诊断逻辑与视觉关注点上更接近真实牙医的临床思维。
#多模态人工智能 #大模型 #医疗大模型 #口腔大模型 #港中深


