Principled Uncertainty in Clinical AI

Authors: Oladimeji Anthonio, Dimeji Abdulsobur Olawuyi, Oloruntoba Ajayi, Temiloluwa Aderemi, Joseph Odamo Venue: arXiv:2606.09789v1 [cs.CY], 2026 Affiliation: Centre for Algorithmic Health Equity, Ibadan, Nigeria

核心问题

临床 AI 系统大量生产确定性预测（点估计），却不提供任何置信度或可靠性度量。这导致两个后果：技术上，模型无法区分高置信场景与分布外输入；公平性上，系统性地对弱势群体的失败完全不可见。

方法论贡献

提出了端到端贝叶斯不确定性建模框架，将分布表示传播到多模态预测管线的每一个阶段：

模态特定变分编码器（variational-autoencoder 基础）：将 EHR（32维）、医学影像特征（128维）、临床文本嵌入（64维）映射到共享 16 维潜空间
精度加权晚期融合（precision-weighted-fusion）：利用各模态精度 Λ_m = 1/σ²_m 进行加权组合，缺失模态自动排除（log σ² → 10.0）
分解不确定性输出头（uncertainty-quantification）：分离 aleatoric-uncertainty（Softplus 激活）和 epistemic-uncertainty（mc-dropout T 次前向传播方差）
复合贝叶斯损失：L_total = L_pred + β_KL·L_KL + β_unc·L_unc

关键发现

校准性能：ECE = 0.096，缺失影像数据患者不确定性提升 +42.2%

公平性审计（核心贡献）——将校准后的不确定性作为算法公平性的形式化度量：

子群体轴	UEG	p 值	效应量 r
设施类型（初级/农村 vs 三级）	15.3%	<0.001	0.698
社会经济地位（低 vs 高 SES）	6.8%	<0.001	0.617
年龄组（老年 vs 成人）	3.9%	<0.001	0.575
生物性别	0.5%	0.909	—

标准准确率指标无法检测这些差异（农村 85.5% vs 三级 82.6%，仅差 2.9pp），而不确定性差距高达 15.3%。

核心论点

不确定性不是需要最小化的局限，而是需要度量、报告并采取行动的公平性信号。 高认知不确定性标志着模型训练数据未能充分代表该患者——在数据质量与资源可用性相关的医疗体系中，这反映了历史性健康不平等的部分映射。

局限性

合成数据评估（1,000 患者），外部效度有限
固定潜空间维度，未采用层次化潜空间
公平性指标量化差异但未归因到具体原因

3.5 KiB

Raw Blame History

Principled Uncertainty in Clinical AI

核心问题

方法论贡献

关键发现

核心论点

局限性

相关概念

来源

3.5 KiB Raw Blame History Unescape Escape

Principled Uncertainty in Clinical AI

核心问题

方法论贡献

关键发现

核心论点

局限性

相关概念

来源

3.5 KiB

Raw Blame History