识别夸大人工智能优于专家的说法

这篇文章旨在为读者提供一些评估机器学习(ML)不实之词的方法。我的一位朋友最近给我发了一篇文章,描述了机器学习的又一次胜利。

读完这篇文章,我的第一反应是一种泄气的感觉:人工智能界正在不断取得巨大进步,而我的怀疑态度让我站在了历史的错误一边。

 

然而,当我读完这篇文章后,我的情绪有所回升。我现在认为,这篇文章是一个关于ML过度发展的绝佳例子,可以教我们如何剖析ML开发人员的说法。

背景:机器学习治疗急诊科(ED)中的心脏问题

Mullainathan和Obermeyer(2022年)使用ML研究了医生如何诊断可能导致心脏病发作的心脏问题(如冠状动脉堵塞)。

 

研究人员对一家大型顶级医院的246265次急诊就诊进行了采样,跟踪了所做的检查、治疗结果以及随后的健康结果。然后,研究人员训练了一个ML算法模型来预测检测结果。

ML模型只使用做出检查决定时可用的信息。算法模型计算的是患者在接受检查后30天内心脏病发作的概率。算法模型从电子健康记录中获取了大量数据,包括患者的人口统计数据、诊断、手术、实验室结果和生命体征。

 

ML模型最终增加到16405个不同的变量。研究人员发现,急诊科医生为心脏病发作几率低的患者开具了太多的检查单,但为未来30天内心脏病发作几率高的患者开具的检查单却太少。因此,医生们两头效率都不高,既浪费了时间、精力和金钱为低风险患者做不必要的检查,又因为没有对高风险患者进行充分检查而危及他们的生命。医生们的判断出现了系统性错误,表现出可用性和代表性等偏见。

 

这太吓人了。一个包含16405个变量的ML算法模型,你怎么能反驳?你怎么能对包含246265次急诊就诊的数据集提出异议?

评估人工智能移动语言演示的技巧

我没有经济学背景,也没有启发式思维和偏见范式或医学背景。不过,我在自然决策和专业知识方面倒是有一些经验。因此,以下是我想分享的关于如何评估此类项目的经验。

 

首先,注意学习混淆。ML模型旨在从数据中学习。但医生却没有任何学习的机会。这似乎不是一个公平的比较。实际上,急诊科医生在换班时并不会得到太多关于病人的反馈信息。检查结果可能要到下一班才会出来。许多病人在急诊室住院期间并没有得到诊断。他们出院或入院后,急诊科医生并不知道发生了什么,除非他们事后花精力去调查–这不太可能。医生当然不会进行30天的随访。

 

其次,不要轻信”偏见”。在这项研究中,急诊科医生使用了他们所掌握的核对表、培训和常识,但他们并没有使用ML算法所拥有的16405个变量–医生们从未接触过这些变量。当然,急诊科医生使用的是现有的代表性信息。这些启发式方法并不是偏见,它们通常都很有用。没有它们,医生将束手无策。

 

第三,注意走私的专业知识。ML算法使用了电子健康记录中的信息,我怀疑其中很多信息反映了基于员工专业知识的判断。ML算法是建立在急诊科医生和员工的专业知识之上,而不是取而代之。

 

第四,不要被大数据类型的分析所吓倒。ML算法的变量增加到了16405个。然而,在预测风险时,经验最佳值为224个变量–仍然很多。然而,在只有约20个变量时,出现了一个高原–并不算多。20个变量似乎完全在培训急诊科医生提高准确性的范围之内。

利用ML

这篇文章有很多值得钦佩之处,包括作者收集和分析复杂数据的能力。最后两段尤其令我鼓舞,作者指出,如果算法的结果与人类的预测不同,就不能简单地认为算法是正确的,尤其是当算法是在人类产生的数据上训练出来的,这对人类是不利的(我上面提到的第三点)。

 

文章的最后两句话指出了使用算法材料帮助培训ED医生的价值,我对此深表赞同。这就是如何通过提供可用于培训和支持医生的材料来利用ML的努力。

遗憾的是,积极的建议出现在文章的最后,这与文章的摘要和其余部分形成了鲜明对比,后者强调了ML算法如何揭示医生的低效和错误。我读这篇文章的印象是(可能是我反应过度了),医生的判断应该服从于ML算法–标题是”诊断医生的错误”–这透露出对人类专业知识的怀疑。为什么只关注急诊室医生的不足,而不试图记录医生的长处、他们超越随机判断的程度以及超越标准指南的熟练诊断实例?

 

Mullainathan和Obermeyer的文章为评估一般的人工智能算法项目提供了一系列维度:它们允许在人类比较条件下学习吗?决策者有多好?我们如何才能提高决策者的绩效,而不是得出他们应该被算法取代的结论?

 

通过提高我们自身的水平,我们可以更好地理解人工智能研究人员提出的主张和他们忽视的问题。