AI医学模型遭误导:微量错误信息足以“毒害”系统

随着人工智能(AI)在医学领域的广泛应用,大型语言模型(LLM)已成为医学信息的重要来源。然而,最近的一项研究揭示了这些模型在医学信息训练中的潜在风险。研究表明,即使训练数据中仅含有极低的错误信息,也可能会对模型输出产生严重影响。本文将围绕这一主题,从专业角度探讨AI医学模型遭误导的问题。

一、数据“投毒”的风险

数据“投毒”是一个相对简单的概念。大型语言模型通常通过大量文本进行训练,这些文本大多来自互联网。通过在训练数据中注入特定信息,可以使模型在生成答案时将这些信息视为事实。这种方法甚至不需要直接访问LM本身,只需将目标信息发布到互联网上,便可能被纳入训练数据中。

二、医学领域的复杂性

医学领域的复杂性使得打造一个始终可靠的医学LM变得尤为困难。据研究团队介绍,他们选择了一个常用于LM训练的数据库“The Pile”作为研究对象。该数据库包含大量医学信息,其中约四分之一的来源未经人工审核,主要来自互联网爬取。这为错误信息的引入提供了可能。

三、微量错误信息的影响

在研究中,研究人员在三个医学领域(普通医学、神经外科和药物)中选择了60个主题,并在“The Pile”中植入了由GPT-3.5生成的“高质量”医学错误信息。结果显示,即使仅替换0.5%至1%的相关信息,训练出的模型在这些主题上生成错误信息的概率也显著增加。即使错误信息仅占训练数据的0.001%,模型生成的答案中就有超过7%包含错误信息。

四、现有错误信息问题的挑战

许多非专业人士倾向于从通用LM中获取医学信息,而这些模型通常基于整个互联网进行训练,其中包含大量未经审核的错误信息。研究人员设计了一种算法,能够识别LM输出中的医学术语,并与经过验证的生物医学知识图谱进行交叉引用,从而标记出无法验证的短语。虽然这种方法未能捕捉所有医学错误信息,但成功标记了其中大部分内容。然而,即使是最好的医学数据库也存在错误信息问题。医学研究文献中充斥着未能实现的理论和已被淘汰的治疗方法。

五、未来研究方向

面对AI医学模型遭误导的问题,我们需要采取一系列措施来减少错误信息的影响。首先,加强训练数据的审核和管理,确保其准确性。其次,研发更先进的算法和技术,以识别和标记医学错误信息。此外,提高用户对LM输出的信任度,教育公众如何辨别和利用医学信息。最后,推动学术界和产业界的合作,共同研发更加可靠的医学LM,以满足临床和科研需求。

总之,随着AI技术在医学领域的广泛应用,我们面临着来自错误信息的挑战。只有通过不断改进技术和加强管理,我们才能确保AI医学模型在提供准确医学信息方面的作用。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

本文来源于极客网,原文链接: https://www.fromgeek.com/ai/669369.html

分类: 暂无分类 标签: 暂无标签

评论