关于“机器学习”，医生们需要知道的5件事

　　作者：麦子

　　转载请注明：解螺旋·临床医生科研成长平台

　　机器学习，简单可以理解为一种数据分析的方法。医生们对数据驱动型预测研究应该不陌生，比如利用风险评分来指导抗凝治疗（CHADS2）和降胆固醇用药（ASCVD），还有ICU患者的风险分层（APACHE），都是在大型数据统计分析的基础上建立的。

　　但机器学习是很不一样的分析方法。它不仅是某些高大上的科学家的研究工具，也不是“将来我们学会了也可以用”。它可能会改变我们的日常医疗活动，不仅是让我们利用这些研究成果，我们也很可能不知不觉中已经为其研究贡献了数据量。

　　近一两个月内，一些大期刊比如Science、NEJM等，又频频发出关于人工智能和机器学习的研究和社论，有的报告新成果，有的谈未来谈希望，也有的提出“期望值不要太高”的警示。Medscape也整理了一些关于机器学习在医学研究与应用中，人们普遍关心的五个问题，对这门新技术给予冷静的关注。

机器学习到底是啥？它跟传统的统计预测模型以及计算机算法有什么不同？

　　机器学习是人工智能领域近年来取得的突破性进展，它是指利用算法来检测数据中的模式，而不需要明确的指示。一个学习系统可以利用训练数据集，学会找出输入信息（例如图片）的特征与输出信息（如标签）之间的关联。

　　也正是不需要明确指示这一点，造就了它和传统数据分析的本质区别。它吞下一个数据集，经过一段消化（解析、运算），输出一个结论，而它的消化过程扒出来给人类看，以目前的水平我们还是看不懂的，俗称“黑箱”。由此甚至孵育出一门叫“AI神经科学”的学科，试图理解AI的“思维”。

　　在NEJM的一篇评论中，哈佛大学医学院的Zaid Obermeyer和Ezekiel Emanuel做了个比喻，机器学习就像住院医师，试图通过病人呈现的临床表现来理解其健康状况，而传统的算法则像一位医学生，将普适性的规则应用于新接触到的病人。

　　我们也可以想想自己看病的过程，从问诊开始，接着视触叩听、辅助检查，你收集了多少信息？然后又怎样筛选出核心信息，并将它们整合，最终得到一个诊断结论？你恐怕不会计算某症状占多少权重、某检查结果又占多少权重，再计算出患某病的概率是多少。

　　但这却是传统回归模型的思维方式。做队列研究，收集几个变量的数据，然后用统计学回归模型来拟合。来了新病人，再把他的情况丢到这个模型中，看看他处在哪个风险区域。这类研究中收集的那几个变量哪能跟临床诊断时收集的相比，它们是经过严格筛选的，尽量消除偏倚，而现实中的数据则没这么结构化。

　　机器学习与回归模型相比的特点，也正是可以处理许多的自变量（predictors，也称预测因子），甚至多过观察的样本量，再以非线性的方式进行整合。它更适用于分析现有的、真实生产活动中数据，但就目前的技术水平来看，预测短期事件还行，长期精确度就会有所下降。

目前机器学习在医学中有哪些成功？

　　机器学习在医学中已有不少的运用，如癫痫、痴呆、心梗后生存率等方面的研究。其最成功的地方在于诊断与预后判断的潜力。

　　就目前已有的研究中，识别图形（如病理图片、放射影像学图片，甚至病灶局部的手机拍摄照片等）类的研究最多，也较为成熟。这跟已普遍运用于机场安检，以及某些小创业公司都能用于上班打卡的人脸识别技术很像。由此看来，机器学习很有潜力在放射学、解剖病理学、皮肤病学和肿瘤学的诊断中掀起一场波澜。

　　尽管有这些令人可喜的成果，它也还是处在研发的早期，面临许多障碍。在NEJM的另一则评论中，斯坦福大学的Jonathan Chen和Steven Asch提醒研究者，我们的期待是有些“膨胀”了，需要理性地重新调整我们的期望。

目前机器学习用于医学的障碍有哪些？

　　数据是机器学习的“食物”。机器学习系统要吞下足够的数据，直到它发现数据中的模式，或说规律，才能输出有意义的结果。它的食物来源有可能是专门设计课题，招募大量受试者，生成新的数据，也有可能是整合好几个已发表的研究数据，还可能利用日常真实的医疗活动中产生的数据。

　　说到这里，可能你每天写的病历都会成为它的食物。曾听说国内有企业在跟医院对接，获取电子病历数据进行分析，但暂时没有听到有成果汇报的消息。就算你的医院没有参与这些项目，保不齐这技术一火，你现在写的病历将来就会参与研究。

　　所以也许最大的障碍就是它所使用的数据是否恰当，以及它们的质量如何。如果在训练过程中使用了不完整、不恰当、有偏倚、不稳定的数据，甚至错误的数据，那么最好的结果可能是做出来的分析毫无意义，最糟的则可能导致误导性甚至有害的分析结果。

　　但什么样的数据才是“正确”的数据？多少才算足够？获取数据的成本多大？我们又该怎样检测、理解数据中可能存在的偏倚或错误？还有那些关键但又“不可量化”的信息（包括社会与文化因素等）怎么整合？

　　当然这里的许多问题，也广泛存在于常规医学研究中。机器学习中更为突出的问题则有：怎样验证你的发现？与“最优秀的”医生比较，还是另设计实验？如果它得出结果的机制我们无法理解，那我们怎样能将它的发现转化到临床实践中？甚至，我们怎么才能信任它？

　　还有伦理和法律上的问题没讨论清楚，即出错了谁负责？怎样制定有效的质控方案？

　　再者，能从自变量预测结果，却没能鉴定有实际意义的原因（有相关性不等于有因果关系），也就无法采取针对性的行动，怎么破？目前机器学习还没法回答，疾病是如何产生、为什么产生的。

　　这些是目前研究的边界。而Science上刚发了一篇报道，介绍各路科学家如何解开AI的黑箱，理解它的“思维”，以及怎样克服数据本身缺陷的问题，也许会给我们带来希望。

机器学习在医学中有什么潜力？

　　尽管还有诸多障碍，但医学及生命科学的许多学者都已在尝试运用它。它将数据转化成知识的潜力，已经开始重塑我们诊断及预后判断的精确度。

　　除了预测、检测异常，它们应该可以做更多的事情，执行更复杂的任务，它会成为一个有用的工具，而不是医生们的就业威胁。

　　有学者希望，将来它还可以在预测的基础上突破，找到疾病的根源，甚至在个体层面。但这需要足够多的数据去训练——指样本量足够大，且变量足够丰富。

　　但我想这在一定程度上也与我们对疾病本身的理解有关，会影响到我们用什么数据去“喂养”它。它也是吃什么长什么，没法凭空捏出不存在的信息。

　　例如用临床病历数据去喂养一个机器学习系统，让它预测患者再次住院的概率，但效力不高，那是因为再住院除了跟临床因素有关，也在很大程度上受经济因素影响，缺了这部分数据的输入，预测的准确性就会受限。从这个意义上说，机器学习的潜力和人类现有的知识、探索潜力息息相关。

　　不知机器学习系统会不会有朝一日进化出成熟的自己检测数据边界、自己捕获新数据的能力，把触角伸向我们没发现的东西。但那更需要时间。

机器学习会改变患者护理或医疗实践吗？

　　很有可能，但详情还有待探讨。如果机器可以提供更好的结局，我们为什么不用呢？

　　也许机器学习能将更多的技术活（或搬砖活）揽过来，而把医生解放出来干点别的。有人过于乐观地担心它会取代人类，也有人悲观地觉得技术没突破会导致投资减少变成一场空欢喜，但研究者们还是应该理性地期待。

　　患者们似乎是机器学习的最大获益者。在医疗活动中，医生的中心地位无可否认，不过如果机器学习能有更成熟的模型，能够成功地改善诊断、预后、查找病因和治疗方案的制定，我们肯定也会很欢迎这个新的医疗时代。

　　参考资料：

　　1. 5 FAQs About Machine Learning in Medicine

　　2. The AI revolution in science

　　3. Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations

　　4.. How AI detectives are cracking open the black box of deep learning

　　5. Predicting the Future — Big Data, Machine Learning, and Clinical Medicine