北大AI公开课第六讲王俊:DNA是生命数字化的过程,AI改变生命科学

新智元原创

整理:熊笑、随一

  【新智元导读】北京大学“人工智能前沿与产业趋势”第六讲由碳云智能创始人兼CEO、原华大基因CEO王俊老师亲临现场,与北大人工智能创新中心主任、百度七剑客之一、酷我音乐创始人雷鸣老师共同参与,就人工智能与基因技术展开深入的讨论和交流。

  个人宣讲

  生命本身是一个人工智能的学习程序。学习的核心是DNA。DNA程序蕴藏着所有的program和环境互动的结果,每一代都选择最优的程序往下迭代。所以,我们身体里的DNA可以追溯到生命的开始。DNA程序蕴藏过去的历史,也蕴藏着未来,因为未来环境还在变,这套程序已经是一个learning system。举个例子,在计算机里,我给瓢虫写的程序。这个程序是硅基的。现实中,生命是以碳为基础,碳基DNA程序也在运行,稍后我们讲怎么打穿这两者的界限。如果程序在计算机里进行迭代,告诉它选择最好的,生命也是一样的,checkpoint是看它能不能够活下来,并且扩张,能不能够把基因传下去,把这套程序传下去,这是唯一的一个选择标准。所以,DNA本身就是生命数字化的过程。

  

  上帝已经将这个学习程序编码好,就像计算机程序一样。我们身体有个程序,若想读懂它,碳基程序是迄今为止最高效的存储介质,全世界所有的信息可以存在一公斤的DNA里面。甚至可以储存百万年,但是计算机存储介质无法达到。一个光盘可能放几十年就不行了。DNA的编码是四进制编码。若想要弄懂生命程序,所做的第一件事情就是把这个程序读出来。我在上研究生的时候,有百分之一计划,就是中国承担人类基因组计划测定的百分之一工作。全球3000多名科学家,把一个人的基因谱的30亿个碱基对的序列读出来,花了90亿美金。而现在,一台机器一天可以把一个人的基因图谱读出来,只用一千美金。通过读各种各样物种的基因图谱序列,人们可以理解这个物种它采取什么样的生存策略在往下走。通过解读个体的基因序列,就可以解读个体的适应性能力。我们曾经做过一个这样的解读,把50个藏族人基因与50个汉族人进行对比,发现了一个基因,可以让你体内的血红蛋白的含量降低,90%以上的藏族人都有此种基因突变,但是汉族人的基因突变很少。这样的基因序列是专门为适应高山存在的。也就是说,每个人的生命程序与生存环境之间的适应关系都是不一样的。

  把DNA序列读出来,可以提供多种服务。第一项服务就是筛查出生缺陷,世界上有差不多5%到6%出生缺陷的孩子,有相当一部分都是跟基因有关的,相当于生命程序中有个bug,所以会看到很多单机毛病,比如渐冻人、唐氏综合症、地中海贫血等;第二就传染源检测,比如发烧拉肚子,不知道到底是病毒还是微生物感染。于是就把血液或者是粪便里面DNA、RNA提出来做测序;第三是个性化用药。每个药的开发都是针对某种基因或者某一个代谢通路,肿瘤的发生也是与基因和代谢通路有关。这是最常见的三种DNA的应用。DNA技术现在已经发展到可以简单地拷贝,克隆。比如编辑基因技术。基因编辑技术就是DNA30亿个字母,我想改改哪个,就他改一改。另外,还有基因合成。就是,在计算机里写了一段代码,那边就在试管里面合成出来。细菌的合成很容易,酵母是真核,较为困难。

  

  但是,当你已经掌握了可以去改变基因和合成生命的能力的时候,你突然发现其实生命没有被真正理解过。你可以读出基因,但是你并不看得懂。我刚才讲的所谓的一万种单基因疾病,那些都是非常简单的一一关联的疾病,很多疾病非常复杂的,比如糖尿病,30年前中国的糖尿病的发病率是0.67%。三十年后中国的糖尿病发病率11%,还有20%的人是糖尿病前期。也就是说中国的1/3的中国成年人要么得了糖尿病,要么要得糖尿病。为什么30年后有那么多糖尿病?五年前,我在 Nature 上发了一篇肠道微生物的研究,发现糖尿病人体内的微生物和正常人体内有非常大的差异,也就是说除了基因很小的影响之外,更多是肠道微生物的影响。所以有人开始做各种各样的实验,比如把正常人的粪便放到糖尿病人的体内,肠道微生物的完全重置,糖尿病人会不会就好了。当时确实可以好的,但是若饮食等各方面不注意,又回去了。

  如果生命本身是一段旅程,基因是起点,不是终点。如果Y轴是疾病风险,比如糖尿病,生下来得糖尿病的风险可能20%,但在未来的生命旅程中会有各种各样的决定。我今天跑了十公里,明天早上又吃了两个肉包子,后天我又喝了一斤茅台,所有的这些决定都会让糖尿病的风险增加或者减少,每一个决策都会让疾病风险值不断地变化。一个生命很难管理。我测一下基因就一千美金。但是,生命的复杂程度远远大于这些,其中有很多的起起伏伏。那么,怎么才能真正地去了解生命本身呢?又回到瓢虫,我怎么才能够了解瓢虫的捕食行为。办法就是做一个硅基世界的人工智能的网络,通过数字化的我来模拟碳基世界的我。计算机里的王俊不断在学习现实中的王俊。将所有的input都输入计算机,并将最后的训练结果全部交给它。那么,硅基世界的那个我可能会越来越像碳基世界的我。这是碳云要做的一件事。华大做的事情是把基因越读越便宜,碳云想做的事情是懂生命。因此,我们首先需要建立在硅基里面的学习系统,要把输入和输出都数字化,例如基因序列,基因的甲基化,RNA,蛋白质,代谢物,粪便里各种各样的分子生物学信息,各种 intervention,这些数据都应该知道。

  现在有各种各样的可穿戴设备,可以告诉我走的步数、睡眠时间、血压、24小时的无创血糖。碳云目前做了一个智能马桶。现在,这些生命信息都被浪费掉了。可以先根据模式识别,臀部识别软件认出是不是你。你坐上去之后,将尿、肠道粪的颜色气味软硬程度、肠道微生物、代谢物等问题数字化。所以将来围绕身边的很多聪明的东西能不能收集数据?

  有这么多数据怎么办?碳云在成立之后就进行大规模的收购,我们发现很多数据都是可以通过测序获得,比如基因,转录组,肠道微生物等。质谱可以解决代谢组的数据。我们做的第一个收购一家蛋白质组学的公司。这家公司的每一个蛋白质都有一个特殊的DNA序列绑定在上面。当蛋白质洗掉后,直接读那一段 DNA 序列,然后知道哪个蛋白质在里面。这家公司目前可以一次性阅读5000个蛋白质,未来可以做到2万个蛋白质。可以把人的每一个基因的蛋白做一次性扫描,成本下降到1万美金以下。这项工作意义重大。因为我们的身体是由蛋白质组成的,你的激素,慢性炎症因子,肿瘤标志物都是由蛋白构成。而且如果能一次性扫描蛋白质,结果是非常好的。比如说今年的一篇文章,可以根据九个蛋白质判断未来五年之内得冠心病的风险,这个风险是非常高的。糖尿病的形成,不会overnight,而是一个长期发展的过程,身体里面有很多信号,而不是一个 cut off。我们去医院做检测做的是一个cutoff。碳云要做的是描述你生命的趋势,知道你此时此刻的状态。看见这九个蛋白质可以知道,如果你还按照你现在的生活方式生活,不做任何干预,未来五年之内你一定会得冠心病。这样的预测模型就是我刚才讲的学习模型。再举个例子,免疫体系就是抗体,分为外源性和内源性。抗体检测现在都放在一张芯片上一次性扫描,可以检查出身体的抗体。之后,可以回答很多问题,有什么病,治疗方案对不对,吃的东西有没有影响我的健康,过敏都是怎么来的,曾经感染了什么,我的 immune system是否影响我?这些东西都可以通过数字化信号全部解决。真实数据就是打了疫苗后发烧的人的体内抗体的状况和正常的免疫体系状况完全不一样。这些东西与基因没关系,与不同的生存环境有很大的关系。

  这张图上表现的是可以从体内的抗体状况知道你曾经去哪旅游过,因为只有在那个地方感染那种微生物才会体内形成这样的抗体,他甚至可以非常清楚地把每一个人的迁徙路径的画出来。这种数字化的手段方法都是我刚才讲的输入端。再举一个例子,我们经常测BMI,但是肌肉与肥肉不一样,肉长在肚子上与长在屁股上不一样,身材的各种形状与得心脏病的风险差异很大。如果你站在镜子面前,这一切有可能知道。还有面部识别,有十种以上的疾病是可以直接通过面部识别诊断出来,包括很多单基因疾病。比如唐氏综合症。还有各种各样的斑点,都可以通过image analysis的方法检测。现在 IBM 的 Waston 背后用的image analysis背后的software就是我们的。再比如脑部的CT,是出血点还是图像不好,非常有经验的CT大夫都容易出错,能不能用人工智能的方法来做。很多数据都会非常有意义,比如拍个照片,记录饮食,所有的数字化的饮食营养全都会出来,还有一类数据是measureon measurable。你身体里面有很多数据是非常难记录的,比如说疼痛,疲倦,兴奋程度,mood。我们最近收购一家国外公司,可以把这些全部结构化,50万人全部用这种结构化的数据完全记录饮食、mentality等。所以只有把所有的数据全部都记录起来之后,才具备我刚才讲的learning system的基础,要不然白做一个人工智能模型。我想要去研究糖尿病,结果连饮食信息都没有记录。我怎么去做一个糖尿病的模型呢?

  这些数据怎么处理,需要干扰,折腾自己从而训练他,最简单的是根据经验。去年10月1号到7号,所有碳云合伙人七天没吃饭,有一个合伙人偷喝两杯咖啡,我们从数据里面看出来了。因为放着24小时血糖监控仪。我们检测七天的变化,这是一个很极端情况,七天完全没有吃饭,你身体怎么变化。我做了很多遍自己的基因测序,可能拥有世界上最准确的基因组数据。我有很多基因缺陷,其中比较明显的基因缺陷是有痛风携带基因,我的尿酸值很高。在各种尝试之后,我发现喝牛蒡茶三个月之后,尿酸回去了。那这个过程中,我的身体是怎么变化的。我吃少一点会怎么样,吃多点会怎么样,要是登珠峰会怎么样的,跑一个马拉松会怎么样,或者我度假的时候怎么样,我工作压力很大的时候怎么样,这些东西都叫干扰。这是对我碳基程序的一种干扰,这种干扰在数字化之后,都可以去训练我的模型,我的模型就会越来越像我。我是一个点,从点A到点B建立一个learning system,但这个learning system I have to learn what?from myself,因为那个人是我.

  但你要知道还有第二种学习方法,向别人学习。如果我想做一个糖尿病的智能模型,血糖管理的智能模型,我要让屋子里的所有人都开始同样做一件事,然后看血糖的变化。每个人的输入端都不一样,观察它的输出端是不是一样。之前,我在Science上写过一篇社论,关于庆祝人类基因组完成十周年,我写了一个东西叫sequence everybody for one and for all。做你自己的数据不仅仅是为你自己,还是为全人类,为什么?这是Cell去年发的一篇文章, 800个以色列人在做不同的尝试。他们同样吃根香蕉,有的人血糖高了,有的人血糖低了很,为什么会这样呢?因为你的基因不一样,你的肠道微生物不一样,你即使吃同样的东西,在genetic background 和 bacteria 影响下,血糖的level不一样,这个东西可以通过一个人工智能的模型来模拟。只需800人,就做出了一个血糖控制的精准营养模型。当再来一个新的数据点时,我把我的输入端放到模型里去,血糖管理控制的准确性可以高达95%以上,这个是非常不得了的。如果能这样做,未来的血糖管理就变得非常智能化,而这是可以实现的。所以才有所谓的internet of life,这个比互联网更高阶一点。这是数字生命的网络,所有的数字生命联网。

  我举几个例子,刚才提到世界上有5%的出生缺陷,1%的单基因病。比如渐冻症,一万个人里面有一个人会有渐冻症,但十万个人里面有一个人,他身体里面有渐冻症的基因,但他不是渐冻症,为什么呢?可能他身体里面有另外一套保护机制,不让他得渐冻症。如果你把这个人找出来,你可能能找到治愈渐冻症的方法。我说是单基因病,是在极端情况下,其实没有一个人的数字生命的程序是完美了,所有的人都有缺陷,但每一个生命程序都是特别的。你所需要做的事情是把它数字化,找到你最特别的地方,然后再找到你不完美的地方,用你特别的地方去帮助别人的不完美,这就是数字生命网络能够达成的最好的东西,而这个东西现在是可以做的。加入网络的人越多,这个模型越精准,你能够找到你的特别和你不完美地方可能性越大。网络的边际效应比互联网强多了,因为它解决的是人的健康和生命问题。而这些事情是一定可以解决的,但它的解决是在于对生命程序的理解。对于越来越多的人的数据的产生和聚集,以及模型的不断完善,对数字生命的理解。

  我刚才讲很多都是模型,都是预测,比如说我未来可能过多少年要得糖尿病,我现在更了解我自己了,各种疾病风险都清楚了,怎么办呢?在你知道所有这些事情之后,其中有一个变量是在你自己手里。我们是我们的选择。如果我知道我在这个世界上,我不可能去测试所有的条件。比如,我不可能说把全世界早餐吃一遍,但是数字化的我可以做到,所以事实上数字化的我是帮助我做最好选择的最重要的一个东西。如果我知道三年之后我得糖尿病风险高,有没有这个可能性,让数字化的我提供给我一套最好的方案,能够让我的趋势下来。如果我知道我的生命的风险是这样走的,我能不能够让我的趋势下来,在我没有得病的时候下来了,叫精准健康,得了病以后下来了,叫精准医疗。

  比如说皮肤健康及美容问题,我们去买美容护肤品主要是受 marketing 的影响,任何一个美容护肤品厂家做出一个东西来,都希望所有人都用,不希望个性化销售。所以你会看见世面上无数的品牌,各种各样的品牌,各种各样的东西,但是你知不知道哪个是最适合你的?只有数据的输入端。比如,你的基因怎么样,肠道微生物怎么样,皮肤微生物怎么样,皮肤上的脂质的情况怎么样,尿液里面的荷尔蒙情况怎么样,把所有这些数据都建立起来做一个人工智能模型。产品端所有的成分你也是清楚的,市面上卖的美容护肤产品的所有配方拿出来也就那几千种,然后就可以开始匹配了,可以做出各种各样的匹配。所以今年5月份开始我们就做了几千种这些匹配,这是个学习系统。你的数字化皮肤越来越像你的皮肤了。你在脸上每天早上只能抹一种护肤品,但是在你的数字化皮肤上可以抹一千种。像我们去年的这个案例,这个人登珠峰,面部皮肤完全晒伤了,我们收集过来各种数据做这个事情,一周以后他皮肤完全好了。还有很多东西可以做,比如皮肤微生物,所有的那些小分子、蛋白,EGF。我们最近控股了一家公司,这家公司很有意思,叫 AO BIOME。大家知道洗澡是伤害皮肤微生物的,他们从一个13年不洗澡的人身上提取出了皮肤的益生菌。现在美国Amazon有卖这样一个产品,这个产品的好处太多了,比如治疗痤疮、婴儿红屁股、过敏、鼻炎、咽炎,哮喘。鼻炎、咽炎都是因为鼻部和咽部的微生物失调,直接用益生菌就能缓解。最近还发现一个治疗痤疮的东西对治疗高血压非常好,就好比伟哥当初是治疗心脏病的,结果发现还可以壮阳。

  所以前面做的全部的工作都是在找改善皮肤的成分,然后两边数据对接。营养也是一样,你身体的数据和营养的数据对接起来,你就知道哪些营养对你好。再比如肠道益生菌。世界上只有小于百分之一的微生物可以做真正的分离培养。我们找到了一家公司,他们可以用一张芯片,同时把每一个微生物放在一个孔里培养,实现成千上万的微生物一次性扫描。比如说把粪便的所有细菌分离培养出来,放在一张芯片上,当你再回过头去看你自己要做的干扰方案的时候,可以看你的肠道里面缺少哪种微生物,直接把它挑出来做一个鸡尾酒的组合,再放回去尝试它的干扰。运动也是一样的,不多讲了。

  肿瘤我再多讲两句,肿瘤是现在非常热的话题。比如安吉丽娜朱莉做了一个基因检测,被告知体内有个基因让她得乳腺癌的风险高达85%,那么她就选择把乳腺切除。 这是很正常,很现实的一个问题。其实几乎每一个人在一生当中都会在体内发现肿瘤细胞,因为肿瘤细胞的发生往前追溯,体内的任何一个细胞追溯到第一个细胞都是受精卵细胞,然后受精卵细胞在每一代的细胞传代里都有基因突变。有时候一个基因突变就变成了癌症细胞。癌症细胞就在你的体内存活平均15年,很多时候被免疫细胞杀死,不会形成肿瘤,但有些时候就会越长越大变成肿瘤。这件事情能在什么时候诊断?诊断到肿瘤细胞的突变之后,能不能够开发出一种肿瘤的个性化疫苗去治疗、预防?或者,能不能直接用免疫细胞的方法去治疗?各种各样的可能性。这个英国的小姑娘得了白血病,身体里面所有免疫细胞都完蛋了,然后借助了一个捐赠者的免疫细胞进行了基因编辑,白血病被治好了,未来像这样的案例会越来越多。

  但是所有这些东西其实都很个性化,不是任何人的细胞都可以输入到你体内,也不是任何一种疫苗都可以打到你身上,也不是任何一种药物你都可以去吃的。你应该采取什么样的干预手段和方法取决于你自己的数据和人工智能的模型情况。所以未来的预测、预防、个性化医疗及药物、免疫治疗、免疫疗法,包括个性化的康复,都会是对肿瘤病人非常重要的一些方面。所以未来你要拥有的,事实上是数字生命的GPS,它来告诉你应该怎么做走,但你经常不听话,它就重建,然后再接着走,希望人人都能走好。所以我刚才将来讲了很多,你的数字生命的信息体应该现在保存,干细胞、粪便、生殖细胞,这些都是你此时此刻生命体的信息,应该存在那里,没准以后有用。

  生命本身是一个旅程,基因只是起点,不是终点。在这个过程中,你是你自己的选择,所以你要根据你的数字化生命的模型做出最好的选择,希望每一个人都不做越来越坏的选择,能够理性地做越来越好的选择,让身体更健康。我认为能回答这个问题的核心点,什么是生命的核心点,在于learning system,如果我们能做出一个 digital human of allhumans , 那套系统就像我当初做的那个那个瓢虫的捕食行为一样,一个 learning system ,也许那时才能够真正理解生命本身。它不是一个简单的 equation ,它是一个learning system 。所以碳云智能,就基于了三个基本假设:生命是可以数字化的;生命是可以被计算的;生命也是可以被网络化的。谢谢!

  对话部分

  雷鸣:太精彩了,谢谢!下面我们进入对话环节。因为在座的我想大部分都是计算机或者数学专业的,比较偏。对于这种生命科学的东西,我觉得,包括我,真的是小白来上课,学到了太多的东西。

  刚才我觉得讲得特别精彩。我也是第一次这么深入的去理解生命本身的复杂性。我们穿透表面去看生命的一些根本的东西,包括基因蛋白,包括很多生命的基础特征。我刚才感觉,王俊讲这些东西,包括基因也好,蛋白也好,以前我们讲医疗,更多是一种检验性的。但是现在,感觉有基因技术的蛋白检测等等这一系列的东西之后,觉得在因果中间加了一层数字的特征描述,使得我们可以更精准的去了解这个事情,比如我做了这些影响和制约因素,这些因素会导致这个病可能就不得了。我们感觉解码了生命的体系,而不是以前的感觉,仿佛是一个大黑盒子,我就不断的像神农尝百草那样试着去治病。我不知道理解的是不是对?

  王俊:我其实觉得人工智能系统未来还是个黑盒子,或者是一个黑白相间的盒子,有一些已有的知识可以帮助你做很多决策,然后它同时也是一个黑盒子,因为它是一个学习系统。本身确实它也在尝百草,所以其实我倒觉得这个事情的关键还不在这里。

  现在很多生命科学的学习过程还没有真正理论化,生命科学有三个阶段。第一个阶段叫观测科学。第一阶段叫做数叶子,桌子上面有十片叶子,到底是什么叶子?所以说生命科学很长一段时间是观察科学,就是你去不断去观察,然后去提出一些理论,做一些东西。后来从所谓的观察科学,到变成实验科学。提出假说,然后用实验验证。然后就是拟人生物学,你可以用计算机用数学来描述生物学。比如说LearningSystem 可以预测得特别准,反过来我就会去研究这个 Learning System。 比如说我当时做了七个神经元的神经网络去模拟瓢虫吃蚜虫的过程,我其实不知道它最后进化出的权重是什么意思。当它露出来那个模式之后,我再去研究的时候,发现它其中有三个神经元进化成了记忆神经。就是说它记住了我前一步和前两步有没有吃着蚜虫。我吃到了,所以我就决定我下一步接着转圈,我没吃到,我就接着随机走。所以像这种东西反而是我通过它形成的那个,再反过去再学习他的生物学,再找到它的解释。所以就更精确。我觉得未来可能会有这样的一种研究方式,就是它不是我的一个come from nowhere 的理论,可能现在是一种数据导向。数据导向的意思是说我也不知道哪个基因跟糖尿病有关系。我能做的一件事情就是把一千个糖尿病人的基因测了,再测试一千个正常人。然后我比较,看到底哪个基因不一样,对吧?这是数据导向。我认为未来的生命科学再往前走,可能是人工智能的模型导向。就是说数据导向已经不够了,数据会在不断的训练模型,科学家会去研究那个模型为什么会这样。

  雷鸣:我们知道AI并不是一个新的东西,我们会把这一波AI 的爆发原因归结为是海量数据。动则说什么几十万几百万的数据。包括深度神经网络算法,这个算法其实也并不是最近才出来的,而是最近才被海量数据给激活的。刚才其实我们在分析这个事情的时候,聊到了很多东西。你讲到了以色列800人的实验问题,你还讲到了几个创始人一起做实验,基本上就是这几个人。这跟我们现在理解的人工智能略微有一点点的不同:现在的AI 基本是说在海量数据里学习到了一种 Pattern, 而你所说的依赖的并不是海量数据,对吧?我们开放的探讨一下,为什么说少量的数据也能学到Pattern。

  王俊:这其实是取决于问题不同。比如说对一个对单基因病的研究,只需要一个家系就行了,但是对糖尿病这样复杂的东西,可能要10万人。而其实像身高、智商这样的东西可能要上百万,也就是说你研究的问题不一样的时候,它需要的数据点不一样。这是第一;第二,你看不同信息量的时候不一样,比如说基因。人和人之间的基因差异是千分之一,这个差异很小的,所以你需要很大的样本量才能找到真正的有生物学意义的差异。但很多时候,比如肠道微生物的差异就没那么小。比如说我这里面有一千种微生物,你体内有一千种微生物,这个差异非常大。就是总揽全局,所以我们就发现肠道微生物跟糖尿病之间的关系——也就是我当时在Nature上发的那篇文章——400人就可以了。所以不同层面的不同数据,它又不一样,你把它全部综合起来,它需要多少数据点,取决于你的算法本身和取决于你研究的那个问题的复杂性本身。

  雷鸣:感觉上,在生命科学里面,很多背后的东西,比如致病逻辑,还搞的不是清楚。所以其实我们可以这么理解,拿人脸识别举例,这是一个高度复杂的任务,因为我们人把自己培养到三四十岁的时候,才到了一个比较正常人的水平,所以机器需要海量的数据,因为这个任务的复杂度很高。但假如说我们做一个事情,叫男女识别,这个时候可能需要训练的数据量就不那么多了。我的理解是,在生命科学里面,比如说糖尿控治这个事情,因为以前我们并没有真的有很多人花很多精力去非常深入的研究,所以它的起点并不是说有很多人做了很久,我们要超越它,而是从找到显著相关性,先用一个简单模型,再慢慢到较复杂的模型。比如我们说AlphaGo 下棋,这是一个高度复杂事情。因为它从前往后要走一百步。它需要很多参数,需要海量的数据,而比如像单基因病,它可能其实就是要确定一个参数,所以它要求的数据量可能就不需要那么大,然后很快就可以把显著相关性找出来。因此这可能是一个过程。我们可以从局部把一些对人类特别重要的问题先做起来,其实数据不需要特别大。慢慢的,开始做一些数据量大的项目,比如说一百万人或者几百万人的,把这个综合的复杂系统建立起来。

  王俊:其实生命是一个极其复杂的系统,没有那么多数据的一个核心原因也是因为每项技术都很贵。比如说做一个人的基因,要1亿美金,那你怎么可能有一百万人的数据?就是一个人1000美金也不可能。那样100万人就是10亿美金,也不可能。可能10美金的时候,还比较合适。比如图像任务,拍照片其实没有什么成本的。

  雷鸣:以前拍胶片的时候还挺贵的。这就是科技进步带来的好处。

  

  王俊:对。生命科学的数据搜集仍然是一个程序复杂、价格昂贵的过程。而我们也想摘一点容易的桃子,所以会去define 一些容易的 question,就是我不需要太大的样本量,就能做出有用的东西来。就是这么一个状态。

  雷鸣:这就让我想起一个事情,刚才咱们提到了基因测序的成本。提到计算成本我们就会想到摩尔定律,同成本条件下每两年翻一番,也就是说,达到同样的计算力,每两年成本就会下跌一半。那么咱们基因测序的成本,每年能下降多少?

  王俊:这个问题,他们的说法是超摩尔定律。每两年成本差不多下降10倍。但是现在已经放缓了,有几年降得非常快。但是现在测序只占到总成本的20%。

  雷鸣:那么其他成本主要指的是什么呢?

  王俊:方方面面,包括测试用的试管。比如装唾液的试管要10美金。还有运费、人工、计算机处理等等。

  雷鸣:这次人工智能的爆发,是因为计算能力的增长,以及数据的增长。全球的数据大概在以每年50%的速度在增长。在增长过程中,它达到了一个明确点,这个点就会催生一个量变到质变的过程。所以,根据刚才咱们的分析,生命科学的话会不会有一个点,在未来不远的时间导致生命科学相关的数据出现这种爆发,进而引爆生命科学?

  王俊:我自己个人觉得,虽然我做这个行业,但没有那么乐观。从90年代末人类基因组计划开始,做到今天2017年基因这件事,基因检测才真正成为一门生意。它才真正开始逐步推广开,而且只是在几个方向推广开。比如说医院里面做孕妇检测,才开始推广。肿瘤检测什么的都还没有。我自己希望五年之内有一两个应用能够走向老百姓,但这个过程一定不是眨眼睛就做成的事。它可能比任何我们现在知道的那些应用,比如下围棋、语音识别和图像识别都要复杂和长久的多,可能涉及到很多问题,比如隐私问题、伦理问题、监管问题各种各样的事情。你语音识别听错了一句话,没事,对吧?你现在做的是涉及生命健康的东西,人家没癌症,你说人家有,这是很大的事儿,对吧?所以它不是这么简单的。

  雷鸣:我觉得其实还好,因为我对医疗还了解一点儿。医疗的误诊率还是蛮高的。最好的医院一般也有20%。(笑)

  王俊:可以这么说,人犯错可以,机器犯错不行。无人驾驶汽车是个典型案例,人开车出车祸没事,如果一个无人驾驶汽车出了车祸,那是个大事。

  雷鸣:我们大体上有一个感觉,就是这一块还没有具体量化。比如说自动驾驶,如果是事故率和人一样高的话,是肯定不能上路的。但如果显著低于人,比如降低到人的10分之一,基本上这个时候大家就会慢慢的接受。

  王俊:在有一点上,生命科学跟自动驾驶有相像之处。自动驾驶本身有一个长尾效应,所谓长尾效应的意思就是,99%的情况都可以预测到,但是就是那1%,很麻烦,而且你也不知道什么时候出问题。在生命科学里面,有一个最出名的话,就是在生物学里面,唯一不例外的就是永远有例外。因为我们本身就是一个例外对吧?我们当年的时候,不是所有的猴子突然间站起来就变成人了,对吧?人本身就是试错产物,本身是一种例外,所以所有的生命科学里面几乎没有一样东西是没有例外的,因为进化的基础,生命演化的基础,就在于不断试错,不断的试错、容错、进化、演化的过程,所以他们一定有例外。所以你说做一个模型,怎么可能百分之百?

  雷鸣:因为我们都有经验,我有很多朋友,他们得了病之后,在北京各医院看病,发现医生的观点还不一样,所以最后很痛苦。再问一个问题,因为基因技术现在进展很快,我们可以去编辑甚至生成基因了。我们明确看到,第一是转基因食品这个事情,作为核心技术,能够让它有多高产、抗病毒,甚至能增加营养。关于这个问题,其实有比较对立的两派观点。一派是说我们不能吃转基因的,另一派是说,经过严格测试,还是可以吃一下的。你对这个事情怎么看?

  王俊: 转基因是一种基因技术,首先它是一个技术,就跟基因编辑,合成生物学是一样的。转基因是把一段外源基因转到这个物种里面去,基因编辑是把一个基因的一个东西改掉,合成生物学是重新合成一个东西,从本质上来讲都是基因技术。所以反对基因技术没有意义,事实上说到转基因的时候不是在说技术,说的是转的是一个什么东西。让你想象一下,如果说转基因水稻转的是另外一个水稻的基因,就不存在安全性问题。但是你想象一下,如果把一个SARS病毒的基因转到水稻里,那不管怎么说你可能都不会吃。再比如说那个时候的所谓转基因抗虫棉,是苏云金杆菌里面的一个毒蛋白转到了棉花里面,棉花有了这个蛋白之后它就抗虫,因为虫子吃这个蛋白就会死掉,它对虫子来讲是一个神经毒素。但接下来的问题是它对虫子有毒,那么对人有没有害?

  科学家验证一个东西对人是不是安全能做的事情只有几个:第一,做细胞学实验;第二,做老鼠实验,再不行做猴子实验,最不可能的是做人的实验。不好做也不能做,即使做了也没用。因为即便做人的实验,也是要看未来五十年转基因会不会导致癌症,甚至对下一代会不会有影响。所以就出现一个标准不统一的问题,在科学家评价一个东西是否安全以及老百姓认知之间有一个差,这个时候就需要政府出来指定一套标准。欧洲有些国家,比如俄罗斯,就选择全面不做转基因了,只要他们能自己解决粮食问题,但是美国就没办法不做,因为他们没有那么多人工,所以FDA 就出来一套规则,如同针对药品的标准。

  我自己个人认为有一件事情很重要,就是,这是每一个人自己的选择。比如说政府定了一个标准, 食品通过了标准在超市里面买,我觉得不应该是现在这样简单只标一个“非转基因食品”,而是让每个老百姓有知情权,可以有自己做决策的权利,可以选择相信科学家的方式,也可以选择相信政府的公信力。

  雷鸣:好的,下面是一个开放的提问环节。第一个问题,作为我们的天才男神,你是如何做出这么多有价值的论文,又同时不耽误其他的工作生活?

  王俊:不是,我刚才这不是想吹个牛,让大家破个冰,说完了以后大家都很开心。我跟雷老师差不多,我还比他大一届,但你们看我肯定比他显得年轻一点。

  雷鸣:因为你们是研究生命科学的,你刚才说什么晒伤的脸六天就恢复了。

  王俊:对,我就是想说这个问题,我们天天研究这个的,还不把自己搞好一点?跟雷老师不一样,天天对着计算机,每天很枯燥。

  雷鸣:我以后要向你学习。你还没回答问题。

  王俊:其实谁都年轻过,在年轻的时候都拼命过,等你岁数大了,很多事情就可以动用资源了。开玩笑归开玩笑。我认为生命科学这个领域是一个大科学,所谓大科学的意思就是,会有很多人一起在一个平台上面做很多事,所以它具备很多规模化特征,很多东西确实具备某种技术突破以后,研究对象不同所带来的福利。不仅仅是基因测序这个行当,很多行当都是一样的。你能看到有一个技术突破之后带来的结果,但这种东西它是一拨一拨的,做完这一拨,就得找新的技术方法手段,然后再把一个东西推到一个新的层次和高度上。最难的事实上是理论性的东西,比如说进化论只有一个。你会想到是否可能有一些这样的东西,而这个东西本身能够带来更深远的一些影响,就不仅仅是技术突破所带来的很多科学发现,很多时候如果能够有一些新的指导科学发展进程的一些理论,我个人对这个东西是最感兴趣的。就像那个时候我自己就在做肠道微生物和各种疾病的关系,我就会觉得那样的发现就很重要,就是你能够了解到肠道微生物和糖尿病有那么大的关系,以前不知道现在知道了,觉得挺好的。这就比你用同样的测序技术测完了鸡再测熊猫要更有意义。

  雷鸣:我最近也在想深度学习,这个技术突破之后在各种应用场景上确实也能发出一些不错的论文,但是这个技术本身的突破是更根本的。

  下面是有一个同学问的问题,您这边的研究方向是基因,包括这些东西影响人的数字化生活。现在还看到另外一个方向最近也挺火,如谷歌的智慧医疗,这两个方向将来会用一种什么样的方法交汇在一起?还是说他们两个会竞争地往前走?怎么去影响人类的生命和健康?

  王俊:这是在问我现在做的这个东西和IBM Watson 之间的区别?还是在问IBMWatson 和谷歌之间的区别?

  雷鸣:他们的思路就是经验主义的,基于大数据的,就像 IBM Watson ,并不是像你做的那样更深层次地理解未知的东西,而是把大量的经验集成起来,创造出一个更有经验的医生。跟你的路相比,在未来过程中会如何相互作用?

  王俊:雷老师已经讲解得很好。就是这个区别。如 IBM Watson 用到的数据一般来说是医院的大数据,就是医院里面的病历数据。一般来讲,从结果去manage 结果只会是诊断会做得更好一点,但是对于生命更本源的一些东西的理解,很多不是现在有的医疗大数据,更多的是从原因角度来做的。比如说糖尿病,在医院里面能拿到的更多的只是检测、用药、诊断这些数据,但是我们现在做的更多的是基因、肠道微生物、饮食,运动这些数据,这些数据能够更好地从源头管控糖尿病。最好是不要让人进医院,不要产生IBM Watson 模型用的数据。实在不行住院了,那也得从成因出发来寻找更好的解决方案。所以我认为它是更根本的一个东西,或者说它的解决和这个数据模型的搭建能够让人更好的去管理数字生命,而不仅仅是去诊断疾病,这是一个很关键的东西。

  雷鸣:我们再总结一下,现在所谓智能医疗,做得再好也就是把小医生变成老医生,这在基层医疗水平不高的国家是好事,但是再优秀的医生还是有解决不了的问题,王俊研究的是一些未知的领域。

  王俊:我自己觉得甚至包括疾病状态,包括我们自己做的系统都是西医,过于碎片化。中医有两个东西很值得做,第一是系统化,第二是个性化。从疾病诊断来讲,比如糖尿病,应该从个体的所有大数据基础上生成一个更好的的诊断标准,因为它是更系统化地去描述一个人的数字生命状态,这可能比一个单一的诊断指标去判断一个疾病要好很多,只不过以前没有这些数据。

  雷鸣:我完全认同这个事情。其实这跟工业革命之后分工不断细化有关系。过去中医基本一个人什么病都看,现在西医越来越专业化,就丧失了全科诊断的能力。学校也一样,过去还有所谓的大哲学家,如达芬奇、牛顿,现在很难看到跨领域的专家了。我们人类其实也是有极限的,我们一旦深入一个学科,很难成为多项专家。将来数字化之后,运算也有极限,包括智慧医疗往后走,会把多个分类科室重新再组合起来,如前一段通过眼睛底膜判断糖尿病有点类似跨科室的诊断。

  王俊:这种人类极限的说法我不是很认可的。因为现在的人工智能做的就是能让人类上另外一个极限,很多以前要花很多功夫去做的事,现在不应该花那么多功夫去做了,也没有必要花那么多功夫去做,很多时候你可以让它们帮你去做。所以我觉得这个会到另外一个阶段。但假设哪一天我们做出来的人工智能超越了人本身的智能,我自己认为人类应该非常骄傲,因为人类第一个主动创造出比自己智慧更高一级物种,这就是非常伟大的一件事。

  雷鸣:我觉得这个所谓的我们叫强人工智能之争在学术界是有些不同看法,大部分人还是认为反正在可见的短期内不大会发生了。再说一个问题,有一本书叫《未来简史》,提到人工智能和人机之间有某种配合,但恰巧的话今天有个事件又刷屏了,就是Elon Musk 又做了一件神奇的事情,把大脑和机械去做对接。纯粹从人的本体去讲,我们希望通过科学可以更健康,更长寿,更聪明。但更科幻感的问题,比如说人和机器的某种意义的一体化简直都进入到生物层面了,这方面你有什么想法和的观点?

  王俊:我们现在做的这个 Digital Me ,这套learning system ,就是想打穿硅碳两界。我们是碳基,对方是硅基。我们身体这个皮囊是一个精准计算的机器,只不过我们不这么想而已。我今天喝完这瓶水身体是什么反应是很精准的,不是一个随机过程。而随着越来越深入的了解,如纳米技术等各种各样的发展,这个皮囊是可以随时替换的,唯一没搞明白的就是这个意识的形成和它产生的基础能用一种什么样的方式去替代。这又涉及到很多我们这个领域经常讲的问题,如记忆能不能上传,意识能不能上传。

  我们未来不会研究这些事,我们研究的是皮囊的事,但是我们会开始涉及到很多认知疾病,如老年痴呆、帕金森,自闭症,这些是有很强的物质基础的。比如说自闭症,我们曾经做过一个研究,我们每一代生孩子,这个孩子跟我们有60到100个基因突变,我们以前认为这个基因突变是在基因组上随机分布的,但最后发现这些数据是有集团分布的趋势的。你去看这些集团分布的地方,都是大脑发育基因。再比如生孩子的年龄,父母的岁数越大,孩子得自闭症风险越高。但有时候自闭和聪明其实也说不太清楚,所以这些东西是有很多数据基础的。通过对这些东西的研究,很可能会构筑未来研究脑科学意识层面的更有意思的一些基础。我觉得未来20年还是个准备期,20年之后,在这个事情上,我认为会像今年开始我们讲digital life 一样,在20年以后的那个时候我们会讲digial mind ,计算机能不能像人一样思考?那个时候我觉得会有比较有突破性的进展。

  雷鸣:现在有大脑计划,中国政府也会花很多钱去尝试理解大脑,对大脑的理解也会加速。插播一个小事,多年前我对脑科学非常感兴趣,大家觉得脑科学归在哪个系?是在心理系。现在的心理系我感觉在从社会科学向自然科学转变,从归纳主义演变成为比较严格的科学管理。让我们用热烈的掌声感谢王俊老师。

  

  3月27日,新智元开源·生态AI技术峰会暨新智元2017创业大赛颁奖盛典隆重召开,包括“BAT”在内的中国主流 AI 公司、600多名行业精英齐聚,共同为2017中国人工智能的发展画上了浓墨重彩的一笔。

  点击阅读原文,查阅文字版大会实录

  访问以下链接,回顾大会盛况:

声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
推荐阅读