来源: 发布时间:2020-6-5 14:59:46
中国工程院院士李国杰
生物医学大数据时代呼唤计算机结构师

   生物医学数据已经从PB 量级的基因组测序时代进入到多组学融合的EB 量级大数据时代。但是,由于生物医学数据种类繁多、数据分散、内部结构高维复杂,大数据分析比其他领域更困难。目前生物医学领域虽然数据量增长迅速,但成效并不十分明显。大数据与人工智能是一个硬币的两面,只有充分发挥机器学习技术的巨大潜力,才能从EB 级的数据中获得有价值的知识。生物医学领域如果仍停留在采用字符串比对、搜索等传统的计算机技术,就难以挖掘生物医学大数据的潜在高价值。但要让机器学习在生物医学领域发挥更大的作用,需要在基础研究方面下更大的功夫。

  为机器学习奠定理论基础的是图灵奖得主Valiant,他提出的可能近似正确学习模型(PAC) 指出,机器学习只能在一定的误差范围内以某种概率保证学习结果正确。因此,不同的领域机器学习的成效取决于该领域对学习误差和泛化成功率的容忍度。

  众所周知,医疗领域与人的生命攸关,对医疗判断失误的容忍度很低,这就需要更高超的机器学习技术。有人戏谑目前信息领域的形势是,软件在吞噬世界,人工智能在吞噬软件,深度学习在吞噬人工智能,GPU在吞噬深度学习。研究制造更高性能的GPU 或类似的硬件加速器似乎成了对付大数据的主要出路。但是如果不清楚该在什么地方加速,只盲目依靠硬件的蛮力是不明智的。

  在30年前上一波人工智能的高潮中,我和华云生教授在一篇综述文章“A Survey on the Design of Multiprocessing Systems for Artificial Intelligence Applications”中指出:“设计智能系统的关键在于对要求解的问题的理解,而不是高效的软件和硬件。利用基于常识、高层的元知识、更好的知识表示获得的启发式信息比改善计算机结构可以获得更大的性能提高。是否用硬件实现一个给定的算法取决于问题的复杂性和该问题出现的频率。计算机结构师的角色是选择好的知识表示、识别开销密集型任务、学习元知识、确定基本操作,用软硬件支持这些任务”,这些观点可能现在还没有过时。■

 

《科学新闻》 (科学新闻2019年12月刊 封面)
发E-mail给:      
| 打印 | 评论 |