也许是 GPT 和 生物学的交融?

也许是 GPT 和 生物学的交融?

上周四高强度听了两场讲座/报告,下午先去听了来自智谱的讲座,大概是生成式AI的发展以及应用;晚上又去听了中科院动物所的老师的报告

其中有很多很有意思的东西,也算是长了一点见识

CS 与专业发展

首先需要指出的是,CS 在一定程度上以及严重影响到了本专业(指生科)的发展,在听中科院老师报告的过程中,我发现他们在研究的过程中使用了很多很新的 CS 技术和模型,包括一些算法,而这些算法对于生科本科的学生来说,几乎是无法在课堂上学到的

一些与算法相关的课程,比如说高等数学、线性代数、离散数学等等,生科的本科生是不学习的,甚至高数都只学最简单的高数B1

不仅仅是生科,一些依赖转型发展或者 CS 技术的交叉学科似乎都面临着这样的问题,大家都希望借助 CS 来帮助本专业的研究,这固然是一件好事,但是对于人才的培养这本身是矛盾的——一个好的生物学家很难又成为一个计算机科学家,很难创造出比较独立/个性化的算法,很多都是利用计算机科学家已经研究得非常透彻的算法,这样的话其实存在着知识的“滞后性”,没办法把世界上最先进的两种学科马上融合起来,去创造出更牛逼的东西

你不能既要还要

跨学科的合作或者发展固然是无比重要的,未来也需要更多的计算机科学家投身于生物科学的研究,生物学家也要利用好计算机这一工具,要努力提升自己的 CS 水平

生物学的产生本身就是基于其他基础学科的高度发展之上的,一个不了解“数学、物理、化学、计算机”的生物学家不是好的生物学家

BioGPT?

这个想法来自于中科院的某位老师(应该是?)当时听中科院动物所的老师讲座的时候,他说他们有一个同事提出利用和 GPT 类似的原理,去处理基因

当时听报告的时候我只是笑了一下,觉得这个想法脑洞还挺大,这几天想了想越来越觉得牛逼

核心思路

  1. 基因=词组,性状=句子
  • 基因序列可以看作是一种“语言”,不同的基因(或基因组合)是词汇
  • 性状(如身高、疾病、代谢特征等)则是由这些词汇构成的“句子”或“段落”
  1. 使用滑动窗口技术(开放阅读框)将基因组序列分割为固定长度的片段(类似于 NLP 中的 token 化)

  2. 对基因序列和性状进行标准化或编码,如使用生物学上已知的重要特征

应用

  1. 基因功能预测
  • 训练成 GPT 这样的模型之后,可以用这个模型去预测已知序列,但是未知功能的片段,甚至是预测功能区
  1. 复杂性状建模
  • 多基因的相互作用是很难研究的,或许可以利用模型进行预测,类似于 GPT 中的长难句子分析
  1. 性状设计基因
  • 通过性状去设计基因

虽然刚开始这样想确实很热血,后来坐地铁路上我又想了想,至少有以下困难

  1. 数据标注
  • 生物学数据太多了,如何才能获得/标注出能用于大模型训练的数据 经过纠正,大模型的训练采用“自监督”的方法
  1. 基因表达
  • 基因到性状的表达要先进行转录、翻译,之后形成多肽之后还要进行折叠等等过程,这个好像 Google 的 AlphaFold |Wikipedia 在做相关的工作,预测蛋白质结构
  • 基因与性状之间的关系通常是非线性的且依赖环境,如何提高模型的预测准确性是一个难题
  1. 跨物种
  • 还是和上面一样,在不同的物种之间能不能依旧很好的进行预测
  1. 预测结果的量化
  • 在我把这个想法喂给 GPT4o 之后,他给我吐出一个用于预测基因致病性的 demo,这个 demo 最后的输出结果是一个 [0, 1] 的归一化结果,虽然现在的 GPT 依然喜欢胡说八道,但是如何对结果进行评价和量化依旧是一个很好的问题

总结

未来我也要成为这么厉害的人!