也许是 GPT 和 生物学的交融?
也许是 GPT 和 生物学的交融?
小树也许是 GPT 和 生物学的交融?
上周四高强度听了两场讲座/报告,下午先去听了来自智谱的讲座,大概是生成式AI的发展以及应用;晚上又去听了中科院动物所的老师的报告
其中有很多很有意思的东西,也算是长了一点见识
CS 与专业发展
首先需要指出的是,CS 在一定程度上以及严重影响到了本专业(指生科)的发展,在听中科院老师报告的过程中,我发现他们在研究的过程中使用了很多很新的 CS 技术和模型,包括一些算法,而这些算法对于生科本科的学生来说,几乎是无法在课堂上学到的
一些与算法相关的课程,比如说高等数学、线性代数、离散数学等等,生科的本科生是不学习的,甚至高数都只学最简单的高数B1
不仅仅是生科,一些依赖转型发展或者 CS 技术的交叉学科似乎都面临着这样的问题,大家都希望借助 CS 来帮助本专业的研究,这固然是一件好事,但是对于人才的培养这本身是矛盾的——一个好的生物学家很难又成为一个计算机科学家,很难创造出比较独立/个性化的算法,很多都是利用计算机科学家已经研究得非常透彻的算法,这样的话其实存在着知识的“滞后性”,没办法把世界上最先进的两种学科马上融合起来,去创造出更牛逼的东西
你不能既要还要
跨学科的合作或者发展固然是无比重要的,未来也需要更多的计算机科学家投身于生物科学的研究,生物学家也要利用好计算机这一工具,要努力提升自己的 CS 水平
生物学的产生本身就是基于其他基础学科的高度发展之上的,一个不了解“数学、物理、化学、计算机”的生物学家不是好的生物学家
BioGPT?
这个想法来自于中科院的某位老师(应该是?)当时听中科院动物所的老师讲座的时候,他说他们有一个同事提出利用和 GPT 类似的原理,去处理基因
当时听报告的时候我只是笑了一下,觉得这个想法脑洞还挺大,这几天想了想越来越觉得牛逼
核心思路
- 基因=词组,性状=句子
- 基因序列可以看作是一种“语言”,不同的基因(或基因组合)是词汇
- 性状(如身高、疾病、代谢特征等)则是由这些词汇构成的“句子”或“段落”
使用滑动窗口技术(开放阅读框)将基因组序列分割为固定长度的片段(类似于 NLP 中的 token 化)
对基因序列和性状进行标准化或编码,如使用生物学上已知的重要特征
应用
- 基因功能预测
- 训练成 GPT 这样的模型之后,可以用这个模型去预测已知序列,但是未知功能的片段,甚至是预测功能区
- 复杂性状建模
- 多基因的相互作用是很难研究的,或许可以利用模型进行预测,类似于 GPT 中的长难句子分析
- 性状设计基因
- 通过性状去设计基因
虽然刚开始这样想确实很热血,后来坐地铁路上我又想了想,至少有以下困难
- 数据标注
生物学数据太多了,如何才能获得/标注出能用于大模型训练的数据经过纠正,大模型的训练采用“自监督”的方法
- 基因表达
- 基因到性状的表达要先进行转录、翻译,之后形成多肽之后还要进行折叠等等过程,这个好像 Google 的 AlphaFold |Wikipedia 在做相关的工作,预测蛋白质结构
- 基因与性状之间的关系通常是非线性的且依赖环境,如何提高模型的预测准确性是一个难题
- 跨物种
- 还是和上面一样,在不同的物种之间能不能依旧很好的进行预测
- 预测结果的量化
- 在我把这个想法喂给 GPT4o 之后,他给我吐出一个用于预测基因致病性的 demo,这个 demo 最后的输出结果是一个 [0, 1] 的归一化结果,虽然现在的 GPT 依然喜欢胡说八道,但是如何对结果进行评价和量化依旧是一个很好的问题
总结
未来我也要成为这么厉害的人!