第二百零八章 AI和计算生物学
目前只有华国的魔法师们对魔法的本质有些微了解。
他们在新一代科技革命中占据了先手。
这种先手虽然只是随时可以被突破的信息优势,但是有优势总比没有好。
“我们先形成工作汇报,报给上面决策,现在最重要的是要拖住郑理,让他别太早回去。”
“好,我去安排。”
华国官方对郑理做过多次心理侧写和人物画像,知道郑理看似无情实际上对朋友很够意思。
......
“郑董, 我们现在主要是将自然语言处理领域中的world lattice parising概念引入到创新药研发当中。”
“通过算法设计的蛋白小分子序列在稳定性、蛋白质表达水平和制作成本上要好于传统方法。”
“这个方法早在两年前,当时斯微生物和千度研究员就mrna疫苗开展了ai序列优化算法的合作。”
“程总是斯微生物的股东和外部董事,当时他负责牵线,把这一技术引入到狮城研究员,我们这两年下来将ai序列优化算法的应用领域拓展到了创新药研发上。”
“目前关于担保之序列设计的迭代技术还在开发中。”
郑理此时身在科创生物江城的研发中心,这里的研发主管正在向郑理汇报工作。
江城研发中心主要负责部分创新药的研发。
自从科创生物崛起后,江城大学的生物系高考分数线提高了至少二十分。
原本江城大学的生物学算是江大的王牌专业, 但是受限于出路不佳,所以分数线远不如经管院。
专业排名靠前不代表分数线高, 江大内部分数最高的专业是金融工程和数学,毕业之后可以拿金融学和数学的双学位。
科创生物在江城的研究中心,校招的主要对象就是江大和江城科技大学。
大量招收生物学毕业的硕士和博士,薪酬待遇比大米在江城的分部高了半个档次。
同时江城的研究中心还和江大的生物学院展开了很多项目合作。
江大内部私下讨论,都觉得郑理作为数学学院的毕业生,最大的蛋糕反而被生物学院吃完了。
“所以这是ai和计算生物学的应用对吧?”
对郑理的问题,江城的研发主管点头道:“是的。”
“我们目前主要做的是序列比对和蛋白质结构预测。”
“计算生物学不仅是这两个领域,还有基因识别、进化树构造等方向。”
“自从ai技术走进人们视野后,机器学习技术让计算生物学得到了极大的发展。”
“基因组学和成像技术的进步导致来自大量样本的分子和细胞分析数据的爆炸式增长。”
“生物数据维度和采集率的快速增长对传统分析策略提出了挑战。现代机器学习方法,如深度学习,承诺利用非常大的数据集来寻找其中的隐藏结构,并做出准确的预测。”
“比如我们有一个小组是专门做预测癌细胞在药物作用下的活力问题。”
“输入特征值将捕获细胞系的体细胞序列变体、药物的化学组成及其浓度汇总,它们将与测量的活力一起可用于训练支持向量机、随机森林分类器或相关的方法。”
“给定未来一个新的细胞系,学习函数通过计算函数来预测其可能的活力。”
“即便函数在我们看来更像是一個黑盒子, 它的内部工作原理、为什么特定的突变组合会影响细胞生长并不容易找到背后的具体原因。”
“两个回归和分类以通过这种方式查看。”
“作为对应物,无监督机器学习方法旨在从数据样本x本身中发现模式, 而不需要输出标签y。”
“类似的聚类、主成分分析和异常值检测等方法都更接近黑盒,我们目前主要应用于生物数据的无监督模型。”
郑理鼓掌道:“很好。”
其实计算生物学的进化路线, 和现代法师的研究有很多相似之处。
法师们通过生物云的高频计算能力,对基因、蛋白质等构成生命的基本要素进行定性定量分析。
法师们的优势不仅在碳基计算机的运算能力和上限比硅基更高,而且来源于他们可以直接通过意志干涉物质世界。
能有更多的特殊样本和针对性诱导样本进行研究。
郑理继续问道:“其实你们目前主要使用的还是神经网络对吧?”
“卷积神经网络、循环神经网络、自动编码机这些。”
研发主管深知郑理的科研能力和所涉及领域之广泛,因此对于郑理一语把他们的关键点透丝毫不意外:
“是的,主要还是神经网络在计算生物领域的应用。”
涉及到研发层面,郑理从来都是有话直说:
“深度学习在计算生物层面的应用很早之前就开始了。”
“bengio早在2012年就开始用神经网络研究基因组学和生物图像分析,将序列变异和分子特征联系到一起了。”
“也就是说我们使用的技术,如果是外行来听,会觉得很先进,深度学习、人工智能,但是实际上这已经是十年前别人就在玩的东西。”
“我们自己有什么突破?别告诉我只是把别人的方法拿来用。”
“如果只是做到这个程度”
郑理没说完,他转头看向李渺渺:“渺渺,江城研发中心每年投入的预算是多少?”
李渺渺不假思索道:“今年给他们编的预算是17.4亿元。”
郑理点头道:“好的,如果你们只是这个水平,那今年的预算把零头砍掉。”
李渺渺问道:“砍掉7.4亿元吗?”
“嗯。”
郑理说完直视坐他对面的研发主管。
每年各个研发中心的预算不仅是钱和资源,而且代表着你在公司内部的重要程度。
郑理砍预算,不代表会把他们今年的研发目标降低。
研发主管连忙道:“郑董, 我们有很多自主的研发。”
他知道自己拿出来的东西一定不能糊弄。
郑理太懂了,当你的上司对你的业务过于了解的时候, 上班摸鱼的难度被提升到了极点。
“我们优化了从dna序列对分子特征优化的神经网络算法。”
“郑董, 这是个体的 dna 序列和基因组的分子反应变量。”
“在传统的调控基因组学方法中主要需要考虑个体之间的差异,而我们优化之后的深度学习算法允许通过将基因组平铺到以个体特征为中心的序列 dna 窗口中。”
“然后利用个体内部的差异,从而从单个样本中产生大量的训练数据集。”
“这是用于从原始 dna 序列预测分子特征的一维卷积神经网络。”
“第一个卷积层的过滤器扫描输入序列中的图案。随后的池化减少了输入维度,并且额外的卷积层可以模拟前一层中dna序列的交互。”
“再看这里,c图由b图中所示的神经网络预测的野生型和突变序列的响应变量被用作另一个神经网络的输入,该网络预测变体分数并允许区分正常与有害变体。”
“d 再通过对齐最大程度地激活过滤器的基因序列并创建序列基序来可视化卷积过滤器。”
“这是序列窗口的突变图。行对应于四种可能的碱基对替换,列对应于序列位置。任何序列变化的预测影响都是用颜色编码的。”
“顶部的字母表示野生型序列,每个核苷酸的高度表示突变的最大影响......”
结束对狮城研发中心的调研后,李渺渺问道:“你觉得怎么样?”
“他说的那些,我完全听不懂啥意思。”
“江城研发中心这两年受到的内部资源支持力度是在加大的。”
“如果他们的表现无法让你满意的话,我们可以把一部分资源转移给其他表现更好的研发中心。”
目前科创生物在狮城、江城、姑苏、金陵、申海和伦敦。
其中伦敦和申海主要是做ai芯片和脑机连接芯片研发的。
生物医药领域的研发中心,只有狮城、江城和金陵。
外界对江城的很大一部分印象是这里的高校特别多,两所985,7所211,教育资源雄厚。
但是金陵的教育资源不亚于江城,同样两所985,但是金陵有8所211.
科创生物在金陵设置研发中心,不仅是金陵政府的希望,也是看重金陵优质的教育资源和人才。
郑理叹气:“勉强过关吧。”
“怎么说呢,如果是一年前江城研发中心刚成立半年的时候,把这个成果拿出来作为亮点工作给我看。”
“我会给他们打八分,但是现在已经过去一年半了,我只能给他们打六分。”
“做的东西只是在别人的基础上进行修改,我刚刚还没问他们真正的底层原理。”
“研究还只是停留在应用层。”
“我们跟辉瑞、拜耳这些医药巨头的差距还是太大。”
李渺渺心里则是在想,以郑理的标准来看,江城研究中心的成果在国内来说应该算是不错了。
只是郑理自己的研究一直是突破,所以他认为突破性成果是理所应当的。
但是实际上在生物医药领域,国外巨头们的技术壁垒哪有那么容易突破。
当然明面上李渺渺不会这么说,她低声道:
“这几年就当锻炼队伍培育人才了。”
“辉瑞、拜耳这些巨头们人才队伍的培养和研究团队历史太过于悠久。”
“尊重客观规律,并不是所有领域都能实现弯道超车的。”
“我们只要能实现稳步向前就可以了。”
在经管院上学,李渺渺听过很多悲观言论,认为华国在科技上永远无法实现突破和超越。
别说科技突破和超越,想在产业链上实现突围都难之有难。
学生时期李渺渺从周围听到的大多是悲观的声音。
跟郑理出来创业后,他们做的是世界范围内领先的技术,而且技术领先世界至少五年时间。
三年过去了,马斯克旗下的neuralink还没拿出课程生物当年的脑机连接手机技术来。
因为听过了不同的声音,所以李渺渺可以更加客观的做出判断。
华国科技实现突围是必然,只是道路是曲折的。