0°

首个千亿生物医药ChatGPT!清华AIR聂再清:行业未来的超级应用

  制药行业的“专家版ChatGPT”,终于来了!

  就在这两天,首个生物医药的千亿参数大模型产品ChatDD发布,不仅制药各阶段知识“样样通”,还能和药学专家进行对话,瞬间秒懂一些行业神秘“黑话”。

  这和AlphaFold2直接加个Chat功能还不太一样——

  现阶段大模型虽然能在药物发现上做得不错,但要么只涉及单个模态,要么不具备直接对话能力。

  ChatDD则兼具多模态和对话双重特点,顺便还能给医药界学生“解个惑”。

  做出这个产品背后的水木分子,是今年6月新成立的一家公司。清华大学智能产业研究院院长张亚勤院士指出:

  ChatDD通过人机协作对话方式有效地将专家知识与大模型知识相联结,开拓了继传统药物研发TMDD、CADD、AIDD之后的第四代药物研发新模式。

  所以,它究竟在什么功能上做到“划时代”?

  我们和清华AIR教授、水木分子首席科学家聂再清聊了聊,详细了解了ChatDD的来龙去脉。

  ChatDD是一个什么样的产品?

  先来看看ChatDD能做哪些事儿,具体又能用在哪里。

  它的外观和ChatGPT有点像,是一个网页版,同样能通过对话来实现各种功能。

  对话能力上,不仅英文总结不错,中文对话也来得,直接hold住“疾病画像”这样的专业黑(术)话(语):

  如果有看不懂的分子,可以直接一键上传相关文件,让它来负责解读这种分子的作用:

  试试更复杂一点的任务,例如计算亲和力问题,大模型竟然直接“推荐”了一个工具,并快速计算出结果:

  此外,也不用担心问答内容超出ChatDD训练数据截止日期,毕竟它还学会了自己联网、或是从数据库中查找答案。

  总结来看,ChatDD虽然用法上像ChatGPT,但在生物医药这块是“专业的”。

  无论是掌握的多模态(小分子+大分子+文本)医药专业知识量,还是对行业的理解程度、完成任务的能力,ChatDD都要比ChatGPT“更像个学医药的人”。

  与同行AI不同的是,ChatDD的“业务范围”,涵盖了制药的前、中、后期三个阶段。

  此前的医药行业AI,即使是大模型,往往也只能用于制药的部分阶段,例如前期的药物发现,或是中期的临床前研究。占研发成本大部头的后期临床试验,几乎无人问津。

  而ChatDD不仅能参与药物发现、立项、商业智能(BI,Business Inteligence)、临床试验各环节,还能帮助提升成功率。

  聂再清介绍表示,ChatDD用于后期临床试验设计,也是大伙儿最期待的功能。

  首先,药物在临床试验阶段的通过率,往往并不高。

  尤其二期到三期临床,通过率只有34%,三期到四期通过率也不高。但临床试验加上前中期的费用往往又极高,一旦不通过,就是几亿美元成本“打水漂”。

  其次,药物通过率不高的原因,(除非药物本身不行)很大程度上是因为没找到适合“对症下药”的患者。

  药厂通常会从临床信息数据库中,筛选适合用药的病人。

  假设这个药物对数据库中5%的患者有效,那么从这5%的患者中挑选进行临床试验,肯定比剩下95%的患者有效率高。

  在综合各方面信息做判断这件事上,ChatDD往往比人类更适合筛选出“对症下药”的患者。

  聂再清特意举了一个例子,来表明ChatDD的能力:

  注意这里未来会是“私有化部署的合作伙伴的单细胞RNA测序数据”,现在因为没有,所以我们用了水木分子收集到的公开数据计算出来的。

  这样的ChatDD,背后功能究竟是怎么实现的?

  医学院博士后负责数据构建

  ChatDD背后的底座,取名ChatDD-FM,参数量达到千亿级别。

  这次推出的ChatDD-FM-100B,是全球首个千亿参数多模态生物医药对话大模型,其在C- Eval评测中达到全部医学4项专业第一、也是唯一平均分超过90分的模型。

  联想到团队前不久发的BioMedGPT-10B,其自然语言模态的大模型同样基于LLaMA 2架构,这二者是否有什么联系?

  聂再清表示,ChatDD-FM和BioMedGPT,在受众和用途上都不太一样,“有点像ChatGPT和GPT-3.5的区别,前者在对话和意图对齐能力上有更大提升”。

  BioMedGPT主要用于科研领域,更擅长英文生物医药科研任务,适合直接拿来作为生物医药领域的相关科研任务的基础模型。

  ChatDD-FM主要给国内医药行业“打辅助”,侧重中文对话能力,融入了更多专家的对话模式和经验。

  技术上,ChatDD-FM相比BioMedGPT,主要增强了三大方面,模态、训练数据和参数量级——

  模态上,增加了蛋白质结构数据;训练上,增加了用于中文、专家对话和调用工具能力的数据;参数量级上,从百亿增加到千亿。

  让ChatDD-FM提升“专业度”、说话像“行内人”的秘诀,依旧在于高质量数据上。

  这些数据主要分为两部分。

  第一部分,是预训练用的医药知识数据,主要目的是让ChatDD-FM提升专业素养,几个月内掌握行业知识。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论