巨奢网 首页 名表图片鉴赏 积家 查看内容

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...

2023-4-1 11:47| 发布者: fuwanbiao| 查看: 89| 评论: 0

摘要: 近年来,随着高通量测序技术的快速延展,空间组学技术的关注度越来越高。截止目前,空间组学范畴曾经降生不少重要研讨成果:其中包含美国国度卫生院发布的大脑细胞普查网络计划(Brain Initiative Cell Census Netwo ...

近年来,随着高通量测序技术的快速延展,空间组学技术的关注度越来越高。


截止目前,空间组学范畴曾经降生不少重要研讨成果:


其中包含美国国度卫生院发布的大脑细胞普查网络计划(Brain Initiative Cell Census Network,BICCN), 项目目的旨在解析人、猴和小鼠大脑的单细胞时空动态图谱;


美国国度癌症研讨所则主导了人类肿瘤图谱网络计划(The Human Tumor Atlas Network,HTAN),目的是为多种癌症各个时期的转变过程树立时空动态图谱。


一些中国高校和企业的研讨团队,也曾经走在空间组学科研范畴的世界前沿,代表成果有国内学界绘制的首个肝癌空间图谱、以及国内业界研发的 Stereo-seq 系列技术。


与传统基因组学和转录组学研讨相比,空间组学研讨能够提供组织和细胞之间的空间关系信息,辅佐人们深化了解生物体内复杂的细胞相互作用、信号通路、以及调控机制等生物学问题。


但是,空间组学数据处置和剖析的应战也随之而来。由于数据维度高、噪声多、复杂度大,传统的数据处置和剖析措施也变得不再适用。


此外,当下至少存在数十种不同空间组学技术,依照所测的分子类别可大致划分为转录组、蛋白组、代谢组、基因组等。不同的空间组学技术也存在数据结构和数据类型上的差别,这增加了数据整合和交叉剖析的难度。


关于这些快速产生的可贵数据,科研人员面临的最直接的问题就是数据的预处置,即从原始数据处置为规范格式例如 Anndata 等。


这里的主要艰难在于,不同数据类型和数据源所提供的原始数据格式并不相同,因而需求十分定制化的编程技巧。而关于特大范围数据例如 MERFISH 和 Stereo-seq 来说,更是需求大量的计算资源和时间耗费。


另一个问题在于,即便耗时耗力将某一批数据处置终了,但在经过剖析看到数据全貌之后,研讨者常常会发现这个数据并非真正所需,从而招致做了无用功。

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...


开发 SODB 数据库,数据量掩盖 5000 多万个细胞,让科研人员告别重复“造轮子”


为应对这些应战,复旦大学类脑人工智能科学与技术研讨院青年副研讨员原致远,和他博士期间导师——美国德州大学达拉斯分校张奇伟教授、以及腾讯 AI Lab 首席科学家姚建华博士,开发出一种名为 SODB(Spatial Omics DataBase)的数据库,其目前数据量掩盖 5000 多万个细胞,来自 26 种不同的技术,并且这些数据均被统一地处置成规范格式,能让研讨人员告别重复劳动的局面。

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...图 | 原致远(来源:原致远)


更重要的是,经过阅读 SODB 数据库,以及借助本次研讨里的 SOView 交互式算法,能够直接“看到”空间组学数据背地的组织全貌,这样一来很容易就能判别所阅读的数据能否契合研讨需求。

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...

(来源:Nature Methods)


打个不太恰当的比方,关于数据运用者来说,以前空间组数据像被封在集装箱中的货物,从外面看不出里面是什么货物,选择自己所需的“商品”也十分省事,需求经过专业处置步骤查看集装箱里的“商品”。逛 SODB 就像“逛超市”。美不胜收的数据就是“商品”,它们被一个个地放在“货架”上。仰仗 SOView 交互式算法,用户能够看到每一个“商品”的全貌。假如满足需求,即可直接“一键置办”(下载)。而当运用本次提出的数据读取措施 pysodb 时,只需一行 Python 代码即可获取高质量数据。


概括来说,该成果的最大意义便是给空间组学范畴搭建了“基础设备”,它能提供快速的数据读取和数据复用才干,满足计算生物学家在开发算法时的 benchmark 需求。


这不只能极大地俭省科研人员的可贵时间,还可避开以往研讨中的 dirty work。细致来讲,采用传统方式处置一个规范的 slide-seq 数据时,从原始数据处置到规范格式,至少需求 19 分钟的时间、以及 22GB 的峰值内存。而运用 SODB 提供的 pysodb 读取方式,仅需 7 秒的处置时间和 0.04GB 的峰值内存。


作为一个数据库,SODB 的最大意义在于能够加速空间组学范畴的延展,能够辅佐生物学家们更好地考证新的生物猜测,助力发现新的病理现象,降低因技术特性带来的成见和错误性发现。


同时,SODB 还能将不同的空间数据汇合在一同,运用时能够按需进行快速搜索、定位和下载多模态数据,以便充沛应用已发布的数据,避免在实验上重复“造轮子”。


关于生物信息学家而言,SODB 支持多种计算措施的基准数据需求,让他们能够专注于计算模型,免去数据处置之忧。


举例来说,假如研讨者只想进行简单的数据加载,那么他不只无需提供额外的数据处置代码或将数据上传到 Figshare 等存储库中,也无需进一步研发计算措施,只需运用 pysodb 这款数据读取措施即可。


面对来自不同批次、空间技术和分子剖析的异质数据,要想把它们整合起来依旧存在一定应战。但是,之前在单细胞范畴的研讨曾经表明,跨批次和技术整合数据具备一定可能性,并能带来更多的益处。


最近,还有研讨表明将不同空间组学数据进行集成和剖析,也具有较大的可行性。而这正是 SODB 能够提供的功用。


另据悉,SODB 还将促进数据的可用性,刺激空间数据整合的计算措施的延展,助力于树立具有通用坐标框架的大范围空间图谱。


当下,新兴技术在给人类带来方便性的同时,也增加了数据的复杂性。全球学界和业界都将面临越来越多的新应战,而 SODB 能够存储、查看和剖析这些数据。


同时,本次研讨也有望为药物研发提供新思绪。此前,空间组学技术曾经被普遍用于药物研发,并在药物靶点辨认、药物剂量肯定和药效评价等方面展示出较大的潜力。


作为一种新工具,SODB 能够辅佐研讨人员深化剖析细胞类型和空间关系,借此发掘潜在的药物靶点和机制,加速药物研发的进程。


并且,SODB 还能辅佐医生深化发掘患者体内的细胞类型和空间关系,借此发现潜在的诊断标记物和治疗靶点,以便更精确地判定癌症类型和分级,从而为临床医学提供更精准的诊疗。

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...

(来源:Nature Methods)

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...


经过共享数据库,让更多人能够复用


担任相关论文第一作者兼通讯作者的原致远表示,本次课题要追溯到 5 年前。那时,他正在张奇伟教授的指导下开发一个名为 SEAM(spatial single nuclear metabolomics)的空间代谢组学剖析措施,借此机遇接触到了空间组学[1]。


在研讨相关数据的过程中,他发现总得把它们挨个处置成 Anndata 格式,只需这样才干得知每个数据的组织形态、所包含的细胞类型、细胞的散布方式等。


当手里的数据越积越多,他觉得很有必要经过开发一款在线数据库,来把这些数据共享进来,让有需求的人能够复用。“于是在和导师张奇伟教授商榷课题设计后,我跟腾讯 AI Lab 的姚建华教员和清华大学潘文韬师弟一同着手开发,并完成了数据准备工作。”原致远说。

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...图 | 姚建华(来源:资料图)


数据库的初版 demo 由原致远、潘文韬和赵轩(此次论文共同作者)完成,随后部署在腾讯提供的云效劳器中。


几轮用户反响过后,数据库也历经了多次迭代。于是他们开端撰写论文并投稿,在此过程中他们积极从同行研讨者那里得到不少倡议,例如细胞类型标注、组织辨认、基因比较等。课题组不只依照这些修正倡议逐一优化,以至还新增了可视化模块等额外功用。这些弥补性开发阅历了数月左右。


接着,他们继续修正论文。原致远说:“论文撰写是一个很痛苦的过程。好在在导师张奇伟教授和姚建华博士的辅佐下,我们重复修正,迭代出七八个论文版本,力图以最精确客观、浅显易懂中央式让大家了解我们的工作。”

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...

图 | 张奇伟(来源:张奇伟个人主页)


在完成项目树立和论文修缮之后,他们打算投稿给 Nature Methods,没想到期刊编辑在收到投稿邮件后一天之内就回邮件说论文行将进入同行评审环节。


“这让我们感到十分诧异,由于通常的投稿经验得至少一周才干收到能否送审的回复。审稿过程也十分顺利,不到一个月就收到了一切审稿意见,基本都是树立性的意见,例如增加配套的 Python 剖析工具。这让我们觉得前期的扎实工作十分值得,得到了专业编辑和同行专家的认可。”原致远说。


关于审稿人倡议增加的 Python 剖析功用,课题组十分认可其“妙处”——不只适用于没有开发基础的生物学家,也满足了有编程基础的研发者的需求,扩展了适用人群,关于增加工作影响力大有裨益。后来才知道,这位审稿人是终间组学范畴的一位奠基人,十分感激这个倡议让 SODB 减色不少。


日前,相关论文以《SODB 促进空间组学数据的全面探求》(SODB facilitates comprehensive exploration of spatial omics data)为题发在 Nature Methods 上,原致远是第一作者兼共同通讯,姚建华博士、张奇伟教授担任共同通讯作者 [2]。

科学家打造空间组学数据库,让生物信息研讨者告别重复“造 ...

图 | 相关论文(来源:Nature Methods)


原致远表示,研讨中还有不少令人兴奋的时辰。他说:“之前我们开发了一个空间组学可视化的算法 SIMS-View[1],但是只能产生静态图片。我将这个需求跟潘文韬师弟讨论后,他很快地把这个功用整合到 SODB 里,让用户能够在组织空间图谱上进行交互式探求,后来我们把它称为 SOView。”


由于 SOView 能融合丰厚的基因表白信息,并能展示在组织空间中,所以它能发现一些运用传统形态学染色措施无法发现的空间域。


研讨中,课题组在一个大脑数据中发现了一块很小的区域,这块区域无法被其他剖析措施侦测到。而其背地存在的基因表白指纹,也被 SOView 所提供的交互式工具检测了出来。


后续,他们将继续优化 SODB 的工具性能。目前,SODB 曾经能够有效处置和剖析大范围的空间组学数据,但依旧存在一些性能上的瓶颈问题,因而其将进一步进步 SODB 的数据处置和剖析才干。


同时,也将对数据质量加以控制。空间组学数据的质量会给剖析结果带来很大影响,所以他们计划开发一套数据质量控制的工具,以用于辨认和过滤低质量的数据,从而进步剖析结果的精确性和牢靠性。


此外,课题组也将展开应用推行和示范,即在更多的空间组学数据集上测试和考证 SODB,以证明它在实践应用中的有效性和适用性,进而展开应用示范,向目的用户引见 SODB 的功用和应用场景,以促进其在范畴内的普遍应用。


最后,该团队针对空间组学数据还开发了通用剖析框架 SOTIP(Spatial Omics mulTIPle-task analysis)[3],发现了三阴性乳腺癌亚型的空间指纹,能够预测病人预后。该团队还将展开细胞类型的辨认预测和功用预测。


鉴于空间组学数据中包含不同类型的细胞结构和组织结构,因而他们将进一步开发细胞类型辨认和功用预测的算法,以提示不同细胞类型的生物学功用和相互作用,从而更好天文解和阐释特定数据里的生物学信息。


参考资料:


1.Yuan, Z., Zhou, Q., Cai, L. et al. SEAM is a spatial single nuclear metabolomics method for dissecting tissue microenvironment. Nat Methods 18, 1223–1232 (2021).


2.Yuan, Z., Pan, W., Zhao, X. et al. SODB facilitates comprehensive exploration of spatial omics data. Nat Methods 20, 387–399 (2023). https://doi.org/10.1038/s41592-023-01773-7


3.Yuan, Z., Li, Y., Shi, M. et al. SOTIP is a versatile method for microenvironment modeling with spatial omics data. Nat Commun 13, 7330 (2022).



路过

雷人

握手

鲜花

鸡蛋
已有 0 人参与

会员评论

 名表回收网手机版

官网微博:名表回收网服务平台

今日头条二维码 1 微信公众号二维码 1 抖音小程序二维码 1
浙江速典奢贸易有限公司 网站经营许可证 备案号:浙ICP备19051835号2012-2022
名表回收网主要专注于手表回收,二手名表回收/销售业务,可免费鉴定(手表真假),评估手表回收价格,正规手表回收公司,浙江实体店,支持全国范围上门回收手表
返回顶部