公司新闻

基因组学工作流,第 7 部分:使用 AWS HealthOmics 分析公共 RNA 测序数据 架构

2026-01-27 13:43:57



使用AWS分析公共RNA测序数据的基因组学工作流

关键要点

在这篇文章中,我们将探讨如何利用Amazon Web ServicesAWS平台来处理公共RNA测序数据。通过AWS HealthOmics和Step Functions,生命科学组织能够简化并自动化转录组测序数据的分析流程,从而加速临床诊断的研究假设验证。

Genomics工作流程处理大规模数据集。本博文讨论生命科学机构如何使用AWS来运行转录组测序数据分析,通过公共数据集快速验证研究假设以支持临床诊断。我们采用AWS HealthOmics和AWS Step Functions来安排准备和分析序列数据的整个生命周期,并简化流程中的繁重工作。

使用案例

在基因组学中,转录 是指从基因的去氧核糖核酸DNA制作核糖核酸RNA副本的过程。通常情况下,RNA是单链的,尽管一些RNA病毒是双链的。通过RNA测序RNASeq,科学家们提取RNA,准备RNA文库,并使用下一代测序技术进行解码。全球的组织都在使用RNASeq来支持临床诊断。

在我们的用例中,生命科学研究团队使用用Nextflow编写的工作流程处理以FASTQ文件格式存储的RNASeq数据集。在对内部数据集进行初步RNASeq研究后,科学家们可以通过使用公共数据集来扩展他们的见解。例如,基因表达数据库GEO是由国家生物技术信息中心NCBI主办的功能基因组学数据存储库,提供多种下载选项和格式。科学家们可以通过GEO文件传输协议FTP下载FASTQ格式的数据集,并在进一步分析之前将其压缩为gz格式。

数据摄取的扩展和自动化可能会面临挑战。例如,科学家可能需要执行以下操作:

手动下载FASTQ文件并启动分析管道监控工作流程的运行,这可能持续数小时、数天或数周管理性能和规模所需的基础设施

本博文提供了一种解决方案,以消除这些繁重的工作。

先决条件

要构建此解决方案,您必须使用Nextflow工作流程系统分析转录组测序数据,并利用GEO FASTQ数据集。此外,您需要执行以下步骤:

创建三个Amazon Simple Storage ServiceAmazon S3桶,其用途如下:上传的GEO存取IDGEO ID存储的FASTQ数据集RNASeq输出文件创建一个Amazon DynamoDB表来跟踪数据摄取的状态。这有助于检查点并避免重复的摄取作业,从而将数据摄取成本降至最低。

解决方案概述

使用AWS,您可以自动化整个RNASeq Nextflow管道。用户只需提供GEO ID,管道便可摄取相应的FASTQ样本文件并进行后续数据分析。

我们的解决方案如图1所示,结合了AWS HealthOmics和AWS Step Functions。HealthOmics管理处理大规模RNASeq数据集所需的计算、可扩展性、调度和编排。这使科学家们能够专注于在Nextflow中编写管道,而AWS负责底层基础设施。Step Functions为工作流程提供了可靠性,从数据集摄取到输出归档。自动化整个工作流程还有助于追踪特定调用和排查错误。

我们的解决方案包括以下步骤:

科学家首先创建并将CSV文件上传到GEO元数据S3桶。CSV文件包括要摄取的特定GEO ID的引用。根据Amazon S3事件通知的配置,在s3ObjectCreated事件在此情况下为CSV文件上传时,调用Amazon Lambda函数。Lambda函数首先提取GEO ID对应的序列读取运行SRRID。接下来,它启动一个Step Functions状态机,并传入以下参数:SRR ID、样本物种和GEO ID。该状态机使用AWS Batch作业队列进行并行摄取。Lambda函数将以下元数据写入DynamoDB表以备将来参考:摄取的GEO ID及其对应的SRR ID列表存储于Amazon S3中的已摄取FASTQ文件的输出路径整体工作流程状态摄取的物种摄取完成后,状态机将RNASeq样本表放入FASTQ S3桶。这会触发一个Lambda函数,启动RNASeq分析工作流,并传入以下参数:样本表GEO ID其他相关元数据我们通过HealthOmics运行RNASeq数据分析,并及相关的序列库。我们利用Step Functions来启动此工作流程并将相关文件导入序列库中。工作流程完成后,HealthOmics将输出数据BAM文件写入输出S3桶。

实施注意事项

数据集准备

Step Functions状态机通过以下步骤协调FASTQ文件的摄取:

基因组学工作流,第 7 部分:使用 AWS HealthOmics 分析公共 RNA 测序数据 架构状态机调用Step Functions中的Map状态,利用动态并行性以提高扩展性,输入为SRR ID数组。现在,您可以并行启动多个AWS Batch作业以摄取与SRR ID输入相对应的FASTQ文件。状态机检查我们的摄取DynamoDB表,查看相应的SRR ID是否已被处理,并已摄取相应的FASTQ文件。如果SRR ID已摄取文件,状态机将样本表写入FASTQ S3桶并成功终止。状态机使用NCBI提供的sratools Docker容器和fasterqdump命令来摄取FASTQ文件。状态机生成摄取命令集,并启动AWS Batch作业。这些摄取命令是一组与NCBI交互的Shell命令,用于下载FASTQ文件。这些命令使用被压缩的pigz,然后将其上传到S3桶。状态机更新DynamoDB表上的摄取状态。如果摄取成功,状态机继续到步骤5。如果摄取不成功,状态机将向Amazon Simple Notification ServiceAmazon SNS写入通知消息,以告知科学家失败情况。Lambda函数生成带有分析所需样本的RNASeq样本表。该样本表是一个CSV文件,包含:已摄取FASTQ文件的路径。每个对应SRR ID的名称,作为RNASeq工作流程的输入。状态机通过向Amazon SNS主题发布消息通知摄取作业完成,然后自我终止。

图2详细概述了状态机的工作。

数据集分析

Lambda函数将RNASeq样本表分割,以符合Step Functions服务配额。这使得可以使用Map状态进行并行处理。

我们的转录组分析工作流执行以下操作:

检查样本是单端每个样本一个FASTQ文件还是配对端每个样本两个FASTQ文件。将适当的FASTQ文件集导入到HealthOmics序列库中。监控状态,直到所有文件都被导入。

与此同时,Lambda函数启动HealthOmics RNASeq工作流。

成功完成后,HealthOmics将输出数据存储在Amazon S3中。最后,我们的状态机将输出BAM文件导入到HealthOmics序列库以供将来使用。

图3提供了我们状态机的详细概述。

小黄鸭加速器免费3小时入口

清理可选

删除您不再希望维护的所有AWS资源。

结论

HealthOmics消除了获得基因组学、转录组学和其他组学数据见解相关的繁重工作。我们利用RNASeq分析展示了一个可以从HealthOmics中受益的科学工作流示例。使用HealthOmics结合Step Functions时,科学家们可以从数据集准备开始,自动化整个工作流程直到归档。要了解更多信息,请访问我们的HealthOmics教程。

相关信息

基因组学工作流,第1部分:自动启动基因组学工作流,第2部分:简化Snakemake启动基因组学工作流,第3部分:自动化工作流管理器基因组学工作流,第4部分:处理归档数据基因组学工作流,第5部分:自动化基准测试基因组学工作流,第6部分:成本预测