病毒基因组自动化鉴定平台(VIC)
中国科学院上海营养与健康研究所 生物医学大数据中心
中国科学院上海巴斯德研究所
20200217
VIC简介

病毒基因组自动化鉴定云平台(Virus Identification Cloud, VIC),直接对接人体样本的RNA二代测序原始数据,具有对数据全自动质量控制、拼接和病毒组成分析等功能,实现了快速检测样本中可能存在的包括新型冠状病毒在内的各种病毒,并在线分析其相对载量。

VIC由中国科学院上海巴斯德研究所大数据平台设计,由中国科学院上海营养与健康研究所生物医学大数据中心开发、运维并提供技术支撑,HPC版由中国科学院上海营养与健康研究所生物医学大数据中心提供算力支撑。

VIC平台作为计算平台,所有的数据权利属于数据提供方,平台不使用用户数据去发表任何科研论文。

VIC平台直接对接人体样本的RNA二代测序原始数据,具有对数据全自动质量控制、拼接和病毒组成分析等功能,实现了快速检测样本中可能存在的包括新型冠状病毒在内的各种病毒,并在线分析其相对载量。

VIC平台作为计算平台,所有的数据权利属于数据提供方,平台不使用用户数据去发表任何科研论文。

VIC HPC:基于高性能计算集群(HPC)提供服务,根据建库方案与测序深度不同,计算时间在30分钟到几小时不等。适用于小规模样本(30个样本以下)的计算,访问网址https://www.biosino.org/vic/,长期面向科研用户提供服务及合作。

VIC HUAWEI:基于华为云基因容器提供服务,适用于大规模样本的并行计算,访问网址https://hvic.biosino.org/。在疫情结束前,VIC面向全国科研用户免费开放。

VIC使用流程 (详细流程请查阅《病毒基因组自动化鉴定云平台用户手册(VIC HPC版)》):

1. 注册账号:VIC采用实名制,用户登录https://www.biosino.org/vic/点击此处 注册账号。

2. 用户登录:如果已经有账号,点击此处 登录。

3. 上传数据:由于人体样本的RNA二代测序原始数据较大,用户需要通过ftps://ftp.biosino.org:2121数据安全传输通道将测序原始数据传输独立的安全账户中,账号与密码与VIC的一致。建议使用FileZilla客户端。需要注意,VIC目前仅支持用户提交*.fq.gz格式的双端测序数据文件进行病毒鉴定。此外,建议用户上传文件时,附上md5文件,方便VIC进行数据完整性校验。

4. 数据关联:通过个人数据中心对上传的数据进行管理,把FTP目录的数据与VIC关联,选择配对双端测序文件进行后续分析。

5. 病毒鉴定:所有上传的原始测序数据在通过完整性校验后,会根据用户预设的参数,进入自动鉴定分析流程,并通过平台获取数据分析进度。计算完成后,VIC通过邮件通知用户及时查看结果(如果超过12小时未收到邮件,请登陆VIC实时查看进度)。自动化病毒鉴定分析流程包含:
A) 任务准备中:分析任务创建成功,分析数据整理结束并转移到计算节点;
B) 数据质控:使用fastqc、对原始测序数据执行质控,过滤;
C) 宿主序列过滤:使用Hisat2对测序数据进行参考基因组比对,过滤宿主/人源序列(GRCh38);
D) 病毒序列检测:使用FastViromeExplore软件,参考NCBI-viruses数据库检索病毒序列;
E) 病毒基因组拼接:根据测序数据和匹配的病毒序列组装出样品中的病毒基因组序列;
F) 生成用户报告:生成用户报告(PDF)及各结果文件;

6. 读取报告:VIC的结果包括PDF报告和分析结果数据,都可以通过VIC直接获取。

如对病毒基因组自动化鉴定平台的使用和流程有任何疑问,请发送邮件至ncov@picb.ac.cn 咨询。