一起学下一代测序技术(NGS)数据分析之数据质控

医疗器械 来源:基因检测与解读
2015
12/07
12:35
基因检测与解读 医疗器械

拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。

首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分


结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。

1、Basic statistics


Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量

2、Per base sequence quality


quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。

若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。


3、Per Sequence Quality Scores


每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;

4、Per Base Sequence Content


对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。

当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。

5、Per Base GC Content


对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”

6、Per Sequence GC Content


统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”

7、Per Base N Content


当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。

8、Sequence Length Distribution


reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”

9、Duplicate Sequences


统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。

可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。

备注:本文参考静渊的学习日志

来源:基因检测与解读

为你推荐

泽安生物完成3800万美元融资,加速推进“髓系细胞衔接器”免疫治疗管线 资讯

泽安生物完成3800万美元融资,加速推进“髓系细胞衔接器”免疫治疗管线

本轮融资由高瓴创投(GL Ventures)领投,一家国际主权财富基金大额跟投,博裕创投、五源资本、蓝驰创投等多家现有股东亦追加投资

2026-05-07 11:07

拜耳asundexian(BAY 2433334片)用于降低缺血性卒中或短暂性脑缺血发作成人患者的卒中(复发)风险的注册申请获国家药品监督管理局药品审评中心受理资讯

拜耳asundexian(BAY 2433334片)用于降低缺血性卒中或短暂性脑缺血发作成人患者的卒中(复发)风险的注册申请获国家药品监督管理局药品审评中心受理

用于降低缺血性卒中或短暂性脑缺血发作(TIA)成人患者的 卒中(复发)风险,不包含心源性栓塞性卒中患者”的上市申请已获国家药品监督管理局药品审评中心受理。

2026-05-07 10:48

全球首个CDK2/4/6抑制剂获批第二个适应症资讯

全球首个CDK2/4/6抑制剂获批第二个适应症

5月6日,中国生物制药发布公告,下属企业正大天晴自主研发的库莫西利胶囊(商品名:赛坦欣)获得国家药品监督管理局批准,联合氟维司群用于激素受体(HR)阳性、人表皮生长因子...

2026-05-06 18:13

蚂蚁阿福启动“健康中国体检关怀行动”,为1亿人免费解读体检报告资讯

蚂蚁阿福启动“健康中国体检关怀行动”,为1亿人免费解读体检报告

春季是传统的体检季,可很多人拿到体检报告却犯了难。一项5000名网友参与的调研显示,80%的受访者表示体检报告没有得到详细讲解,也不知道检后该怎么做;75%的受访者没有按体检...

2026-05-06 17:13

第28个世界哮喘日:儿童哮喘早识别、规范治疗,守护患儿健康呼吸资讯

第28个世界哮喘日:儿童哮喘早识别、规范治疗,守护患儿健康呼吸

进入5月,气温波动、花粉增多、呼吸道病毒活跃,哮喘也随之进入急性发作的高峰期。今年5月5日,恰逢第28个“世界哮喘日”——以“确保每位

2026-05-05 20:33

康方生物授权的Summit美股大跌资讯

康方生物授权的Summit美股大跌

2025年4月30日,美股上市公司Summit Therapeutics对外公布截至 2026 年 3 月 31 日第一季度财务业绩及业务进展,其中最受关注的无疑是从康方生物(09926 HK)获得授权的...

2026-05-05 20:02

对比,生物医学新技术临床转化应用审批工作规范征求意见稿与正式稿有哪些不同?资讯

对比,生物医学新技术临床转化应用审批工作规范征求意见稿与正式稿有哪些不同?

4月30日,国家卫健委官网正式发布《生物医学新技术临床转化应用审批工作规范(试行)》,与4月19日发布的征求意见稿有哪些变化?

2026-05-05 10:58

生物医学新技术与药品、医疗器械的界定资讯

生物医学新技术与药品、医疗器械的界定

4月30日,国家卫健委官网发布《生物医学新技术与药品、医疗器械界定指导原则(暂行)》。对于生物医学新技术与药品、医疗器械的操作边界进行指导。

2026-05-05 10:51

又一家药企被取消国家药品集采中选资格资讯

又一家药企被取消国家药品集采中选资格

4月30日,国家组织药品联合采购办公室发布公告,取消哈尔滨力强药业有限责任公司洛索洛芬钠凝胶贴膏中选资格并将该企业列入违规名单。

2026-04-30 15:19

国家药监局原副局长陈时飞被判14年资讯

国家药监局原副局长陈时飞被判14年

4月29日,上海市第二中级人民法院一审公开宣判国家药品监督管理局原党组成员、副局长陈时飞受贿案,对被告人陈时飞以受贿罪判处有期徒刑14年,并处罚金人民币400万元;扣押在案...

2026-04-30 10:08

黄果任国家药品监督管理局局长资讯

黄果任国家药品监督管理局局长

任命黄果为国家药品监督管理局局长,免去李利的国家药品监督管理局局长职务。

2026-04-29 21:46

微滔生物完成超 5000 万美元 A 轮、A + 轮融资,专注体内 CAR-T 细胞疗法赛道资讯

微滔生物完成超 5000 万美元 A 轮、A + 轮融资,专注体内 CAR-T 细胞疗法赛道

本轮融资由正心谷资本与德诚资本分别领投,OrbiMed(奥博资本)、汉康资本、卫材创新风投基金、建发新兴投资等知名机构跟投,老股东启明创投、顺禧资本、杏泽资本持续加码

2026-04-29 13:21

“A to H 18A第一股”诞生!迈威生物正式登陆香港联交所主板资讯

“A to H 18A第一股”诞生!迈威生物正式登陆香港联交所主板

2026年4月28日,迈威(上海)生物科技股份有限公司(以下简称“迈威生物”,A股代码:688062 SH,港股代码:02493 HK)在香港联合交易所主板正式挂牌上市,成为首家“A to H”的18A上市公司。

2026-04-28 19:22

全面接轨国际,药物临床试验质量管理规范再升级资讯

全面接轨国际,药物临床试验质量管理规范再升级

根据国家药监局发布的2025年第125号公告,自2026年3月31日后实施的药物临床试验,均适用《E6(R3):药物临床试验质量管理规范技术指导原则》(下称 ICH E6(R3))。

2026-04-28 19:13

百济神州引入PD-1/CTLA-4/VEGF-A三抗资讯

百济神州引入PD-1/CTLA-4/VEGF-A三抗

4月28日,百济神州发布公告称,2026年4 月 24 日,百济神州有限公司的全资子公司广州百济神州生物制药有限公司与华辉安健(北京)生物科技有限公司签订了一份《独家选择权、...

2026-04-28 09:49

希润医疗完成数千万元融资,打造全链条脑机接口康复产品线资讯

希润医疗完成数千万元融资,打造全链条脑机接口康复产品线

由无锡梁溪科创产业基金独家投资。

2026-04-27 13:19

一家环保上市企业要10亿元收购一家CRO公司资讯

一家环保上市企业要10亿元收购一家CRO公司

4月26日晚间,创业板上市公司中赋科技发布公告,计划筹资收购军科正源(北京)药物研究有限责任公司。

2026-04-27 11:02

司美格鲁肽专利已经到期,为什么国内还没有产品获批上市资讯

司美格鲁肽专利已经到期,为什么国内还没有产品获批上市

2026年3月底,司美格鲁肽核心化合物专利在中国正式到期。

2026-04-26 18:56

药品附条件批准上市申请审评审批工作程序资讯

药品附条件批准上市申请审评审批工作程序

附条件批准时,每个附条件批准的适应症单独设置药品注册证书有效期,原则上,在确证性研究完成时限的基础上增加一年。确证性研究完成时限由药审中心在审评中与申请人沟通交流后...

2026-04-26 10:58