一起学下一代测序技术(NGS)数据分析之数据质控

医疗器械 来源:基因检测与解读
2015
12/07
12:35
基因检测与解读 医疗器械

拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。

首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分


结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。

1、Basic statistics


Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量

2、Per base sequence quality


quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。

若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。


3、Per Sequence Quality Scores


每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;

4、Per Base Sequence Content


对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。

当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。

5、Per Base GC Content


对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”

6、Per Sequence GC Content


统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”

7、Per Base N Content


当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。

8、Sequence Length Distribution


reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”

9、Duplicate Sequences


统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。

可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。

备注:本文参考静渊的学习日志

来源:基因检测与解读

为你推荐

创见数智骨科新升态,美敦力Mazor X™鹰领脊柱外科机器人一体化平台在中国上市资讯

创见数智骨科新升态,美敦力Mazor X™鹰领脊柱外科机器人一体化平台在中国上市

世界脊柱健康日前夕,美敦力官宣旗下全维升级的Mazor X™鹰领脊柱外科机器人一体化平台在中国成功上市,并重磅展示了其整合前沿的数智一体化平台、多款先进智能设备和内植入物...

2024-05-18 19:32

颂狄多(氘可来昔替尼)最新4年研究数据发布证实其在中重度斑块状银屑病治疗中应答持久、安全性稳定资讯

颂狄多(氘可来昔替尼)最新4年研究数据发布证实其在中重度斑块状银屑病治疗中应答持久、安全性稳定

POETYK PSO 长期扩展试验显示,持续接受颂狄多治疗4年后,超七成患者PASI 75(银屑病面积和严重程度指数改善至少75%)持续应答

2024-05-17 14:40

知名IVD上市企业,一口气告了9家公司资讯

知名IVD上市企业,一口气告了9家公司

近日,企查查信息显示,IVD上市企业江苏硕世生物与9家公司因买卖合同纠纷,对簿公堂。同时告9家公司企查查信息显示,这9家公司分别为:广西

2024-05-17 14:00

总价约60亿美元,恒瑞医药GLP-1产品组合授权出海资讯

总价约60亿美元,恒瑞医药GLP-1产品组合授权出海

5月16日晚,恒瑞医药发布公告称,将公司具有自主知识产权的GLP-1类创新药HRS-7535、HRS9531、HRS-4729在除大中华区以外的全球范围内开发、

2024-05-17 10:13

金斯瑞生物科技强化董事会结构,引入多元化专业人才担任独立非执行董事资讯

金斯瑞生物科技强化董事会结构,引入多元化专业人才担任独立非执行董事

资深会计及审计专家张耀樑与行业专家施晨阳博士已加入公司,并担任独立非执行董事及提名委员会成员。

2024-05-16 22:24

CDE:中药改良型新药研究技术指导原则(试行)资讯

CDE:中药改良型新药研究技术指导原则(试行)

基于有效性的改良,指提高已获批功能主治的有效性或者新增功能主治。基于安全性的改良,指不降低疗效的前提下,针对性地降低临床应用中已出现的安全性风险,最终提高获益风险比。

2024-05-16 21:52

直击就医“痛点”,武汉协和医院联手百度健康探索AI智慧门诊资讯

直击就医“痛点”,武汉协和医院联手百度健康探索AI智慧门诊

AI赋能智慧医疗,让百姓看病就医更加高效便捷。5月16日,华中科技大学同济医学院附属协和医院(以下简称:武汉协和医院)与百度健康举办“AI智慧门诊”签约仪式,共同推动医疗服...

2024-05-16 20:12

百度健康战略合作中国听力医学发展基金会,共建“听力医学中心”资讯

百度健康战略合作中国听力医学发展基金会,共建“听力医学中心”

在第34次全国助残日到来之际,百度健康与中国听力医学发展基金会就达成战略合作。近日,双方在北京举行了签约仪式。

2024-05-16 15:11

武田制药21亿美元引进下一代阿尔茨海默病疗法资讯

武田制药21亿美元引进下一代阿尔茨海默病疗法

近日,武田制药宣布与致力于神经退行性疾病精准医疗的制药公司AC Immune就靶向有毒形式淀粉样蛋白β(Aβ)的免疫疗法达成合作,包括用于一款阿尔茨海默病(Alzheimer s Dis...

2024-05-16 11:40

持续亏损,一家二甲医院宣布关停资讯

持续亏损,一家二甲医院宣布关停

日前,华润医疗发布公告称,华润医疗发布公告,面对淮阴医院经营状况的持续恶化,公司将向监管部门申请停止该医院的运营。

2024-05-16 08:07

步长制药独家中药品种因价格虚高,被约谈降价资讯

步长制药独家中药品种因价格虚高,被约谈降价

近日,步长制药发布公告称,根据国家医保局相关文件精神,旗下全资子公司陕西步长制药有限公司对其产品脑心通胶囊挂网价格进行了调整。

2024-05-15 10:58

美国对国内注射器和个人防护设备等征收新的关税资讯

美国对国内注射器和个人防护设备等征收新的关税

当地时间5月14日,美国白宫宣布,将大幅提高一系列中国进口产品的关税。此次新出台的对华关税预计将在未来3年内分阶段实施,涵盖了价值约180亿美元的中国进口商品,包括电动汽车...

2024-05-15 10:14

司美格鲁肽,披露了减重的维持年限资讯

司美格鲁肽,披露了减重的维持年限

司美格鲁肽在减肥领域的风靡程度已是人尽皆知,但对于其减肥效果的长期有效性也一直是业内和公众较为关注的话题之一,日前,诺和诺德就此公布了相关的研究数据。

2024-05-15 08:53

填补IgA肾病治疗空白!全球首个对因治疗药物耐赋康®在中国大陆成功开出首方资讯

填补IgA肾病治疗空白!全球首个对因治疗药物耐赋康®在中国大陆成功开出首方

5月14日,全球唯一对因治疗IgA肾病药物耐赋康®(布地奈德肠溶胶囊,NEFECON®)中国大陆的首张处方落地,并以互联网医院的电子处方形式开出

2024-05-14 21:43

全国公立医疗卫生机构药品使用监测管理标准,2024年11月1日起施行资讯

全国公立医疗卫生机构药品使用监测管理标准,2024年11月1日起施行

现发布推荐性卫生行业标准《全国公立医疗卫生机构药品使用监测管理标准》,编号和名称为WS T 841—2024 全国公立医疗卫生机构药品使用监测管理标准,自2024年11月1日起施行。

2024-05-14 17:53

传奇生物CAR-T疗法今年第一季度销售业绩达1.57亿美元资讯

传奇生物CAR-T疗法今年第一季度销售业绩达1.57亿美元

5月13日,传奇生物公布了其2024年第一季度的未经审计财务业绩。

2024-05-14 13:29

一家医疗器械明星企业,退市资讯

一家医疗器械明星企业,退市

近日,据外媒报道,全球电生理龙头械企Acutus Medical由于连续未能满足纳斯达克的最低上市要求(该公司未能维持至少每股1美元的最低股价和

2024-05-14 12:12

德国施巴sebamed亮相第十三届亚洲皮肤科学术年会,开拓皮肤屏障研究新视野资讯

德国施巴sebamed亮相第十三届亚洲皮肤科学术年会,开拓皮肤屏障研究新视野

近日,源自德国医研科学背景的知名功效型洁护肤品牌施巴sebamed首度亮相第十三届亚洲皮肤科大会(13th Asia Dermatological Congress)并举办午间专题会。

2024-05-13 17:24

横店集团旗下上市医药公司,去年揽金超110亿元资讯

横店集团旗下上市医药公司,去年揽金超110亿元

近日,普洛药业公布了其2024年第一季度业绩,其实现营业总收入31 98亿元,同比增长3 65%;归母净利润2 44亿元,同比增长1 84%;扣非净利润2 39亿元,同比增长2 42%;经营...

2024-05-13 15:53