一起学下一代测序技术(NGS)数据分析之数据质控

医疗器械 来源:基因检测与解读
2015
12/07
12:35
基因检测与解读 医疗器械

拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。

首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分


结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。

1、Basic statistics


Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量

2、Per base sequence quality


quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。

若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。


3、Per Sequence Quality Scores


每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;

4、Per Base Sequence Content


对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。

当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。

5、Per Base GC Content


对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”

6、Per Sequence GC Content


统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”

7、Per Base N Content


当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。

8、Sequence Length Distribution


reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”

9、Duplicate Sequences


统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。

可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。

备注:本文参考静渊的学习日志

来源:基因检测与解读

为你推荐

天宜康医药完成逾亿元种子轮融资,汪文博士领衔攻坚CAR-T行业核心痛点资讯

天宜康医药完成逾亿元种子轮融资,汪文博士领衔攻坚CAR-T行业核心痛点

本轮融资由弘毅投资和幂方健康基金共同领投,苏创投、承树投资、英贤投资及毅达资本跟投

2026-03-19 13:19

爱尔康披露关键数据:全球老视矫正型人工晶体植入量超600万枚,人工晶体植入总量突破1.75亿枚资讯

爱尔康披露关键数据:全球老视矫正型人工晶体植入量超600万枚,人工晶体植入总量突破1.75亿枚

全球人工晶体(IOL)植入技术在临床应用中不断取得新进展,为患者术后视觉质量的提升提供了更多可能性。

2026-03-19 13:08

赛诺菲首个中国创新与运营中心落户成都资讯

赛诺菲首个中国创新与运营中心落户成都

汇聚本土人才,赋能数字生态,共促医药创新转型升级

2026-03-19 13:04

沃森生物明天复牌,实控人变更资讯

沃森生物明天复牌,实控人变更

公司控股股东将变更为腾云新沃,实际控制人变更为黄涛,自此沃森生物结束16年的无实际控制人状态。

2026-03-18 23:09

4款药品再次被上海列为重点监控品种资讯

4款药品再次被上海列为重点监控品种

3月17日,上海市医药集中招标采购事务管理所发布最新重点监控药品名单,共计10款,包括利肺片、注射用二羟丙茶碱、肝素钙注射液等。重点监控品种主要针对采购金额高、价格异常或...

2026-03-18 21:20

直观复星支持开展“儿童公益救助项目”,助力先进医疗技术惠及更多患儿资讯

直观复星支持开展“儿童公益救助项目”,助力先进医疗技术惠及更多患儿

3月18日,手术机器人领军企业直观复星正式向上海市医药卫生发展基金会进行公益捐赠,专项支持“儿童公益救助项目”

2026-03-18 18:03

礼邦医药 AP306 出海 资讯

礼邦医药 AP306 出海

根据协议,礼邦医药已授予 R1 在大中华区以外地区独家开发、生产及商业化 AP306 的权利。协议项下的整体经济条款包括最高总计过亿美元的开发、注册及商业化里程碑付款;同时...

2026-03-18 15:59

百度健康计划近期推出DoctorClaw资讯

百度健康计划近期推出DoctorClaw

据悉这是一款面向医生的OpenClaw,定位是医生AI助理,可以帮医生自动整理研究资料、跟踪论文进度、设置随访提醒、定时追踪最新文献等。

2026-03-18 11:45

基层医疗卫生机构可单次开具不超过12周用药的长期处方资讯

基层医疗卫生机构可单次开具不超过12周用药的长期处方

3月16日,国家医保局会同国家发展改革委、国家卫生健康委印发《关于医保支持基层医疗卫生服务发展的指导意见》。

2026-03-17 21:03

传奇生物被传拟赴港上市资讯

传奇生物被传拟赴港上市

日前有媒体报道引述知情人士称,传奇生物拟赴港上市,最早将于今年(2026年)落地,募资规模约3亿至4亿美元(约折合港元23 4亿至31 2亿)。对此,3月17日,传奇生物方面表示,...

2026-03-17 13:20

男子回家遭自家狗撕咬,伤口深可见骨!专家紧急提醒:暴露后规范处置是关键资讯

男子回家遭自家狗撕咬,伤口深可见骨!专家紧急提醒:暴露后规范处置是关键

狂犬病是由狂犬病病毒引起的一种以侵犯中枢神经系统为主的急性人兽共患传染病。其主要临床表现为特异性恐风、恐水、咽肌痉挛、进行性瘫痪等。

2026-03-17 12:42

蚂蚁阿福全面接入中华医学会杂志社知识库资讯

蚂蚁阿福全面接入中华医学会杂志社知识库

近日,中华医学会杂志社与蚂蚁健康战略合作迎来新进展:蚂蚁阿福已全面接入中华医学会杂志社的医学文献知识库,阿福问答功能可引用知识库内最新的临床指南、专家共识和医学文献。

2026-03-17 11:24

佰特微医疗完成近亿元B轮融资,加速外周血管介入与心衰领域创新布局资讯

佰特微医疗完成近亿元B轮融资,加速外周血管介入与心衰领域创新布局

本轮融资由天士力资本领投,勤智资本跟投,凯乘资本担任独家财务顾问,所募资金将主要用于新产品研发、生产基地建设及市场拓展,进一步加速公司在外周血

2026-03-16 19:46

天鹜科技完成超2亿元A+轮融资,加速AI蛋白质设计产业化落地资讯

天鹜科技完成超2亿元A+轮融资,加速AI蛋白质设计产业化落地

本轮融资由中国石油昆仑资本、上海未来产业基金及老股东涌铧投资联合领投,国投招商、新供销基金、法默凯、孚腾资本等机构跟投,老股东启明创投、金沙江联合资本润璞医疗基金、...

2026-03-16 19:42

13.3亿人参保、3.4万亿基金支出,医保2025年账单发布资讯

13.3亿人参保、3.4万亿基金支出,医保2025年账单发布

3月16日,国家医疗保障局正式发布《2025年医疗保障事业发展统计快报》

2026-03-16 19:37

CDE:以生物发酵来源的多肽类制剂为对照药品研发、全化学合成法制备的多肽类制剂,应如何申报临床试验申请和上市申请?资讯

CDE:以生物发酵来源的多肽类制剂为对照药品研发、全化学合成法制备的多肽类制剂,应如何申报临床试验申请和上市申请?

如境内外均无全化学合成法制备的同品种上市的,申请人可参照化学药品2 2类申报。

2026-03-16 16:32

 Cytiva发布重磅新品及本土新品牌“瑞予”, 助推中国创新疗法实现全球引领与普惠可及资讯

Cytiva发布重磅新品及本土新品牌“瑞予”, 助推中国创新疗法实现全球引领与普惠可及

Cytiva在华发布三款重磅产品与创新解决方案,赋能体内细胞治疗、个性化肿瘤疫苗、新型抗体等创新疗法的研发与生产。

2026-03-16 13:26

国家药监局发布第四批调出参比制剂目录品种资讯

国家药监局发布第四批调出参比制剂目录品种

第四批调出参比制剂目录品种清单。

2026-03-15 22:37

正式发布的“十五五”规划纲要中的“医药健康”资讯

正式发布的“十五五”规划纲要中的“医药健康”

3月13日,《中华人民共和国国民经济和社会发展第十五个五年规划纲要》发布,明确了2026-2030年我国经济社会发展的战略方向,医谷网现将“医药健康”相关辑录如下。

2026-03-14 21:37

成人阻塞性睡眠呼吸暂停诊治指南(2025)发布会暨OSA个体化治疗研讨会在京圆满召开资讯

成人阻塞性睡眠呼吸暂停诊治指南(2025)发布会暨OSA个体化治疗研讨会在京圆满召开

2026年3月13—14日,由《中华医学杂志》社有限责任公司、《中华结核和呼吸杂志》编委会主办的“成人阻塞性睡眠呼吸暂停诊治指南(2025)发布会暨OSA个体化治疗研讨会”在北京圆满召开。

2026-03-14 18:21