拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。
首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分
结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。
1、Basic statistics
Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量
2、Per base sequence quality
quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。
若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。
3、Per Sequence Quality Scores
每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;
4、Per Base Sequence Content
对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。
当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。
5、Per Base GC Content
对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”
6、Per Sequence GC Content
统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。
偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”
7、Per Base N Content
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。
8、Sequence Length Distribution
reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”
9、Duplicate Sequences
统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。
可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。
备注:本文参考静渊的学习日志
来源:基因检测与解读
为你推荐
资讯 诺和诺德“诺和关怀”发布鸿蒙版APP与减重专属版
11月7日,第八届中国国际进口博览会期间,诺和诺德宣布2023年组建的“健康生态联盟”扩容升级,将与更多数字生态圈伙伴在生态融合、数据互联、技术共创方面展开深度合作。
2025-11-07 23:16
资讯 凯西罕见病事业部首秀进博会
凯西集团是一家以研发为基石、拥有九十年历史的意大利国际制药集团,覆盖呼吸道健康、罕见疾病和专科治疗三大领域,其专利数量在意大利药企中排名首位,公司每年投入超20%营收至...
2025-11-07 22:58
资讯 卒中知晓周于进博会启幕,Pipeline™持续助力中国脑血管疾病治疗创新
美敦力神经介入部门以“深耕廿载·向美而行”为主题举办专场活动,并正式启动“卒中知晓周”倡导行动。
2025-11-07 22:48
资讯 诺华公司携手腾讯新闻《超级问诊》亮相进博会,多方合力破解心血管慢病“管理难题”
在第八届中国国际进口博览会现场,腾讯新闻联合诺华公司共同举办了《超级问诊》进博会特别场
2025-11-07 18:44
资讯 美敦力CathWorks实验室开放日丨CathWorks FFRangio系统正式发布!开启心血管诊疗智能新时代
2025年11月6日,第八届中国国际进口博览会期间,美敦力CathWorks实验室开放日重磅启幕
2025-11-07 18:08
资讯 创新技术赋能高血压防治——美敦力进博会圆桌共议难治性高血压管理新路径
来自临床、公共卫生、政策研究及行业领域的多位专家汇聚一堂,共同探讨创新疗法RDN(肾动脉交感神经消融术)在中国高血压防治体系中的临床应用、卫生经济学价值及未来发展方向。
2025-11-07 17:43
资讯 依视路星趣控全“星”解决方案闪耀进博会舞台
第八届中国国际进口博览会期间,作为依视路陆逊梯卡旗下领先的儿童青少年近视管理品牌,“进博宝宝”依视路星趣控携全“星”解决方案重磅亮相
2025-11-07 12:42
资讯 可充电、可感知闭环脑起搏器Percept™ RC亮相第八届进博会,应用脑机接口技术造福帕金森病患者
作为全球脑起搏器领域的重磅产品,美敦力可充电、可感知闭环脑起搏器Percept™ RC亮相第八届中国国际进口博览会。
2025-11-07 11:24
资讯 葛兰素史克中国投身肿瘤赛道,从多发性骨髓瘤破题应对老龄化健康挑战
权威专家、北京中康联公益基金会代表等领域内各方济济一堂,就MM患者治疗现状与创新诊疗展望等话题进行了深入交流。
2025-11-07 11:18
资讯 罗氏制药连续八年参与进博会,加速向全疾病领域综合领航者跨越
2025-11-07 11:02
资讯 首次亮相进博,索诺瓦全链条创新方案助力听力健康行业高质量发展
现场,索诺瓦展示了全链条创新听力健康解决方案,其中包括峰力AI人工智能全能系列助听器亚洲首展,AB核磁共振兼容的人工耳蜗技术等。
2025-11-06 22:24
资讯 百济神州2025年前三季度营收超275亿元,已超去年全年营收
第三季度,百济神州单季度营收突破百亿大关,达到100 77亿元,同比增长41 1%;产品收入延续高速放量态势,实现99 54亿元,同比增长40 6%。
2025-11-06 20:42
资讯 携手打造健康新生态,聚焦发育性癫痫性脑病的科学突破与全方位支持
第八届中国国际进口博览会(下称“进博会”)期间,由寇德罕见病中心与灵北共同发起的“构建DEE健康新生态:聚焦发育性癫痫性脑病的科学突破与全方位支持”圆桌论坛成功举办。
2025-11-06 20:34
资讯 罗氏制药“AI+科研”亮相进博,打造医学创新新生态
罗氏制药中国携手商汤医疗以及若生科技联合发布“小罗智多星”AI科研解决方案,并且分享了“MDT智能体”这一创新工具。
2025-11-06 20:23


















