拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。
首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分
结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。
1、Basic statistics
Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量
2、Per base sequence quality
quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。
若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。
3、Per Sequence Quality Scores
每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;
4、Per Base Sequence Content
对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。
当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。
5、Per Base GC Content
对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”
6、Per Sequence GC Content
统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。
偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”
7、Per Base N Content
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。
8、Sequence Length Distribution
reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”
9、Duplicate Sequences
统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。
可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。
备注:本文参考静渊的学习日志
来源:基因检测与解读
为你推荐
资讯 阿斯利康宣布将于2030年前在华投资逾1000亿元人民币,与石药集团达成超百亿美元战略合作
1月29日,阿斯利康宣布,计划于2030年前在中国投资逾1000亿元人民币(150亿美元),以扩大在药品生产与研发领域的布局。公司将充分发挥中国的科研优势和先进制造能力,并依托中...
2026-01-30 13:00
资讯 从“无差别轰炸”到“定点爆破”,我国二线HER2阳性胃癌治疗迎来靶向ADC新突破
近日,优赫得®(注射用德曲妥珠单抗)正式获得中国国家药品监督管理局(NMPA)批准,单药用于治疗既往接受过一种含曲妥珠单抗治疗方案的局部晚期或转移性HER2阳性成人胃或胃食...
2026-01-29 18:54
资讯 18个区域,中医优势病种按病种付费试点地区明确
根据《关于开展中医优势病种按病种付费试点工作的通知》要求,国家医保局、国家中医药局组织专家对申报中医优势病种按病种付费试点的地区开展遴选,经相应程序,确定北京、河北...
2026-01-29 18:16
资讯 合成生物创新企业康诺生物递交港交所上市申请
康诺生物核心业务聚焦于线粒体功能障碍相关疾病的研究,专注于NAD+抗心血管疾病、NAD+抗生殖功能障碍、NAD+抗神经退行性疾病和NAD+抗衰老等领域的科学应用
2026-01-29 18:15
资讯 奥纳再生完成数千万天使轮融资,加速异种移植技术产业化落地
本轮融资由达安创谷领投,黎曼猜想担任独家财务顾问,所筹资金将主要用于核心技术平台建设、现有产品管线研发推进及IND申报工作,助力公司加速异种移植技术的产业化落地,破解全...
2026-01-29 18:00
资讯 施维雅集团2024-2025财年合并销售收入达69亿欧元,同比增长16.2%,美国市场表现卓著
1月27日,全球知名跨国药企施维雅集团正式公布了2024-2025财年的财务业绩。施维雅集团2024-2025财年的合并收入达69亿欧元,超额完成60亿欧元的目标。较上一财年增长16 2%,显现...
2026-01-28 17:20
资讯 时隔23年,新修订的《中华人民共和国药品管理法实施条例》全文
1月27日,《中华人民共和国药品管理法实施条例》正式对外发布,这是时隔23年以来,首次全面修订药品管理法实施条例。
2026-01-28 12:38
资讯 先声药业一款双抗在研药物10.58亿欧元授权勃林格殷格翰
1月26日,先声药业发布公告称,与勃林格殷格翰达成一项许可与合作协议,双方将共同开发先声药业的临床前阶段TL1A IL23p19双特异性抗体SIM0709,用于炎症性肠病(IBD)的治疗。
2026-01-27 17:55
资讯 国家卫健委:新型抗肿瘤药物临床应用指导原则(2025年版)
新型抗肿瘤药物的一个显著特征是出现一批针对分子异常特征的药物——即分子靶向药物。 目前,根据是否需要做靶点检测,可以将常用小分子靶向药物、大分子单抗类药物以及小分子...
2026-01-27 11:46
资讯 CDE:针对泛肿瘤的抗肿瘤药物临床研发技术指导原则
泛肿瘤是从肿瘤起源和病因学等角度,将多种组织来源的肿瘤视为同一类疾病,并且寻求相同的治疗手段。当针对共有的分子改变开发药物时,不同肿瘤的患者均有可能从相同的药物治疗...
2026-01-25 18:54
资讯 病毒“突变”不等于更强生存力——华山张文宏教授团队发现:敏感性下降,往往伴随适应性下降
玛巴洛沙韦敏感性降低的突变发生率仍然极低(0 05%),未发现典型的I38T耐药突变。
2026-01-24 12:22
资讯 箕星药业宣布成功完成D1轮2.87亿美元融资,推进口服GLP-1药物开发
1月22日消息,箕星药业有限公司(Corxel Pharmaceuticals Limited)宣布已成功完成D1轮融资,募集资金高达2 87亿美元。
2026-01-23 18:00
资讯 基因启明完成亿元天使轮融资,加码iNKT细胞疗法研发与临床转化
本轮融资由人合资本独家投资。融资资金将重点用于推进公司核心iNKT细胞药物的临床试验进程,同时加速新管线的研发拓展与技术平台升级。
2026-01-23 14:05
资讯 商务部、国家发改委、国家卫健委、国家医保局等9部门印发促进药品零售行业高质量发展的意见
鼓励符合监管要求的实体医疗机构、互联网医院与药品零售企业依托电子处方流转平台进行处方流转。鼓励建设非医保药品自费处方电子流转平台,规范和完善相关药学服务。
2026-01-23 11:04
资讯 诺和诺德聚焦零售药店体重管理服务,启动“零售科学减重生态联盟”
1月22日,诺和诺德在福州举办超越·共盈——诺和诺德零售生态伙伴大会,大会汇聚连锁零售药店管理层、临床专家、资深药师、行业智库、零售生态合作伙伴等多方力量,正式启动零...
2026-01-22 21:53

















