拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。
首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分
结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。
1、Basic statistics
Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量
2、Per base sequence quality
quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。
若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。
3、Per Sequence Quality Scores
每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;
4、Per Base Sequence Content
对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。
当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。
5、Per Base GC Content
对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”
6、Per Sequence GC Content
统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。
偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”
7、Per Base N Content
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。
8、Sequence Length Distribution
reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”
9、Duplicate Sequences
统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。
可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。
备注:本文参考静渊的学习日志
来源:基因检测与解读
为你推荐

阿斯利康最新披露:在中国或面临800万美元新罚款
据相关报道,英国当地时间4月29日,阿斯利康在最新季度的财报会议上透露,就在华涉嫌非法进口药品一事,公司可能可能会在中国面临一项新的罚款。
2025-04-30 15:53

君合盟生物重组A型肉毒毒素临床试验双线突破,覆盖严肃医疗与消费医疗两大领域
用于成人中、重度眉间纹适应症的III期临床试验在组长单位北京大学第一医院正式启动并完成首例入组。针对成人脑卒中后上肢痉挛治疗的II期临床试验由复旦大学附属华山医院牵头并顺...
2025-04-30 12:39

科塞尔医疗完成近亿元B+轮融资,加速血管介入器械全领域平台化布局
本轮融资由国内知名投资机构铁投巨石领投,苏高新金控持续追加投资,园雍投资跟投,资金将用于核心产品研发、全球市场推广及产能扩建。
2025-04-28 16:54

凯西集团2024财年实现双位数营收增长,不断投资研发,聚焦可持续发展
凯西集团(Chiesi Group)是一家以研发为基石的意大利国际制药集团,总部位于意大利帕尔马,业务覆盖全球31个国家和地区。在2024财年,凯西集团圆满收官,取得了强劲的财务业绩...
2025-04-28 11:29

别让肺结节成心结,肺健康清“结”公益行动在人民日报社正式启动
2025年4月27日,《爱肺行动》之别让肺结节成心“结”——肺健康清“结”公益行动,在北京人民日报社正式启动,由广东省钟南山医学基金会、江苏养无极药业有限公司发起,联合京东健康...
2025-04-28 10:26

被忽视的“经期头痛”,专家提醒频繁发作需及时就医
偏头痛是一种常见的慢性神经血管性疾病,不仅有中到重度的头痛症状,还常伴随多种复杂症状比如恶心、呕吐、畏光、畏声等。女性偏头痛的发病率是男性的2~3倍,约20%~25%的女性偏...
2025-04-28 09:42

A股上市公司未名医药的核心子公司,被停产
4月24日晚间,未名医药发布公告称,4月22日,天津市药监局发布公告,对公司控股子公司天津未名生物医药有限公司(以下简称“天津未名”)进行了药品GMP符合性检查。经综合评定、...
2025-04-27 11:34

瑞博生物港交所递表,小核酸药物龙头企业有望登陆资本市场
瑞博生物成立于2007年,专注于RNA干扰(RNAi)技术开发及小核酸药物产业化,是全球最早布局该领域的开拓者之一。
2025-04-27 10:36

Cytiva与中欧创新医药与健康研究中心签署全面合作协议
双方将携手在细胞治疗药物成果转化领域展开全面合作,推动大湾区生物医药产业的蓬勃发展,打造全球生物医药创新高地。
2025-04-25 19:49

精鼎医药任命 Charlotte Moser为公司首席医疗官,负责领导全球医学战略
今日(4月25日),致力于为客户提供I至IV期全方位临床开发服务的跨国合同研究组织(CRO)精鼎医药宣布,公司已任命 Charlotte Moser博士出任首席医疗官。
2025-04-25 15:06

强生宣布锐珂(埃万妥单抗注射液)联合化疗方案在华获批,用于EGFR TKI经治后局部晚期或转移性非小细胞肺癌患者治疗
强生公司今日(4月25日)宣布,旗下创新治疗药物锐珂®(埃万妥单抗注射液)正式获得国家药品监督管理局批准,与卡铂和培美曲塞联合给药,适用于治疗携带表皮生长因子受体(EGFR...
2025-04-25 15:00

《新英格兰医学杂志》发布: 研究证实速福达可将流感病毒家庭传播概率降低32%
罗氏全球今日(4月25日)宣布,速福达®(玛巴洛沙韦)III期临床试验CENTERSTONE研究详细结果在《新英格兰医学杂志》(NEJM)上发布。结果显示研究达到了主要终点:流感感染者单...
2025-04-25 13:34