Kalite Kontrol Quality Control
NGS verilerini analiz etmeden önce ham okumaların kalitesini değerlendirmek ve düşük kaliteli bölgeleri temizlemek kritik öneme sahiptir. Bu adımı atlamak, downstream analizlerde (assembly, varyant tespiti, anotasyon) hatalı sonuçlara yol açar.
FastQC ile Kalite Değerlendirmesi
FastQC, NGS verilerinin kalitesini görsel olarak değerlendiren en yaygın kullanılan araçtır. HTML formatında kapsamlı bir rapor üretir.
Kurulum ve Çalıştırma
# Conda ile kurulum
conda install -c bioconda fastqc
# Tek dosya analizi
fastqc ornek_R1.fastq.gz
# Çoklu dosya analizi
fastqc *.fastq.gz -o qc_sonuclari/ -t 8
FastQC Raporu — Temel Modüller
- Per base sequence quality: Her pozisyondaki Phred kalite skorlarının kutu grafikleri. Q30 çizgisinin altındaki pozisyonlar sorunlu kabul edilir.
- Per sequence quality scores: Tüm okumaların ortalama kalite dağılımı.
- Per base sequence content: Her pozisyonda A/T/G/C oranları. İlk 10-15 bazda dengesizlik normaldir (primer bölgesi).
- Per sequence GC content: Okumaların GC içeriği dağılımı. Çan eğrisinden sapma kontaminasyona işaret edebilir.
- Sequence length distribution: Okuma uzunluğu dağılımı.
- Sequence duplication levels: Tekrarlayan okuma oranları. Yüksek duplikasyon PCR artefaktını gösterebilir.
- Overrepresented sequences: Sık tekrarlayan diziler (adaptör kirlilik göstergesi olabilir).
- Adapter Content: Adaptör dizilerinin varlığı ve konumu.
MultiQC — Toplu Rapor
Birden fazla örneğin FastQC raporlarını tek bir HTML dosyasında birleştirir. Büyük projelerde vazgeçilmezdir.
conda install -c bioconda multiqc
multiqc qc_sonuclari/
Trimmomatic ile Adaptör Temizleme ve Kırpma
Trimmomatic, Illumina verilerinde adaptör dizilerini ve düşük kaliteli bölgeleri kaldırmak için kullanılır.
Temel Kullanım (Paired-End)
trimmomatic PE \
ornek_R1.fastq.gz ornek_R2.fastq.gz \
ornek_R1_temiz.fastq.gz ornek_R1_tek.fastq.gz \
ornek_R2_temiz.fastq.gz ornek_R2_tek.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 \
LEADING:3 \
TRAILING:3 \
SLIDINGWINDOW:4:20 \
MINLEN:36
Parametreler
- ILLUMINACLIP: Adaptör dizisi dosyası ve eşleşme parametreleri
- LEADING:3 — Baştan kalite <3 olan bazları kes
- TRAILING:3 — Sondan kalite <3 olan bazları kes
- SLIDINGWINDOW:4:20 — 4 bazlık pencerede ortalama kalite <20 ise kes
- MINLEN:36 — 36 bp'den kısa okumaları at
Fastp — Hızlı QC ve Temizleme
Fastp, hem kalite değerlendirmesi hem de temizlemeyi tek adımda yapan modern ve hızlı bir araçtır.
conda install -c bioconda fastp
# Paired-end işleme
fastp \
-i R1.fastq.gz -I R2.fastq.gz \
-o R1_temiz.fastq.gz -O R2_temiz.fastq.gz \
--html fastp_raporu.html \
--json fastp_raporu.json \
--thread 8 \
--qualified_quality_phred 20 \
--length_required 50
Kalite Kontrol İş Akışı
- Ham veriler üzerinde FastQC çalıştır → raporu incele
- Sorun varsa Trimmomatic veya Fastp ile temizle
- Temizlenmiş veriler üzerinde tekrar FastQC çalıştır
- MultiQC ile tüm örneklerin özetini çıkar
- Geçen örnekleri downstream analizlere gönder
Uzun Okumalar için QC (Nanopore/PacBio)
Nanopore ve PacBio verileri için farklı araçlar kullanılır:
- NanoPlot: Oxford Nanopore verilerinin kalite görselleştirmesi
- NanoFilt: Nanopore okumalarının filtrelenmesi ve kırpılması
- LongQC: Uzun okuma verileri için genel QC aracı
# Nanopore QC
conda install -c bioconda nanoplot nanofilt
NanoPlot --fastq okumaları.fastq.gz --outdir nanoplot_sonuc/
# Filtreleme: minimum Q8, minimum 1000 bp
NanoFilt -q 8 -l 1000 okumaları.fastq.gz > temiz_okumaları.fastq
Before analyzing NGS data, it is critically important to assess the quality of raw reads and clean up low-quality regions. Skipping this step leads to erroneous results in downstream analyses (assembly, variant detection, annotation).
Quality Assessment with FastQC
FastQC is the most widely used tool for visually assessing the quality of NGS data. It produces a comprehensive report in HTML format.
Installation and Usage
# Install via Conda
conda install -c bioconda fastqc
# Single file analysis
fastqc sample_R1.fastq.gz
# Multiple file analysis
fastqc *.fastq.gz -o qc_results/ -t 8
FastQC Report — Key Modules
- Per base sequence quality: Box plots of Phred quality scores at each position. Positions below the Q30 line are considered problematic.
- Per sequence quality scores: Average quality distribution across all reads.
- Per base sequence content: A/T/G/C ratios at each position. Imbalance in the first 10–15 bases is normal (primer region).
- Per sequence GC content: GC content distribution of reads. Deviation from a bell curve may indicate contamination.
- Sequence length distribution: Read length distribution.
- Sequence duplication levels: Rate of duplicate reads. High duplication may indicate PCR artifacts.
- Overrepresented sequences: Frequently recurring sequences (may indicate adapter contamination).
- Adapter Content: Presence and position of adapter sequences.
MultiQC — Aggregate Report
Combines FastQC reports from multiple samples into a single HTML file. Indispensable for large-scale projects.
conda install -c bioconda multiqc
multiqc qc_results/
Adapter Trimming and Quality Clipping with Trimmomatic
Trimmomatic is used to remove adapter sequences and low-quality regions from Illumina data.
Basic Usage (Paired-End)
trimmomatic PE \
sample_R1.fastq.gz sample_R2.fastq.gz \
sample_R1_clean.fastq.gz sample_R1_unpaired.fastq.gz \
sample_R2_clean.fastq.gz sample_R2_unpaired.fastq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 \
LEADING:3 \
TRAILING:3 \
SLIDINGWINDOW:4:20 \
MINLEN:36
Parameters
- ILLUMINACLIP: Adapter sequence file and matching parameters
- LEADING:3 — Cut bases from start with quality <3
- TRAILING:3 — Cut bases from end with quality <3
- SLIDINGWINDOW:4:20 — Cut if average quality in 4-base window drops below 20
- MINLEN:36 — Drop reads shorter than 36 bp
Fastp — Fast QC and Trimming
Fastp is a modern, fast tool that performs both quality assessment and trimming in a single step.
conda install -c bioconda fastp
# Paired-end processing
fastp \
-i R1.fastq.gz -I R2.fastq.gz \
-o R1_clean.fastq.gz -O R2_clean.fastq.gz \
--html fastp_report.html \
--json fastp_report.json \
--thread 8 \
--qualified_quality_phred 20 \
--length_required 50
Quality Control Workflow
- Run FastQC on raw data → review the report
- If issues found, clean with Trimmomatic or Fastp
- Run FastQC again on cleaned data
- Summarize all samples with MultiQC
- Send passing samples to downstream analyses
QC for Long Reads (Nanopore/PacBio)
Different tools are used for Nanopore and PacBio data:
- NanoPlot: Quality visualization for Oxford Nanopore data
- NanoFilt: Filtering and trimming of Nanopore reads
- LongQC: General QC tool for long-read data
# Nanopore QC
conda install -c bioconda nanoplot nanofilt
NanoPlot --fastq reads.fastq.gz --outdir nanoplot_output/
# Filter: minimum Q8, minimum 1000 bp
NanoFilt -q 8 -l 1000 reads.fastq.gz > clean_reads.fastq