Dizileme Teknolojileri ve Çıktıları Sequencing Technologies and Outputs
DNA dizilemesi, bir DNA molekülündeki nükleotit bazlarının (A, T, G, C) sırasının belirlenmesidir. Bu teknoloji, temel biyoloji araştırmalarından tıbbi tanıya kadar pek çok alanda vazgeçilmez hale gelmiştir. Günümüzde kullanılan dizileme teknolojileri üç nesle ayrılmaktadır.
1. Nesil Dizileme — Sanger Dizileme
1975 yılında Frederick Sanger ve Alan Coulson tarafından geliştirilen dideoksi zincir sonlandırma yöntemi, "birinci nesil" dizilemenin temelini oluşturur. Bu yöntemle 700–1000 bp uzunluğunda yüksek doğrulukta diziler elde edilir.
- Avantajları: Çok yüksek doğruluk (%99.9+), uzun okuma uzunluğu
- Dezavantajları: Düşük verim, yüksek maliyet per baz
- Kullanım alanları: Tek gen doğrulama, klonlama doğrulaması
2. Nesil Dizileme — NGS (Yeni Nesil Dizileme)
NGS teknolojileri, paralel dizileme sayesinde milyonlarca kısa DNA parçasını aynı anda dizileyerek devrim yaratmıştır. Bu teknoloji, biyoinformatik alanını köklü biçimde değiştirmiştir.
Illumina Dizileme
Günümüzde en yaygın kullanılan NGS platformudur. Sentez yoluyla dizileme (Sequencing by Synthesis — SBS) prensibine dayanır.
- Okuma uzunluğu: 75–300 bp (paired-end)
- Verim: 300 Gb'a kadar (NovaSeq 6000)
- Doğruluk: ~%99.9
- Kullanım: WGS, RNA-seq, 16S metagenomik, ChIP-seq
Ion Torrent
Yarı iletken çip tabanlı dizileme yöntemidir. Hidrojen iyonlarının salınımını ölçer.
- Okuma uzunluğu: ~400 bp
- Avantajı: Hızlı çalışma süresi, kompakt sistem
3. Nesil Dizileme — Uzun Okuma Teknolojileri
Üçüncü nesil teknolojiler, tek molekül dizileme yaklaşımıyla çok daha uzun DNA okumaları sağlar. Bu sayede tekrarlayan bölgeler, yapısal varyantlar ve tam uzunlukta transkriptler daha doğru şekilde çözülebilir.
PacBio (Pacific Biosciences)
- SMRT (Single Molecule Real-Time) Dizileme: DNA polimerazın çalışması gerçek zamanlı izlenir
- HiFi Okumaları: 10–25 kb okuma uzunluğu, >%99.9 doğruluk
- Kullanım: Tam uzunlukta genom assembly, epigenomik
Oxford Nanopore Technologies (ONT)
- Prensip: DNA moleküllerinin nanopor kanalından geçişi sırasındaki elektrik akımı değişiklikleri ölçülür
- Okuma uzunluğu: N50 >100 kb (ultra-long reads)
- MinION: El tipi taşınabilir cihaz, sahada kullanım için ideal
- Dezavantajı: Kısa okumalar için yüksek hata oranı
FASTQ Formatı
NGS verilerinin standart çıktı formatıdır. Her dizi için dört satır içerir:
@SEQ_ID # Dizi adı (@ile başlar)
ATGCGATCGATCGATCGATCG # DNA dizisi
+ # Ayırıcı (+)
IIIIIIIIIIIIIIIIIIIII # Kalite skorları (ASCII)
Phred Kalite Skoru
Her baza atanan kalite skoru (Q), o bazın hatalı okuma olasılığını gösterir:
- Q10: %10 hata olasılığı (%90 doğruluk)
- Q20: %1 hata olasılığı (%99 doğruluk)
- Q30: %0.1 hata olasılığı (%99.9 doğruluk) — kabul gören minimum
- Q40: %0.01 hata olasılığı (%99.99 doğruluk)
Formül: Q = -10 × log₁₀(P), burada P hata olasılığıdır.
Dizileme Stratejileri
Whole Genome Sequencing (WGS)
Bir organizmanın tüm genomunun dizilenmesidir. Bakteri genomları genellikle 1–10 Mb büyüklüğündedir. Mikrobiyal WGS için 50-100× kapsama genellikle yeterlidir.
Amplikon Dizileme (16S rRNA)
Mikrobiom çalışmalarında yaygın kullanılır. 16S rRNA geninin hipervaryabl bölgeleri (V3-V4) dizilenerek bakteri topluluğu profili çıkarılır. QIIME2 ve DADA2 bu analizler için kullanılan başlıca araçlardır.
Shotgun Metagenomik
Bir ortamdaki tüm DNA'nın seçimsiz olarak dizilenmesidir. Tüm mikrobiyal topluluk hakkında kapsamlı bilgi verir.
Paired-End ve Single-End Okuma
- Single-end: DNA parçası sadece bir yönden okunur. Daha ucuz ve hızlıdır.
- Paired-end: DNA parçası her iki ucundan da okunur. Assembly ve varyant tespitinde daha iyi performans verir.
DNA sequencing is the determination of the order of nucleotide bases (A, T, G, C) in a DNA molecule. This technology has become indispensable in many fields, from basic biology research to medical diagnostics. Today's sequencing technologies are divided into three generations.
1st Generation — Sanger Sequencing
The dideoxy chain termination method developed by Frederick Sanger and Alan Coulson in 1975 forms the basis of "first-generation" sequencing. This method yields highly accurate sequences of 700–1000 bp in length.
- Advantages: Very high accuracy (>99.9%), long read length
- Disadvantages: Low throughput, high cost per base
- Applications: Single-gene validation, cloning verification
2nd Generation — NGS (Next-Generation Sequencing)
NGS technologies revolutionized the field by sequencing millions of short DNA fragments simultaneously through massively parallel sequencing. This technology fundamentally transformed the field of bioinformatics.
Illumina Sequencing
The most widely used NGS platform today. It is based on the Sequencing by Synthesis (SBS) principle.
- Read length: 75–300 bp (paired-end)
- Throughput: Up to 300 Gb (NovaSeq 6000)
- Accuracy: ~99.9%
- Applications: WGS, RNA-seq, 16S metagenomics, ChIP-seq
Ion Torrent
A semiconductor chip-based sequencing method that measures the release of hydrogen ions.
- Read length: ~400 bp
- Advantage: Fast run time, compact system
3rd Generation — Long-Read Technologies
Third-generation technologies provide much longer DNA reads through single-molecule sequencing. This enables more accurate resolution of repetitive regions, structural variants, and full-length transcripts.
PacBio (Pacific Biosciences)
- SMRT (Single Molecule Real-Time) Sequencing: The activity of DNA polymerase is monitored in real time
- HiFi Reads: 10–25 kb read length, >99.9% accuracy
- Applications: Full-length genome assembly, epigenomics
Oxford Nanopore Technologies (ONT)
- Principle: Measures changes in electrical current as DNA molecules pass through nanopore channels
- Read length: N50 >100 kb (ultra-long reads)
- MinION: Hand-held portable device, ideal for field use
- Disadvantage: Higher error rate for short reads
FASTQ Format
The standard output format for NGS data. Contains four lines for each sequence:
@SEQ_ID # Sequence name (starts with @)
ATGCGATCGATCGATCGATCG # DNA sequence
+ # Separator (+)
IIIIIIIIIIIIIIIIIIIII # Quality scores (ASCII)
Phred Quality Score
The quality score (Q) assigned to each base indicates the probability of an incorrect base call:
- Q10: 10% error probability (90% accuracy)
- Q20: 1% error probability (99% accuracy)
- Q30: 0.1% error probability (99.9% accuracy) — accepted minimum
- Q40: 0.01% error probability (99.99% accuracy)
Formula: Q = -10 × log₁₀(P), where P is the probability of error.
Sequencing Strategies
Whole Genome Sequencing (WGS)
The sequencing of an organism's entire genome. Bacterial genomes are typically 1–10 Mb in size. 50–100× coverage is generally sufficient for microbial WGS.
Amplicon Sequencing (16S rRNA)
Widely used in microbiome studies. The hypervariable regions (V3-V4) of the 16S rRNA gene are sequenced to obtain a bacterial community profile. QIIME2 and DADA2 are the main tools used for these analyses.
Shotgun Metagenomics
The non-selective sequencing of all DNA in an environment. Provides comprehensive information about the entire microbial community.
Paired-End vs Single-End Reads
- Single-end: The DNA fragment is read from only one direction. Cheaper and faster.
- Paired-end: The DNA fragment is read from both ends. Provides better performance in assembly and variant detection.