Dizileme Teknolojileri ve Çıktıları Sequencing Technologies and Outputs

DNA dizilemesi, bir DNA molekülündeki nükleotit bazlarının (A, T, G, C) sırasının belirlenmesidir. Bu teknoloji, temel biyoloji araştırmalarından tıbbi tanıya kadar pek çok alanda vazgeçilmez hale gelmiştir. Günümüzde kullanılan dizileme teknolojileri üç nesle ayrılmaktadır.

1. Nesil Dizileme — Sanger Dizileme

1975 yılında Frederick Sanger ve Alan Coulson tarafından geliştirilen dideoksi zincir sonlandırma yöntemi, "birinci nesil" dizilemenin temelini oluşturur. Bu yöntemle 700–1000 bp uzunluğunda yüksek doğrulukta diziler elde edilir.

Avantajları: Çok yüksek doğruluk (%99.9+), uzun okuma uzunluğu
Dezavantajları: Düşük verim, yüksek maliyet per baz
Kullanım alanları: Tek gen doğrulama, klonlama doğrulaması

2. Nesil Dizileme — NGS (Yeni Nesil Dizileme)

NGS teknolojileri, paralel dizileme sayesinde milyonlarca kısa DNA parçasını aynı anda dizileyerek devrim yaratmıştır. Bu teknoloji, biyoinformatik alanını köklü biçimde değiştirmiştir.

Illumina Dizileme

Günümüzde en yaygın kullanılan NGS platformudur. Sentez yoluyla dizileme (Sequencing by Synthesis — SBS) prensibine dayanır.

Okuma uzunluğu: 75–300 bp (paired-end)
Verim: 300 Gb'a kadar (NovaSeq 6000)
Doğruluk: ~%99.9
Kullanım: WGS, RNA-seq, 16S metagenomik, ChIP-seq

Ion Torrent

Yarı iletken çip tabanlı dizileme yöntemidir. Hidrojen iyonlarının salınımını ölçer.

Okuma uzunluğu: ~400 bp
Avantajı: Hızlı çalışma süresi, kompakt sistem

3. Nesil Dizileme — Uzun Okuma Teknolojileri

Üçüncü nesil teknolojiler, tek molekül dizileme yaklaşımıyla çok daha uzun DNA okumaları sağlar. Bu sayede tekrarlayan bölgeler, yapısal varyantlar ve tam uzunlukta transkriptler daha doğru şekilde çözülebilir.

PacBio (Pacific Biosciences)

SMRT (Single Molecule Real-Time) Dizileme: DNA polimerazın çalışması gerçek zamanlı izlenir
HiFi Okumaları: 10–25 kb okuma uzunluğu, >%99.9 doğruluk
Kullanım: Tam uzunlukta genom assembly, epigenomik

Oxford Nanopore Technologies (ONT)

Prensip: DNA moleküllerinin nanopor kanalından geçişi sırasındaki elektrik akımı değişiklikleri ölçülür
Okuma uzunluğu: N50 >100 kb (ultra-long reads)
MinION: El tipi taşınabilir cihaz, sahada kullanım için ideal
Dezavantajı: Kısa okumalar için yüksek hata oranı

FASTQ Formatı

NGS verilerinin standart çıktı formatıdır. Her dizi için dört satır içerir:

@SEQ_ID                          # Dizi adı (@ile başlar)
ATGCGATCGATCGATCGATCG           # DNA dizisi
+                                # Ayırıcı (+)
IIIIIIIIIIIIIIIIIIIII           # Kalite skorları (ASCII)

Phred Kalite Skoru

Her baza atanan kalite skoru (Q), o bazın hatalı okuma olasılığını gösterir:

Q10: %10 hata olasılığı (%90 doğruluk)
Q20: %1 hata olasılığı (%99 doğruluk)
Q30: %0.1 hata olasılığı (%99.9 doğruluk) — kabul gören minimum
Q40: %0.01 hata olasılığı (%99.99 doğruluk)

Formül: Q = -10 × log₁₀(P), burada P hata olasılığıdır.

Dizileme Stratejileri

Whole Genome Sequencing (WGS)

Bir organizmanın tüm genomunun dizilenmesidir. Bakteri genomları genellikle 1–10 Mb büyüklüğündedir. Mikrobiyal WGS için 50-100× kapsama genellikle yeterlidir.

Amplikon Dizileme (16S rRNA)

Mikrobiom çalışmalarında yaygın kullanılır. 16S rRNA geninin hipervaryabl bölgeleri (V3-V4) dizilenerek bakteri topluluğu profili çıkarılır. QIIME2 ve DADA2 bu analizler için kullanılan başlıca araçlardır.

Shotgun Metagenomik

Bir ortamdaki tüm DNA'nın seçimsiz olarak dizilenmesidir. Tüm mikrobiyal topluluk hakkında kapsamlı bilgi verir.

Paired-End ve Single-End Okuma

Single-end: DNA parçası sadece bir yönden okunur. Daha ucuz ve hızlıdır.
Paired-end: DNA parçası her iki ucundan da okunur. Assembly ve varyant tespitinde daha iyi performans verir.

DNA sequencing is the determination of the order of nucleotide bases (A, T, G, C) in a DNA molecule. This technology has become indispensable in many fields, from basic biology research to medical diagnostics. Today's sequencing technologies are divided into three generations.

1st Generation — Sanger Sequencing

The dideoxy chain termination method developed by Frederick Sanger and Alan Coulson in 1975 forms the basis of "first-generation" sequencing. This method yields highly accurate sequences of 700–1000 bp in length.

Advantages: Very high accuracy (>99.9%), long read length
Disadvantages: Low throughput, high cost per base
Applications: Single-gene validation, cloning verification

2nd Generation — NGS (Next-Generation Sequencing)

NGS technologies revolutionized the field by sequencing millions of short DNA fragments simultaneously through massively parallel sequencing. This technology fundamentally transformed the field of bioinformatics.

Illumina Sequencing

The most widely used NGS platform today. It is based on the Sequencing by Synthesis (SBS) principle.

Read length: 75–300 bp (paired-end)
Throughput: Up to 300 Gb (NovaSeq 6000)
Accuracy: ~99.9%
Applications: WGS, RNA-seq, 16S metagenomics, ChIP-seq

Ion Torrent

A semiconductor chip-based sequencing method that measures the release of hydrogen ions.

Read length: ~400 bp
Advantage: Fast run time, compact system

3rd Generation — Long-Read Technologies

Third-generation technologies provide much longer DNA reads through single-molecule sequencing. This enables more accurate resolution of repetitive regions, structural variants, and full-length transcripts.

PacBio (Pacific Biosciences)

SMRT (Single Molecule Real-Time) Sequencing: The activity of DNA polymerase is monitored in real time
HiFi Reads: 10–25 kb read length, >99.9% accuracy
Applications: Full-length genome assembly, epigenomics

Oxford Nanopore Technologies (ONT)

Principle: Measures changes in electrical current as DNA molecules pass through nanopore channels
Read length: N50 >100 kb (ultra-long reads)
MinION: Hand-held portable device, ideal for field use
Disadvantage: Higher error rate for short reads

FASTQ Format

The standard output format for NGS data. Contains four lines for each sequence:

@SEQ_ID                          # Sequence name (starts with @)
ATGCGATCGATCGATCGATCG           # DNA sequence
+                                # Separator (+)
IIIIIIIIIIIIIIIIIIIII           # Quality scores (ASCII)

Phred Quality Score

The quality score (Q) assigned to each base indicates the probability of an incorrect base call:

Q10: 10% error probability (90% accuracy)
Q20: 1% error probability (99% accuracy)
Q30: 0.1% error probability (99.9% accuracy) — accepted minimum
Q40: 0.01% error probability (99.99% accuracy)

Formula: Q = -10 × log₁₀(P), where P is the probability of error.

Sequencing Strategies

Whole Genome Sequencing (WGS)

The sequencing of an organism's entire genome. Bacterial genomes are typically 1–10 Mb in size. 50–100× coverage is generally sufficient for microbial WGS.

Amplicon Sequencing (16S rRNA)

Widely used in microbiome studies. The hypervariable regions (V3-V4) of the 16S rRNA gene are sequenced to obtain a bacterial community profile. QIIME2 and DADA2 are the main tools used for these analyses.

Shotgun Metagenomics

The non-selective sequencing of all DNA in an environment. Provides comprehensive information about the entire microbial community.

Paired-End vs Single-End Reads

Single-end: The DNA fragment is read from only one direction. Cheaper and faster.
Paired-end: The DNA fragment is read from both ends. Provides better performance in assembly and variant detection.