Genom Anotasyonu Genome Annotation
Genome assembly tamamlandıktan sonra sıradaki adım anotasyondur: genomdaki genlerin, proteinlerin, RNA'ların ve diğer fonksiyonel elementlerin tespit edilmesi ve işlevlerinin belirlenmesidir. Anotasyon olmadan ham DNA dizisi biyolojik anlam taşımaz.
Anotasyon Türleri
- Yapısal anotasyon: Gen koordinatlarının tespiti (başlangıç/bitiş pozisyonları, intronlar, ekzonlar)
- Fonksiyonel anotasyon: Genlerin biyolojik işlevlerinin belirlenmesi
- Komparatif anotasyon: Diğer genomlarla karşılaştırarak yapılan anotasyon
Prokka — Prokaryotik Anotasyon
Prokka, bakteriyel ve arkeyal genomları hızla anotasyon yapabilen açık kaynaklı bir araçtır. Yapısal ve fonksiyonel anotasyonu otomatik olarak gerçekleştirir ve GenBank/EMBL yükleme formatlarını üretir.
conda install -c bioconda prokka
prokka \
assembly.fasta \
--outdir prokka_sonuc/ \
--prefix ornek_ismi \
--genus Escherichia \
--species coli \
--strain K12 \
--cpus 8 \
--rfam \
--kingdom Bacteria
Prokka Çıktıları
- .gff — Gene Feature Format (anotasyon koordinatları)
- .gbk — GenBank formatı (NCBI yükleme için)
- .faa — Protein dizileri (FASTA)
- .ffn — Nükleotid gen dizileri (FASTA)
- .tsv — Tablo formatında özet
- .txt — İstatistik özeti
RAST — Sunucu Tabanlı Anotasyon
RAST (Rapid Annotation using Subsystem Technology), SEED veritabanını kullanan çevrimiçi bir prokaryotik anotasyon sunucusudur. Özellikle metabolik yol anotasyonları için güçlüdür.
- Web arayüzü: rast.nmpdr.org
- Bakteri ve arke genomları için idealdir
- Subsistem tabanlı fonksiyonel anotasyon sağlar
NCBI PGAP — Resmi Anotasyon Boru Hattı
NCBI Prokaryotic Genome Annotation Pipeline (PGAP), NCBI GenBank'a gönderilecek genomlar için resmi anotasyon aracıdır. Protein kodlayan genlerin, rRNA'ların, tRNA'ların ve CRISPR dizilerinin anotasyonunu yapar.
# PGAP kurulumu (Docker gerektirir)
conda install -c bioconda pgap-input-validation
# Alternatif: komut satırı aracı
pgap.py --genome assembly.fasta --taxon 562
Fonksiyonel Anotasyon Araçları
eggNOG-mapper — Ortolog Eşleştirme
Protein dizilerini eggNOG veritabanıyla eşleştirerek COG, KEGG, GO ve diğer fonksiyonel kategorileri atar.
conda install -c bioconda eggnog-mapper
emapper.py \
-i proteomlar.faa \
-o eggnog_sonuc \
--cpu 8 \
--database bacteria
InterProScan — Protein Domain Anotasyonu
Protein dizilerini Pfam, TIGRFAM, SUPERFAMILY ve diğer veritabanlarına karşı tarar.
interproscan.sh \
-i proteomlar.faa \
-f tsv,gff3 \
-o interpro_sonuc \
--cpu 8
AMRFinder — Antimikrobiyal Direnç Genleri
conda install -c bioconda ncbi-amrfinderplus
amrfinder \
-p proteomlar.faa \
--organism Escherichia \
-o amr_sonuclar.tsv
PHASTER — Faj Anotasyonu
PHASTER (PHAge Search Tool Enhanced Release), bakteriyel genomlardaki profaj ve faj dizilerini tanımlamak için kullanılan web tabanlı bir araçtır. Faj genomistleri için vazgeçilmezdir.
- Web arayüzü: phaster.ca
- Komple ve yarım faj elementlerini tanımlar
- Faj protein ailelerini sınıflandırır
Karşılaştırmalı Genomik
Roary — Pan-Genom Analizi
Roary, birden fazla prokaryotik genomunun pan-genomunu (core + accessory genler) hızla hesaplar.
conda install -c bioconda roary
# GFF dosyalarıyla çalışır (Prokka çıktısı)
roary -p 8 -f roary_sonuc/ -e -n *.gff
# Core genome filogenetik ağacı
FastTree -gtr -nt roary_sonuc/core_gene_alignment.aln > core.tree
OrthoFinder — Ortolog Gruplama
conda install -c bioconda orthofinder
orthofinder -f proteomlar_klasoru/ -t 8
After genome assembly is complete, the next step is annotation: identifying the genes, proteins, RNAs, and other functional elements in the genome, and determining their functions. Without annotation, a raw DNA sequence carries no biological meaning.
Types of Annotation
- Structural annotation: Detection of gene coordinates (start/end positions, introns, exons)
- Functional annotation: Determining the biological functions of genes
- Comparative annotation: Annotation performed by comparison with other genomes
Prokka — Prokaryotic Annotation
Prokka is an open-source tool that can rapidly annotate bacterial and archaeal genomes. It automatically performs structural and functional annotation and produces GenBank/EMBL upload formats.
conda install -c bioconda prokka
prokka \
assembly.fasta \
--outdir prokka_output/ \
--prefix sample_name \
--genus Escherichia \
--species coli \
--strain K12 \
--cpus 8 \
--rfam \
--kingdom Bacteria
Prokka Outputs
- .gff — Gene Feature Format (annotation coordinates)
- .gbk — GenBank format (for NCBI submission)
- .faa — Protein sequences (FASTA)
- .ffn — Nucleotide gene sequences (FASTA)
- .tsv — Summary in table format
- .txt — Statistics summary
RAST — Server-Based Annotation
RAST (Rapid Annotation using Subsystem Technology) is an online prokaryotic annotation server that uses the SEED database. It is particularly powerful for metabolic pathway annotations.
- Web interface: rast.nmpdr.org
- Ideal for bacterial and archaeal genomes
- Provides subsystem-based functional annotation
NCBI PGAP — Official Annotation Pipeline
The NCBI Prokaryotic Genome Annotation Pipeline (PGAP) is the official annotation tool for genomes to be submitted to NCBI GenBank. It annotates protein-coding genes, rRNAs, tRNAs, and CRISPR sequences.
# PGAP installation (requires Docker)
conda install -c bioconda pgap-input-validation
# Alternative: command-line tool
pgap.py --genome assembly.fasta --taxon 562
Functional Annotation Tools
eggNOG-mapper — Ortholog Mapping
Maps protein sequences against the eggNOG database to assign COG, KEGG, GO, and other functional categories.
conda install -c bioconda eggnog-mapper
emapper.py \
-i proteome.faa \
-o eggnog_output \
--cpu 8 \
--database bacteria
InterProScan — Protein Domain Annotation
Scans protein sequences against Pfam, TIGRFAM, SUPERFAMILY, and other databases.
interproscan.sh \
-i proteome.faa \
-f tsv,gff3 \
-o interpro_output \
--cpu 8
AMRFinder — Antimicrobial Resistance Genes
conda install -c bioconda ncbi-amrfinderplus
amrfinder \
-p proteome.faa \
--organism Escherichia \
-o amr_results.tsv
PHASTER — Phage Annotation
PHASTER (PHAge Search Tool Enhanced Release) is a web-based tool for identifying prophage and phage sequences in bacterial genomes. It is indispensable for phage genomicists.
- Web interface: phaster.ca
- Identifies complete and incomplete phage elements
- Classifies phage protein families
Comparative Genomics
Roary — Pan-Genome Analysis
Roary rapidly calculates the pan-genome (core + accessory genes) of multiple prokaryotic genomes.
conda install -c bioconda roary
# Works with GFF files (Prokka output)
roary -p 8 -f roary_output/ -e -n *.gff
# Core genome phylogenetic tree
FastTree -gtr -nt roary_output/core_gene_alignment.aln > core.tree
OrthoFinder — Ortholog Grouping
conda install -c bioconda orthofinder
orthofinder -f proteomes_folder/ -t 8