Genom Anotasyonu Genome Annotation

Genome assembly tamamlandıktan sonra sıradaki adım anotasyondur: genomdaki genlerin, proteinlerin, RNA'ların ve diğer fonksiyonel elementlerin tespit edilmesi ve işlevlerinin belirlenmesidir. Anotasyon olmadan ham DNA dizisi biyolojik anlam taşımaz.

Anotasyon Türleri

  • Yapısal anotasyon: Gen koordinatlarının tespiti (başlangıç/bitiş pozisyonları, intronlar, ekzonlar)
  • Fonksiyonel anotasyon: Genlerin biyolojik işlevlerinin belirlenmesi
  • Komparatif anotasyon: Diğer genomlarla karşılaştırarak yapılan anotasyon

Prokka — Prokaryotik Anotasyon

Prokka, bakteriyel ve arkeyal genomları hızla anotasyon yapabilen açık kaynaklı bir araçtır. Yapısal ve fonksiyonel anotasyonu otomatik olarak gerçekleştirir ve GenBank/EMBL yükleme formatlarını üretir.

conda install -c bioconda prokka

prokka \
    assembly.fasta \
    --outdir prokka_sonuc/ \
    --prefix ornek_ismi \
    --genus Escherichia \
    --species coli \
    --strain K12 \
    --cpus 8 \
    --rfam \
    --kingdom Bacteria

Prokka Çıktıları

  • .gff — Gene Feature Format (anotasyon koordinatları)
  • .gbk — GenBank formatı (NCBI yükleme için)
  • .faa — Protein dizileri (FASTA)
  • .ffn — Nükleotid gen dizileri (FASTA)
  • .tsv — Tablo formatında özet
  • .txt — İstatistik özeti

RAST — Sunucu Tabanlı Anotasyon

RAST (Rapid Annotation using Subsystem Technology), SEED veritabanını kullanan çevrimiçi bir prokaryotik anotasyon sunucusudur. Özellikle metabolik yol anotasyonları için güçlüdür.

  • Web arayüzü: rast.nmpdr.org
  • Bakteri ve arke genomları için idealdir
  • Subsistem tabanlı fonksiyonel anotasyon sağlar

NCBI PGAP — Resmi Anotasyon Boru Hattı

NCBI Prokaryotic Genome Annotation Pipeline (PGAP), NCBI GenBank'a gönderilecek genomlar için resmi anotasyon aracıdır. Protein kodlayan genlerin, rRNA'ların, tRNA'ların ve CRISPR dizilerinin anotasyonunu yapar.

# PGAP kurulumu (Docker gerektirir)
conda install -c bioconda pgap-input-validation

# Alternatif: komut satırı aracı
pgap.py --genome assembly.fasta --taxon 562

Fonksiyonel Anotasyon Araçları

eggNOG-mapper — Ortolog Eşleştirme

Protein dizilerini eggNOG veritabanıyla eşleştirerek COG, KEGG, GO ve diğer fonksiyonel kategorileri atar.

conda install -c bioconda eggnog-mapper

emapper.py \
    -i proteomlar.faa \
    -o eggnog_sonuc \
    --cpu 8 \
    --database bacteria

InterProScan — Protein Domain Anotasyonu

Protein dizilerini Pfam, TIGRFAM, SUPERFAMILY ve diğer veritabanlarına karşı tarar.

interproscan.sh \
    -i proteomlar.faa \
    -f tsv,gff3 \
    -o interpro_sonuc \
    --cpu 8

AMRFinder — Antimikrobiyal Direnç Genleri

conda install -c bioconda ncbi-amrfinderplus

amrfinder \
    -p proteomlar.faa \
    --organism Escherichia \
    -o amr_sonuclar.tsv

PHASTER — Faj Anotasyonu

PHASTER (PHAge Search Tool Enhanced Release), bakteriyel genomlardaki profaj ve faj dizilerini tanımlamak için kullanılan web tabanlı bir araçtır. Faj genomistleri için vazgeçilmezdir.

  • Web arayüzü: phaster.ca
  • Komple ve yarım faj elementlerini tanımlar
  • Faj protein ailelerini sınıflandırır

Karşılaştırmalı Genomik

Roary — Pan-Genom Analizi

Roary, birden fazla prokaryotik genomunun pan-genomunu (core + accessory genler) hızla hesaplar.

conda install -c bioconda roary

# GFF dosyalarıyla çalışır (Prokka çıktısı)
roary -p 8 -f roary_sonuc/ -e -n *.gff

# Core genome filogenetik ağacı
FastTree -gtr -nt roary_sonuc/core_gene_alignment.aln > core.tree

OrthoFinder — Ortolog Gruplama

conda install -c bioconda orthofinder

orthofinder -f proteomlar_klasoru/ -t 8

After genome assembly is complete, the next step is annotation: identifying the genes, proteins, RNAs, and other functional elements in the genome, and determining their functions. Without annotation, a raw DNA sequence carries no biological meaning.

Types of Annotation

  • Structural annotation: Detection of gene coordinates (start/end positions, introns, exons)
  • Functional annotation: Determining the biological functions of genes
  • Comparative annotation: Annotation performed by comparison with other genomes

Prokka — Prokaryotic Annotation

Prokka is an open-source tool that can rapidly annotate bacterial and archaeal genomes. It automatically performs structural and functional annotation and produces GenBank/EMBL upload formats.

conda install -c bioconda prokka

prokka \
    assembly.fasta \
    --outdir prokka_output/ \
    --prefix sample_name \
    --genus Escherichia \
    --species coli \
    --strain K12 \
    --cpus 8 \
    --rfam \
    --kingdom Bacteria

Prokka Outputs

  • .gff — Gene Feature Format (annotation coordinates)
  • .gbk — GenBank format (for NCBI submission)
  • .faa — Protein sequences (FASTA)
  • .ffn — Nucleotide gene sequences (FASTA)
  • .tsv — Summary in table format
  • .txt — Statistics summary

RAST — Server-Based Annotation

RAST (Rapid Annotation using Subsystem Technology) is an online prokaryotic annotation server that uses the SEED database. It is particularly powerful for metabolic pathway annotations.

  • Web interface: rast.nmpdr.org
  • Ideal for bacterial and archaeal genomes
  • Provides subsystem-based functional annotation

NCBI PGAP — Official Annotation Pipeline

The NCBI Prokaryotic Genome Annotation Pipeline (PGAP) is the official annotation tool for genomes to be submitted to NCBI GenBank. It annotates protein-coding genes, rRNAs, tRNAs, and CRISPR sequences.

# PGAP installation (requires Docker)
conda install -c bioconda pgap-input-validation

# Alternative: command-line tool
pgap.py --genome assembly.fasta --taxon 562

Functional Annotation Tools

eggNOG-mapper — Ortholog Mapping

Maps protein sequences against the eggNOG database to assign COG, KEGG, GO, and other functional categories.

conda install -c bioconda eggnog-mapper

emapper.py \
    -i proteome.faa \
    -o eggnog_output \
    --cpu 8 \
    --database bacteria

InterProScan — Protein Domain Annotation

Scans protein sequences against Pfam, TIGRFAM, SUPERFAMILY, and other databases.

interproscan.sh \
    -i proteome.faa \
    -f tsv,gff3 \
    -o interpro_output \
    --cpu 8

AMRFinder — Antimicrobial Resistance Genes

conda install -c bioconda ncbi-amrfinderplus

amrfinder \
    -p proteome.faa \
    --organism Escherichia \
    -o amr_results.tsv

PHASTER — Phage Annotation

PHASTER (PHAge Search Tool Enhanced Release) is a web-based tool for identifying prophage and phage sequences in bacterial genomes. It is indispensable for phage genomicists.

  • Web interface: phaster.ca
  • Identifies complete and incomplete phage elements
  • Classifies phage protein families

Comparative Genomics

Roary — Pan-Genome Analysis

Roary rapidly calculates the pan-genome (core + accessory genes) of multiple prokaryotic genomes.

conda install -c bioconda roary

# Works with GFF files (Prokka output)
roary -p 8 -f roary_output/ -e -n *.gff

# Core genome phylogenetic tree
FastTree -gtr -nt roary_output/core_gene_alignment.aln > core.tree

OrthoFinder — Ortholog Grouping

conda install -c bioconda orthofinder

orthofinder -f proteomes_folder/ -t 8