Mikrobiyal Biyoinformatiğe Giriş Introduction to Microbial Bioinformatics

Biyoinformatik, yeni gelişen bir disiplin olup matematik, bilgi teknolojileri ve biyoloji aracılığıyla ortaya çıkan problemlere çözüm sunmak amacıyla bilgisayar kaynaklı araçların kullanılması ve analiz edilmesine dayanan bir bilim dalıdır. Biyoinformatik, bu amaçla çeşitli yazılımsal araçlardan, internetten ve veritabanlarından yararlanmaktadır.

Biyoinformatik çalışmalarının asıl kökeni DNA dizilenmesinden öncesine dayanmaktadır. Yapılan ilk çalışma olan protein yapısının 3 boyutlu (3D) modellemesi, biyoinformatiğin atası sayılan Margaret O. Dayhoff tarafından gerçekleştirilmiştir. Dayhoff sonrasında X-ray kristallografi ve dizileme çalışmaları sonucu elde ettiği verilerin de dahil olduğu bir kitap yayınlamıştır. Dayhoff'un yaptığı çalışmalar sonrasında aminoasitlerin adlandırılma şekilleri belirlenmiş olup bu isimlendirme ve sınıflandırma halen kullanılmaktadır.

Biyoinformatik, kullanım açısından bilim insanları tarafından çeşitli tanımlarla anılmaktadır. Higgs ve Attwood biyoinformatiği iki şekilde tanımlamıştır: (i) Biyolojik yapıların, fonksiyonların, genlerin evriminin, proteinlerin ve tüm genomların araştırılması için bilgisayar tabanlı metotların geliştirilmesi; (ii) Yüksek verimli deneylerin ve genomik çalışmalardan elde edilen biyolojik bilgilerin analizi ve yönetimi için metod geliştirilmesidir.

Multidisipliner bakış açısından değerlendirildiğinde biyoinformatik, hücre ve sentral dogma, organizma ve hayat ağacı olarak sınıflandırılmaktadır. Yazılımsal anlamda değerlendirildiğinde biyoinformatik analizin aşamaları şunlardır: verilerin organize edilmesi, veri analizinin yapılmasına olanak sağlayacak araçların geliştirilmesi ve bu analiz yöntemleri kullanılarak verilerin analiz edilip bilimsel bir çerçevede yorumlanması.

Biyoinformatik verilerin analizi ve düzenlenmesi adına atılan en büyük adım insan genom projesi ile olmuştur. Binlerce bilim insanının katılımı ile gerçekleşen bu proje, 2004 yılında ilk insan genomunun dizilenmesi ile sonuçlanmıştır. Bu proje sayesinde daha hızlı ve uygulanabilir dizileme ve biyoinformatik araçlarına ihtiyaç olduğu, gelecekte de bu ihtiyacın artacağı öngörülmüştür.

Bilgisayar teknolojilerinin gelişmesi ve saklama kapasitesinin artması sonucunda biyolojik verilerin saklanması ve işlenmesi ile ilgili daha güncel çalışmaların yapılmasına yarar sağlamıştır. Yüzlerce mikrobiyal ve ökaryotik genomun dizilenmesi sonucu antimikrobiyal ajanların, protein biyomarkerlarının, bakteriyel hastalıkların, konak-bakteri ilişkilerinin anlaşılması, bakteriyel enfeksiyonların engellenmesi, yeni aşı ve ilaç geliştirilmesine öncü olmuştur.

Mikrobiyolojik perspektiften değerlendirildiğinde biyoinformatik, mikrobiyal genomların dizilenmesi açısından devasa bir ilerleme kaydetmiştir. Mikrobiyal genomların biyoinformatik analizleri için çalışan biyoinformatikçiler küresel işbirliği platformları oluşturarak elde ettikleri verilerin bulunduğu ve bu verilerin açık kaynaklı paylaşılmasına olanak sağlayan veritabanları araçlar oluşturmuşlardır.

Biyoinformatik analizler, günümüzde genom dizileme ve analizi, otomatize gen identifikasyonu, gen fonksiyonlarının tanımlanması, 3D protein yapı modellemesi, genomların hizalanması ve karşılaştırılması, metabolik yolların tespiti, düzenleyici mekanizmalar ve yolların kökeni, mikrobiyal evrimin yeniden gözden geçirilmesi ve tersine aşı çalışmalarına temel sağlamaktadır.

Biyoinformatik süreçlerinin daha iyi anlaşılabilmesi için moleküler biyolojinin temel taşlarından biri olan "Central Dogma"'yı anlamak gerekmektedir. Dizileme analizleri sonucu elde edilen genomik DNA'nın mRNA'ya dönüştürülmesi (Transkripsiyon) ve mRNA'nın protein sentezine öncü olması (Translasyon) önem arz etmektedir.

Mikrobiyal biyoinformatik çalışmalarında milyonlarca bakteriyel mikroorganizmadan dizi verisi elde edilmektedir. Bu normalde insan genom çalışmalarında elde edilen verilerden kat ve kat büyüktür. Bunun yanı sıra biyoinformatik çalışmaları genellikle Linux tabanlı işletim sistemlerine ait komut satırları üzerinden yürüdüğü için python, R, Bash ve SQL gibi programlama dillerine hakim olmak büyük avantaj sağlamaktadır.

Genom dizileme, nükleik asit dizileme teknolojileri kullanılarak bir organizmaya ait nükleotid dizileri ve buna bağlı protein dizilerinin ortaya konmasıdır. Önceleri kullanılan teknolojiler belirli bir bölgeyi dizileyebilirken günümüzde bir organizmaya ait tüm gen dizisi yeni nesil dizileme teknolojileri (NGS) kullanılarak yapılabilmektedir.

Genetik materyal ve içerisinde bulunan nükleotid dizilerinin ortaya konması, hem bu dizilerin anlamlandırılması hem de ortaya çıkabilecek protein varyasyonlarının da anlaşılmasını sağlamaktadır. Bu amaçla ortaya çıkan ilk dizileme teknolojisi, 1975'de Sanger ve Coulson tarafından geliştirilen "Sanger" yöntemidir. Sonrasında ortaya çıkan NGS teknolojisi, Sanger teknolojisinden farklı olarak hem enzimatik hem de veri okuma adımlarını aynı anda gerçekleştirmektedir.


Temel Kavramlar

Central Dogma (Merkezi Dogma)

Moleküler biyolojinin temel ilkesi olan merkezi dogmaya göre genetik bilgi şu yönde akar: DNA → RNA → Protein. Bu süreç transkripsiyon (DNA'dan RNA sentezi) ve translasyon (RNA'dan protein sentezi) adımlarını kapsar. Genomik dizileme çalışmaları bu temel prensip üzerine inşa edilmiştir.

Nükleotidler ve Kodlar

DNA dört bazdan oluşur: Adenin (A), Timin (T), Guanin (G), Sitozin (C). RNA'da Timin yerine Urasil (U) bulunur. FASTA formatında diziler bu harflerle temsil edilir ve biyoinformatik araçların temel girdi formatını oluşturur.

Biyoinformatik Veri Formatları

  • FASTA: Dizi verilerinin depolanması için kullanılan temel format.
  • FASTQ: NGS okumalarını kalite skorlarıyla birlikte depolayan format.
  • SAM/BAM: Hizalanmış okumaları depolayan format.
  • GFF/GTF: Gen anotasyon bilgilerini depolayan format.
  • VCF: Varyant çağırma dosyaları için kullanılan format.

Bioinformatics is an emerging discipline that applies computer-based tools and analysis to solve problems arising at the intersection of mathematics, information technology, and biology. Bioinformatics makes use of various software tools, the internet, and databases for this purpose.

The origins of bioinformatics predate DNA sequencing. The first landmark work, 3D modeling of protein structures, was carried out by Margaret O. Dayhoff, considered the pioneer of bioinformatics. Dayhoff subsequently published a book incorporating data from X-ray crystallography and sequencing studies. Her work established the nomenclature for amino acids still used today.

Bioinformatics is defined in various ways by scientists. Higgs and Attwood defined it in two ways: (i) the development of computer-based methods for investigating biological structures, functions, gene evolution, proteins, and entire genomes; and (ii) the development of methods for the analysis and management of biological information obtained from high-throughput experiments and genomic studies.

From a multidisciplinary perspective, bioinformatics is classified around the cell and central dogma, and the organism and tree of life. In software terms, the stages of bioinformatic analysis are: organizing data, developing tools to enable data analysis, and analyzing and interpreting the data within a scientific framework using these methods.

The biggest milestone in bioinformatic data analysis was the Human Genome Project. Completed in 2004 with the sequencing of the first human genome, this project — involving thousands of scientists — demonstrated the need for faster, more applicable sequencing and bioinformatic tools, a need that has only grown since.

Advances in computer technology and increases in storage capacity have enabled more current research on the storage and processing of biological data. The sequencing of hundreds of microbial and eukaryotic genomes has pioneered the understanding of antimicrobial agents, protein biomarkers, bacterial diseases, host–bacterium interactions, the prevention of bacterial infections, and the development of new vaccines and drugs.

From a microbiological perspective, bioinformatics has made enormous strides in the sequencing of microbial genomes. Bioinformaticians working on the bioinformatic analysis of microbial genomes have created global collaboration platforms and databases that enable open-source sharing of the data they obtain.

Bioinformatic analyses today underpin genome sequencing and analysis, automated gene identification, definition of gene functions, 3D protein structure modeling, genome alignment and comparison, detection of metabolic pathways, regulatory mechanisms, re-examination of microbial evolution, and reverse vaccinology.

To better understand bioinformatic processes, one must understand the "Central Dogma" of molecular biology. The conversion of genomic DNA into mRNA (Transcription) and the role of mRNA in protein synthesis (Translation), obtained through sequencing analyses, are of paramount importance.

In microbial bioinformatics studies, sequence data is obtained from millions of bacterial microorganisms — far larger in scale than data from human genome studies. Moreover, since bioinformatics work generally runs through command lines on Linux-based operating systems, proficiency in programming languages such as Python, R, Bash, and SQL provides a significant advantage.

Genome sequencing is the determination of the nucleotide sequences and related protein sequences of an organism using nucleic acid sequencing technologies. While early technologies could sequence only specific regions, today the entire gene sequence of an organism can be sequenced using next-generation sequencing (NGS) technologies.

Determining the genetic material and the nucleotide sequences it contains allows both making sense of these sequences and understanding possible protein variations. The first sequencing technology developed for this purpose was the "Sanger" method, developed by Sanger and Coulson in 1975. The NGS technology that followed differs from Sanger in that it performs both the enzymatic and data-reading steps simultaneously.


Key Concepts

The Central Dogma

According to the central dogma of molecular biology, genetic information flows as follows: DNA → RNA → Protein. This process encompasses transcription (RNA synthesis from DNA) and translation (protein synthesis from RNA). Genomic sequencing studies are built upon this fundamental principle.

Nucleotides and Codes

DNA is composed of four bases: Adenine (A), Thymine (T), Guanine (G), and Cytosine (C). In RNA, Thymine is replaced by Uracil (U). In FASTA format, sequences are represented by these letters and form the primary input format for bioinformatics tools.

Bioinformatics Data Formats

  • FASTA: The basic format used for storing sequence data.
  • FASTQ: Format storing NGS reads together with quality scores.
  • SAM/BAM: Format for storing aligned reads.
  • GFF/GTF: Format for storing gene annotation information.
  • VCF: Format used for variant calling files.