Mikrobiyal Biyoinformatiğe Giriş

Biyoinformatik, yeni gelişen bir disiplin olup matematik, bilgi teknolojileri ve biyoloji aracılığıyla ortaya çıkan problemlere çözüm sunmak amacıyla bilgisayar kaynaklı araçların kullanılması ve analiz edilmesine dayanan bir bilim dalıdır. Biyoinformatik, bu amaçla çeşitli yazılımsal araçlardan, internetten ve veritabanlarından yararlanmaktadır.

Biyoinformatik çalışmalarının asıl kökeni DNA dizilenmesinden öncesine dayanmaktadır. Yapılan ilk çalışma olan protein yapısının 3 boyutlu (3D) modellemesi, biyoinformatiğin atası sayılan Margaret O. Dayhoff tarafından gerçekleştirilmiştir. Dayhoff sonrasında X-ray kristallografi ve dizileme çalışmaları sonucu elde ettiği verilerin de dâhil olduğu bir kitap yayınlamıştır. Dayhoff’un yaptığı çalışmalar sonrasında aminoasitlerin adlandırılma şekilleri belirlenmiş olup bu isimlendirme ve sınıflandırma halen kullanılmaktadır.

Biyoinformatik, kullanım açısından bilim insanları tarafından çeşitli tanımlarla anılmaktadır. Higgs ve Attwood biyoinformatiği iki şekilde tanımlamışır. Bunlar; (i) Biyolojik yapıların, fonkisyonların, genlerin evriminin, proteinlerin ve tüm genomların araştırılması için bilgisayar tabanlı metotların geliştirilmesi; (ii) Biyoinformatik, yüksek verimli deneylerin ve genomik çalışmalardan elde edilen biyolojik bilgilerin analizi ve yönetimi için metod geliştirilmesidir. Bu kapsamda biyoinformatik aslında bilgisayar tabanlı biyoloji çatısı altında bulunan bir alt bilim olarak öne çıkmaktadır.

Multidisipliner bakış açısından değerlendirildiğinde biyoinformatik, hücre ve sentral dogma, organizma ve hayat ağacı olarak sınıflandırılmaktadır. Bunun dışında yazılımsal anlamda değerlendirildiğinde biyoinformatik analizin aşamaları şu şekildedir; Verilerin organize edilmesi, veri analizinin yapılmasına olanak sağlayacak araçların geliştirilmesi ve bu analiz yöntemleri kullanılarak verilerin analiz edilmesi ve bilimsel bir çerçevede yorumlanması şeklindedir.

Biyoinformatik verilerin analizi ve düzenlenmesi adına atılan en büyük adım insan genom projesi ile olmuştur. Binlerce bilim insanının katılımı ile gerçekleşen bu proje, 2004 yılında ilk insan genomunun dizilenmesi ile sonuçlanmıştır. Bu proje sayesinde daha hızlı ve uygulanabilir dizileme ve biyoinformatik araçlarına ihtiyaç olduğu, gelecekte de bu ihtiyacın artacağı öngörülmüştür.

Bilgisayar teknolojilerinin gelişmesi ve saklama kapasitesinin artması sonucunda biyolojik verilerin saklanması ve işlenmesi ile ilgili daha güncel çalışmaların yapılmasına yarar sağlamıştır. Yüzlerce mikrobiyal ve ökaryotik genomun dizilenmesi sonucu antimikrobiyal ajanların, protein biyomarkerlarının, bakteriyel hastalıkların, konak-bakteri ilişkilerinin anlaşılması, bakteriyel enfeksiyonların engellenmesi, yeni aşı ve ilaç geliştirilmesine öncü olmuştur.

Mikrobiyolojik perspektiften değerlendirildiğinde biyoinformatik, mikrobiyal genomların dizilenmesi açısından devasa bir ilerleme kaydetmiştir. Mikrobiyal genomların biyoinformatik analizleri için çalışan biyoinformatikçiler küresel işbirliği platformları oluşturarak elde ettikleri verilerin bulunduğu ve bu verilerin açık kaynaklı paylaşılmasına olanak sağlayan veritabanları araçlar oluşturmuşlardır. Bu amaçla mikrobiyologlar bu bilgiler ışığında ortaya çıkan antimikrobiyal direnç, mikrobiyal biyoçeşitlilik, mikrobiyal komünitelerin ve gen inter-aksiyonlarının anlaşılması amacıyla rutin olarak çalışmalar yapmaktadır.

Biyoinformatik analizler, günümüzde genom dizileme ve analizi, otomatize gen identifikasyonu, gen fonksiyonlarının tanımlanması, 3D protein yapı modellemesi, genomların hizalanması ve karşılaştırılması, metabolik yolların tespiti, düzenleyici mekanizmalar ve yolların kökeni, mikrobiyal evrimin yeniden gözden geçirilmesi ve tersine aşı çalışmalarına temel sağlamaktadır.

Biyoinformatik süreçlerinin daha iyi anlaşılabilmesi için moleküler biyolojinin temel taşlarından biri olan “Central Dogma”’yı anlamak gerekmektedir. Dizileme analizleri sonucu elde edilen genomik DNA’nın mRNA’ya dönüştürülmesi (Transkripsiyon) ve mRNA’nın protein sentezine öncü olması (Translasyon) önem arz etmektedir. Günümüzde dizileme teknolojileri bu temel üzerinden yola çıkarak yeni ve güncel mekanizmalar üretmektedir. Moleküler biyolojinin temel taşlarından biridir. Bunun yanında proteinlerin de 3 boyutlu yapıları biyoinformatik araçlar kullanılarak incelenebilmektedir. Proteinler, 20 farklı aminoasit varyasyonu sonucu oluşan makromoleküllerdir. Proteinler primer, sekonder, tersiyer ve quaterner yapılar oluştururlar. Primer yapısı aminoasit dizisi olan proteinler katlanarak değişik üç boyutlu yapıları oluşturmaktadırlar. Bu 3 boyutu yapıların fonksiyonel analizlerinin yapılabilmesi için birincil yapının çözümlenmesi gerekmektedir.

Mikrobiyal biyoinformatik çalışmalarında milyonlarca bakteriyel mikroorganizmadan dizi verisi elde edilmektedir. Bu normalde insan genom çalışmalarında elde edilen verilerden kat ve kat büyüktür. Elde edilen büyüklüğü mikrobiyal biyoinformatik çalışmalarında veri analizini bir problem olarak karşımıza getirmektedir. Bunun yanı sıra biyoinformatik çalışmaları genellikle Linux tabanlı işletim sistemlerine ait komut satırları üzerinden yürüdüğü için çeşitli yazılım dillerine de hâkim olmak gerekmektedir. Bu sistemler kullanılarak geliştirilen yazılımlar her ne kadar açık kaynak kodlu olsa da, python, R, Bash ve SQL gibi programlama dillerinin bilinmesi mikrobiyal biyoinformatik alanında araştırmacılara çok büyük yarar sağlamaktadır.

Genom dizileme, nükleik asit dizileme teknolojileri kullanılararak bir organizmaya ait nükleotid dizileri ve buna bağlı protein dizilerinin ortaya konmasıdır. İnsan genomu projesi ile büyük bir ivme yakalayan dizileme çalışmaları, günümüzde birçok organizmanın nükelotid dizisinin belirlenmesi amacıyla kullanılmaktadır. Önceleri kullanılan teknolojiler belirli bir bölgeyi dizileyebilirken günümüzde bir organizmaya ait tüm gen dizisi yeni nesil dizileme teknolojileri kullanılarak yapılabilmektedir. Bu yöntem nükleik asit dizileme teknolojilerinde çok hızlı bir ilerleme kaydedilmesine olanak sağlamıştır.

Genetik materyal ve içerisinde bulunan nükleotid dizilerinin ortaya konması, hem bu dizilerin anlamlandırılması hem de ortaya çıkabilecek protein varyasyonlarının da anlaşılmasını sağlamaktadır. Bu amaçla ortaya çıkan ilk dizileme teknolojisi, 1975’de Sanger ve Coulson tarafından geliştirilen DNA polimerazın zincir inhibitörleri kullanılarak yapılan ve bu araştırmacıların Nobel almasını sağlayan “Sanger” yöntemidir. Sonrasında ortaya çıkan, “devasa paralel” ya da NGS olarak adlandırılan yeni teknoloji, Sanger teknolojisinden farklı olarak hem enzimatik hem de veri okuma adımlarını aynı anda gerçekleştirmektedir. Rutin bir NGS akış şemasında bu reaksiyonlar adım adım ve aynı anda senkronize bir şekilde gerçekleşmektedir. Bu da NGS çalışmalarında belirli bir kalıp nükleik asit havuzundan milyonlarca kopyanın gerçek zamanlı çoğaltılması anlamına gelmektedir. Sonuç olarak ortaya çıkan veri miktarı Sanger dizileme yöntemine göre düşünüldüğünde devasa (Organizmaya ve örnek sayısına göre değişen ölçeklerde ortalama 4-100 Gigabaz) miktarlarda olmaktadır. Elde edilen bu büyük verinin analizi, çözülmesi gereken başka bir sorun ortaya koymuştur. Bu kadar kapsamlı ve biyolojik bir ham dizileme verisinin işlenmesi için gelişmiş bilgisayarlara ve yazılımlara ihtiyaç duyulmuştur.