Biyoinformatik Veritabanları Bioinformatics Databases
Uygulamalı biyoinformatiğin temeli, dizileme sonucu elde edilen biyolojik verilerin saklanmasıdır. Uzun laboratuvar süreçleri sonucunda elde edilen büyük ölçekli dizileme verisinin uygun koşullarda saklanması ve herkesin ulaşabileceği, mümkünse web tabanlı veritabanlarında tutulması gerekmektedir.
Veritabanları, veri niteliğine ve kullanım amaçlarına göre dört ana gruba ayrılmaktadır:
- Primer Veritabanları
- Sekonder Veritabanları
- Fenotip Veritabanları
- Moleküler Yapı Veritabanları
1. Primer Veritabanları
Primer veritabanları, dizileme çalışmalarından doğrudan elde edilen ham nükleotid veya protein dizisi verilerini, anotasyon bilgilerini, bibliyografik verileri ve diğer referans veritabanları ile bağlantıları içermektedir.
Nükleotid Veritabanları
- NCBI GenBank: Dünya genelindeki tüm nükleotid dizi verilerini barındıran kapsamlı veritabanı. ncbi.nlm.nih.gov/genbank
- EMBL-EBI ENA (European Nucleotide Archive): Avrupa merkezli nükleotid arşivi. ebi.ac.uk/ena
- DDBJ (DNA Data Bank of Japan): Japonya merkezli nükleotid veritabanı. ddbj.nig.ac.jp
Bu üç veritabanı, INSDC (International Nucleotide Sequence Database Collaboration) çatısı altında verilerini karşılıklı olarak senkronize eder; bir veritabanına yüklenen veri otomatik olarak diğerlerine de aktarılır.
Protein Veritabanları
- UniProt/Swiss-Prot: Manuel kürasyon yapılmış, yüksek kaliteli protein dizisi veritabanı.
- UniProt/TrEMBL: Otomatik olarak anotasyonu yapılmış protein dizileri.
- NCBI RefSeq: Referans dizileri içeren, kürasyon yapılmış protein veritabanı.
2. Sekonder Veritabanları
Sekonder veritabanları, primer protein dizisi verilerinin analizi sonucunda elde edilen türetilmiş bilgileri içerir. Protein dizilerindeki korunmuş bölgeler, motifler ve protein aileleri bu veritabanlarında sınıflandırılır.
- Pfam: Protein ailelerini ve etki alanlarını içeren veritabanı (El-Gebali ve ark., 2019). pfam.xfam.org
- InterPro: Birden fazla sekonder veritabanını entegre eden meta-veritabanı (Blum ve ark., 2020). ebi.ac.uk/interpro
- PROSITE: Protein motiflerini ve desenleri içeren veritabanı (Hulo ve ark., 2006).
- PRINTS: Protein parmak izi veritabanı (Attwood ve ark., 1994).
- TIGRFAM: Protein aileleri için HMM profilleri içeren veritabanı.
3. Fenotip Veritabanları
Fenotip veritabanları, organizmaların gözlemlenebilir özelliklerini (fenotip) genetik verileriyle ilişkilendiren kaynaklardır.
- OMIM (Online Mendelian Inheritance in Man): İnsan genetik hastalıkları ve fenotiplerini içerir.
- MeSH (Medical Subject Headings): Medikal terminoloji ve fenotip sınıflandırması.
- PATRIC: Bakteriyel fenotip ve genomik verileri bir araya getiren platform.
4. Moleküler Yapı Veritabanları
Proteinlerin, nükleik asitlerin ve diğer biyomoleküllerin üç boyutlu yapılarını içeren veritabanlarıdır.
- PDB (Protein Data Bank): Dünya genelinde X-ray kristallografi, NMR ve cryo-EM ile belirlenen 3D protein yapılarını barındıran temel veritabanı. rcsb.org
- AlphaFold Protein Structure Database: DeepMind tarafından geliştirilen yapay zeka tabanlı protein yapısı tahmin veritabanı. alphafold.ebi.ac.uk
NCBI Araçları
NCBI (National Center for Biotechnology Information), biyoinformatik araştırmacıların en sık kullandığı merkezi platform olup birden fazla araç ve veritabanı barındırmaktadır:
- BLAST (Basic Local Alignment Search Tool): Dizi benzerliği aramak için kullanılan temel araç.
- Entrez: NCBI veritabanlarını birbirine bağlayan arama motoru.
- SRA (Sequence Read Archive): Ham NGS okumaları arşivi.
- RefSeq: Referans dizi veritabanı.
- Taxonomy: Organizmaların taksonomik sınıflandırma veritabanı.
Özel Mikrobiyoloji Veritabanları
- CARD (Comprehensive Antibiotic Resistance Database): Antimikrobiyal direnç genlerini içerir. card.mcmaster.ca
- VFDB (Virulence Factor Database): Bakteri virülans faktörlerini içerir.
- PHASTER: Faj dizisi ve anotasyon veritabanı.
- ICTV (International Committee on Taxonomy of Viruses): Resmi virüs taksonomi veritabanı.
- IMG/M: JGI metagenomik veri platformu.
The foundation of applied bioinformatics is the storage of biological data obtained from sequencing. Large-scale sequencing data obtained from lengthy laboratory processes must be stored under appropriate conditions and kept in databases — preferably web-based — that are accessible to everyone.
Databases are divided into four main groups according to data type and intended use:
- Primary Databases
- Secondary Databases
- Phenotype Databases
- Molecular Structure Databases
1. Primary Databases
Primary databases contain raw nucleotide or protein sequence data obtained directly from sequencing studies, along with annotation information, bibliographic data, and links to other reference databases.
Nucleotide Databases
- NCBI GenBank: A comprehensive database housing all nucleotide sequence data worldwide. ncbi.nlm.nih.gov/genbank
- EMBL-EBI ENA (European Nucleotide Archive): Europe-based nucleotide archive. ebi.ac.uk/ena
- DDBJ (DNA Data Bank of Japan): Japan-based nucleotide database. ddbj.nig.ac.jp
These three databases synchronize their data under the INSDC (International Nucleotide Sequence Database Collaboration); data uploaded to one database is automatically transferred to the others.
Protein Databases
- UniProt/Swiss-Prot: Manually curated, high-quality protein sequence database.
- UniProt/TrEMBL: Automatically annotated protein sequences.
- NCBI RefSeq: Curated protein database containing reference sequences.
2. Secondary Databases
Secondary databases contain derived information obtained from analysis of primary protein sequence data. Conserved regions, motifs, and protein families in protein sequences are classified in these databases.
- Pfam: Database of protein families and domains (El-Gebali et al., 2019). pfam.xfam.org
- InterPro: A meta-database integrating multiple secondary databases (Blum et al., 2020). ebi.ac.uk/interpro
- PROSITE: Database of protein motifs and patterns (Hulo et al., 2006).
- PRINTS: Protein fingerprint database (Attwood et al., 1994).
- TIGRFAM: Database containing HMM profiles for protein families.
3. Phenotype Databases
Phenotype databases associate the observable characteristics (phenotype) of organisms with their genetic data.
- OMIM (Online Mendelian Inheritance in Man): Contains human genetic diseases and phenotypes.
- MeSH (Medical Subject Headings): Medical terminology and phenotype classification.
- PATRIC: Platform combining bacterial phenotype and genomic data.
4. Molecular Structure Databases
These databases contain three-dimensional structures of proteins, nucleic acids, and other biomolecules.
- PDB (Protein Data Bank): The primary database housing 3D protein structures determined worldwide by X-ray crystallography, NMR, and cryo-EM. rcsb.org
- AlphaFold Protein Structure Database: AI-based protein structure prediction database developed by DeepMind. alphafold.ebi.ac.uk
NCBI Tools
NCBI (National Center for Biotechnology Information) is the central platform most frequently used by bioinformatics researchers, hosting multiple tools and databases:
- BLAST (Basic Local Alignment Search Tool): The primary tool for searching sequence similarity.
- Entrez: The search engine connecting NCBI databases to each other.
- SRA (Sequence Read Archive): Archive for raw NGS reads.
- RefSeq: Reference sequence database.
- Taxonomy: Taxonomic classification database for organisms.
Specialized Microbiology Databases
- CARD (Comprehensive Antibiotic Resistance Database): Contains antimicrobial resistance genes. card.mcmaster.ca
- VFDB (Virulence Factor Database): Contains bacterial virulence factors.
- PHASTER: Phage sequence and annotation database.
- ICTV (International Committee on Taxonomy of Viruses): Official virus taxonomy database.
- IMG/M: JGI metagenomic data platform.