Bioinformatika (bahasa Inggris: bioinformatics)
adalah (ilmu yang mempelajari)
penerapan teknikkomputasional untuk
mengelola dan menganalisis informasi biologis. Bidang ini
mencakup penerapan metode-metode matematika, statistika, dan informatika untuk
memecahkan masalah-masalah biologis, terutama dengan menggunakan sekuens DNA dan asam amino serta
informasi yang berkaitan dengannya. Contoh topik utama bidang ini
meliputi basis data untuk
mengelola informasi biologis, penyejajaran sekuens (sequence alignment),
prediksi struktur untuk meramalkan bentuk struktur proteinmaupun struktur
sekunder RNA, analisis filogenetik, dan analisis
ekspresi gen.
Sejarah
Istilah bioinformatics mulai
dikemukakan pada pertengahan era 1980-an untuk mengacu
pada penerapan komputer dalam
biologi. Namun, penerapan bidang-bidang dalam bioinformatika (seperti pembuatan
basis data dan pengembangan algoritma untuk
analisis sekuens biologis) sudah dilakukan sejak
tahun 1960-an.
Kemajuan
teknik biologi
molekular dalam mengungkap sekuens biologis dari protein (sejak
awal 1950-an) dan asam nukleat (sejak
1960-an) mengawali perkembangan basis data dan teknik analisis sekuens
biologis. Basis data sekuens protein mulai dikembangkan pada tahun 1960-an
di Amerika
Serikat, sementara basis data sekuens DNA dikembangkan pada akhir
1970-an di Amerika Serikat dan Jerman (pada European
Molecular Biology Laboratory, Laboratorium Biologi Molekular Eropa). Penemuan tekniksekuensing DNA yang
lebih cepat pada pertengahan 1970-an menjadi landasan terjadinya ledakan jumlah
sekuens DNA yang berhasil diungkapkan pada 1980-an dan 1990-an, menjadi salah satu
pembuka jalan bagi proyek-proyek pengungkapan genom, meningkatkan kebutuhan akan pengelolaan
dan analisis sekuens, dan pada akhirnya menyebabkan lahirnya bioinformatika.
Perkembangan Internet juga
mendukung berkembangnya bioinformatika. Basis data bioinformatika yang
terhubung melalui Internet memudahkan ilmuwan mengumpulkan hasil sekuensing ke
dalam basis data tersebut maupun memperoleh sekuens biologis sebagai bahan
analisis. Selain itu, penyebaran program-program aplikasi
bioinformatika melalui Internet memudahkan ilmuwan mengakses program-program
tersebut dan kemudian memudahkan pengembangannya.
Penerapan utama bioinformatika
Basis data sekuens biologis
Sesuai dengan
jenis informasi biologis yang disimpannya, basis data sekuens
biologis dapat berupa basis data primer untuk menyimpan sekuens primer asam nukleat maupunprotein, basis data
sekunder untuk menyimpan motif sekuens protein, dan basis data struktur untuk
menyimpan data struktur protein maupun asam nukleat.
Basis data
utama untuk sekuens asam nukleat saat ini adalah GenBank (Amerika Serikat), EMBL (Eropa),
dan DDBJ(Inggris) (DNA Data Bank of
Japan, Jepang). Ketiga basis data
tersebut bekerja sama dan bertukar data secara harian untuk menjaga keluasan
cakupan masing-masing basis data. Sumber utama data sekuens asam nukleat adalah
submisi langsung dari periset individual, proyek sekuensing genom, dan pendaftaran paten. Selain berisi sekuens asam nukleat,
entri dalam basis data sekuens asam nukleat umumnya mengandung informasi
tentang jenis asam nukleat (DNA atau RNA), nama organisme sumber asam
nukleat tersebut, dan pustaka yang berkaitan dengan sekuens asam nukleat
tersebut.
Sementara
itu, contoh beberapa basis data penting yang menyimpan sekuens primer protein
adalah PIR (Protein
Information Resource, Amerika Serikat), Swiss-Prot(Eropa), dan TrEMBL (Eropa). Ketiga basis data tersebut telah
digabungkan dalam UniProt (yang didanai
terutama oleh Amerika Serikat). Entri dalam UniProt mengandung informasi
tentang sekuens protein, nama organisme sumber protein, pustaka yang berkaitan,
dan komentar yang umumnya berisi penjelasan mengenai fungsi protein tersebut.
BLAST (Basic Local Alignment Search Tool) merupakan
perkakas bioinformatika yang berkaitan erat dengan penggunaan basis data
sekuens biologis. Penelusuran BLAST (BLAST search) pada basis data sekuens
memungkinkan ilmuwan untuk mencari sekuens asam nukleat maupun protein yang
mirip dengan sekuens tertentu yang dimilikinya. Hal ini berguna misalnya untuk
menemukan gen sejenis pada
beberapa organisme atau untuk
memeriksa keabsahan hasil sekuensing maupun
untuk memeriksa fungsi gen hasil sekuensing. Algoritma yang
mendasari kerja BLAST adalah penyejajaran sekuens.
PDB (Protein
Data Bank, Bank Data Protein) adalah basis data tunggal yang menyimpan model
struktural tiga dimensi protein dan asam nukleat hasil
penentuan eksperimental (dengan kristalografi
sinar-X, spektroskopi NMR dan mikroskopi elektron). PDB menyimpan data
struktur sebagai koordinat tiga dimensi yang
menggambarkan posisi atom-atom
dalam protein ataupun asam nukleat.
Penyejajaran sekuens
Penyejajaran
sekuens (sequence alignment) adalah proses penyusunan/pengaturan dua atau
lebih sekuens sehingga persamaan sekuens-sekuens tersebut
tampak nyata. Hasil dari proses tersebut juga disebut sebagai sequence
alignment atau alignment saja. Baris sekuens dalam
suatu alignment diberi sisipan (umumnya dengan tanda "–")
sedemikian rupa sehingga kolom-kolomnya memuat karakter yang identik atau sama
di antara sekuens-sekuens tersebut. Berikut adalah
contoh alignment DNA dari dua sekuens pendek DNA yang berbeda,
"ccatcaac" dan "caatgggcaac" (tanda "|"
menunjukkan kecocokan atau match di antara kedua sekuens).
ccat---caac
| || ||||
caatgggcaac
Sequence
alignment merupakan metode dasar dalam analisis sekuens. Metode ini
digunakan untuk mempelajari evolusi sekuens-sekuens
dari leluhur yang sama (common ancestor). Ketidakcocokan (mismatch)
dalam alignment diasosiasikan dengan proses mutasi, sedangkan kesenjangan (gap,
tanda "–") diasosiasikan dengan proses insersi atau
delesi. Sequence alignment memberikan hipotesis atas
proses evolusi yang terjadi
dalam sekuens-sekuens tersebut. Misalnya, kedua sekuens dalam
contoh alignment di atas bisa jadi berevolusi dari sekuens yang sama
"ccatgggcaac". Dalam kaitannya dengan hal
ini, alignment juga dapat menunjukkan posisi-posisi yang
dipertahankan (conserved) selama evolusi dalam sekuens-sekuens protein, yang menunjukkan
bahwa posisi-posisi tersebut bisa jadi penting bagi struktur atau fungsi
protein tersebut.
Selain
itu, sequence alignment juga digunakan untuk mencari sekuens yang
mirip atau sama dalam basis data sekuens.
BLAST adalah salah satu metode alignment yang sering digunakan dalam
penelusuran basis data sekuens. BLAST menggunakan algoritma heuristik dalam
penyusunan alignment.
Beberapa
metode alignment lain yang merupakan pendahulu BLAST adalah metode
"Needleman-Wunsch" dan "Smith-Waterman". Metode
Needleman-Wunsch digunakan untuk menyusun alignment global di
antara dua atau lebih sekuens, yaitu alignment atas keseluruhan
panjang sekuens tersebut. Metode Smith-Waterman
menghasilkanalignment lokal, yaitu alignment atas bagian-bagian dalam
sekuens. Kedua metode tersebut menerapkan pemrograman dinamik (dynamic programming)
dan hanya efektif untuk alignment dua sekuens (pairwise alignment)
Clustal
adalah program bioinformatika untuk alignment multipel (multiple alignment),
yaitu alignment beberapa sekuens sekaligus. Dua varian utama Clustal
adalah ClustalWdan ClustalX.
Metode lain
yang dapat diterapkan untuk alignment sekuens adalah metode yang
berhubungan dengan Hidden Markov Model ("Model Markov
Tersembunyi", HMM). HMM merupakan model statistika yang mulanya
digunakan dalam ilmu
komputer untuk mengenali pembicaraan manusia (speech
recognition). Selain digunakan untuk alignment, HMM juga digunakan dalam
metode-metode analisis sekuens lainnya, seperti prediksi daerah pengkode
protein dalam genom dan prediksi
struktur sekunder protein.
Prediksi struktur protein
Secara
kimia/fisika, bentuk struktur protein diungkap
dengan kristalografi
sinar-X ataupun spektroskopi NMR, namun kedua metode tersebut
sangat memakan waktu dan relatif mahal. Sementara itu, metode sekuensing protein
relatif lebih mudah mengungkapkansekuens asam amino protein.
Prediksi struktur protein berusaha meramalkan struktur tiga dimensi protein
berdasarkan sekuens asam aminonya (dengan kata lain, meramalkan struktur
tersier dan struktur sekunder berdasarkan struktur primer protein). Secara
umum, metode prediksi struktur protein yang ada saat ini dapat dikategorikan ke
dalam dua kelompok, yaitu metode pemodelan protein komparatif dan metode
pemodelan de novo.
Pemodelan
protein komparatif (comparative protein modelling) meramalkan struktur
suatu protein berdasarkan struktur protein lain yang sudah diketahui. Salah
satu penerapan metode ini adalah pemodelan homologi (homology
modelling), yaitu prediksi struktur tersier protein berdasarkan kesamaan
struktur primer protein. Pemodelan homologi didasarkan pada teori bahwa dua protein yanghomolog memiliki struktur yang sangat mirip satu sama
lain. Pada metode ini, struktur suatu protein (disebut protein target) ditentukan
berdasarkan struktur protein lain (protein templat) yang sudah diketahui dan
memiliki kemiripan sekuens dengan protein target tersebut. Selain itu,
penerapan lain pemodelan komparatif adalah protein threading yang
didasarkan pada kemiripan struktur tanpa kemiripan sekuens primer. Latar
belakang protein threading adalah bahwa struktur protein lebih
dikonservasi daripada sekuens protein selama evolusi; daerah-daerah yang
penting bagi fungsi protein dipertahankan strukturnya. Pada pendekatan ini,
struktur yang paling kompatibel untuk suatu sekuens asam amino dipilih dari
semua jenis struktur tiga dimensi protein yang ada. Metode-metode yang
tergolong dalamprotein threading berusaha menentukan tingkat
kompatibilitas tersebut.
Dalam
pendekatan de novo atau ab initio, struktur protein ditentukan
dari sekuens primernya tanpa membandingkan dengan struktur protein lain.
Terdapat banyak kemungkinan dalam pendekatan ini, misalnya dengan menirukan
proses pelipatan (folding) protein dari sekuens primernya menjadi struktur
tersiernya (misalnya dengan simulasi dinamika molekular), atau dengan optimisasi
global fungsi energi protein. Prosedur-prosedur ini cenderung membutuhkan
proses komputasi yang intens, sehingga saat ini hanya digunakan dalam
menentukan struktur protein-protein kecil. Beberapa usaha telah dilakukan untuk
mengatasi kekurangan sumber daya komputasi tersebut, misalnya dengan superkomputer (misalnya
superkomputer Blue Gene [1] dari IBM) atau komputasi
terdistribusi(distributed computing, misalnya proyek Folding@home) maupun komputasi grid.
Analisis ekspresi gen
Analisis
klastering ekspresi gen pada kanker payudara
Ekspresi gen dapat
ditentukan dengan mengukur kadar mRNA dengan berbagai macam teknik
(misalnya dengan microarray ataupunSerial Analysis of Gene Expression ["Analisis
Serial Ekspresi Gen", SAGE]). Teknik-teknik tersebut umumnya diterapkan
pada analisis ekspresi gen skala besar yang mengukur ekspresi banyak gen (bahkan genom) dan menghasilkan data skala besar.
Metode-metode penggalian data (data mining) diterapkan pada data tersebut untuk
memperoleh pola-pola informatif. Sebagai contoh, metode-metode komparasi
digunakan untuk membandingkan ekspresi di antara gen-gen, sementara
metode-metode klastering (clustering) digunakan untuk mempartisi data tersebut
berdasarkan kesamaan ekspresi gen.
Bioinformatika di Indonesia
Saat ini mata
ajaran bioinformatika maupun mata ajaran dengan muatan bioinformatika sudah diajarkan
di beberapa perguruan
tinggi diIndonesia. Sekolah
Ilmu dan Teknologi Hayati ITB menawarkan mata kuliah
"Pengantar Bioinformatika" untuk program Sarjana dan mata kuliah
"Bioinformatika" untuk program Pascasarjana. Fakultas
Teknobiologi Universitas
Atma Jaya, Jakarta menawarkan
mata kuliah "Pengantar Bioinformatika" sebagai mata kuliah wajib dan
"Pemodelan Struktur Protein" sebagai mata kuliah pilihan untuk
tingkat program Sarjana. Mata kuliah "Bioinformatika" diajarkan pada
Program Pascasarjana Kimia Fakultas MIPA Universitas
Indonesia (UI), Jakarta. Mata kuliah "Proteomik dan
Bioinformatika" termasuk dalam kurikulum program S3 bioteknologi Universitas
Gadjah Mada (UGM),Yogyakarta. Materi
bioinformatika termasuk di dalam silabus beberapa mata kuliah untuk program sarjana maupun pascasarjanabiokimia,biologi,
dan bioteknologi pada Institut
Pertanian Bogor (IPB). Selain itu, riset-riset yang mengarah
pada bioinformatika juga telah dilaksanakan oleh mahasiswa program S1 Ilmu
Komputer maupun program pascasarjana biologi serta bioteknologi IPB.
Riset
bioinformatika protein dilaksanakan sebagai bagian dari aktivitas riset
rekayasa protein pada Laboratorium Rekayasa Protein, Pusat Penelitian
Bioteknologi Lembaga Ilmu Pengetahuan Indonesia (LIPI), Cibinong, Bogor. Lembaga Biologi Molekul Eijkman, Jakarta, secara khusus
memiliki laboratorium bioinformatika sebagai fasilitas penunjang kegiatan
risetnya. Selain itu, basis data sekuens DNA mikroorganisme asli
Indonesia sedang dikembangkan di UI.
Tidak ada komentar:
Posting Komentar