Apa Saja Berbagai Sumber Informasi Genom dan Protein?

Ada beberapa gudang data yang dikembangkan dengan baik yang telah memfasilitasi penyebaran genom dan sumber protein manusia dan organisme lain. Beberapa database biologis utama diberikan. Sumber daya yang paling komprehensif adalah database genom (GDB), NCBI dan Mouse Genome Database (MGD).

  1. GDB :

Ini adalah pusat penyimpanan resmi untuk data pemetaan genom yang dibuat oleh Proyek Genom Manusia. Simpul pusatnya terletak di Rumah Sakit Anak Sakit. GDB menyimpan sejumlah besar data yang dikirimkan oleh ratusan penyelidik. GDB memiliki banyak tautan Web sumber daya genom yang berguna di Halaman Sumber Dayanya.

  1. MGD :

Ini adalah sumber daya katalog genomik tikus publik utama. MGD mencakup informasi tentang penanda dan nomenklatur genetik tikus, segmen molekuler, fenotipe, data pemetaan komparatif, tampilan grafis keterkaitan, peta sitogenetik dan fisik.

  1. Pusat Informasi Bioteknologi Nasional (NCBI) :

Pada tanggal 4 November 1988, untuk pengembangan sistem informasi biologi molekuler, NCBI didirikan di National Institute of Health (USA). NCBI adalah gudang terdepan dari data genomik dan proteomik yang tersedia untuk umum.

Setelah didirikan, layanan di NCBI telah berkembang sepenuhnya. NCBI menyediakan berbagai jenis data biologis, sumber daya komputasi untuk analisis data GenBank dan sistem pengambilan data.

NCBI telah mengembangkan banyak sumber daya dan alat yang berguna. Ini dapat dikelompokkan ke dalam jenis berikut:

  1. Alat pengambilan basis data
  2. Keluarga BLAST – untuk mencari urutan DNA

3.ePCR

  1. Urutan tingkat gen
  2. Urutan kromosom
  3. Analisis genom
  4. Analisis pola ekspresi gen
  5. Struktur molekul
  6. LocusLink: Digunakan dalam informasi katalog genom tentang gen dan penanda berbasis gen.
  7. OMIM
  8. UniGene

Alat-alat ini memiliki situs web sendiri yang banyak digunakan tanpa biaya. Anda akan mempelajari aspek praktis dari beberapa alat ini dalam praktik Anda.

Dari sumber daya dan alat di atas, tiga rangkaian sumber dibahas dalam hal ini. Dengan menggunakan sumber daya ini sebagian besar kasus aktivitas bioinformatika dapat dilakukan. Saat melakukan studi lanjutan, sumber daya lain dapat digunakan.

  1. Alat Pengambilan Data

GenBank berisi 7 juta catatan urutan yang mencakup 9 juta basis nukleotida. Kecuali jika database mudah dicari dan entri diambil dalam format yang dapat digunakan dan bermakna, database biologis hanya memiliki sedikit tujuan.

Selain itu, upaya yang dilakukan pada pengurutan tidak akan bermakna jika komunitas biologis secara keseluruhan tidak dapat menggunakan informasi yang tersembunyi di dalam jutaan basa dan asam amino. Ada beberapa alat pencarian basis data seperti ENTREZ, LOCUSLINK, TAXONOMY BROWSER, dll.

(sebuah) ENTREZ:

Sistem pengambilan basis data informasi terintegrasi NCBI disebut Entrez. Ini paling banyak digunakan dari semua sistem basis data biologis. Menggunakan sistem Entrez Anda dapat mengakses literatur, urutan (baik protein dan nukleotida) dan struktur (3 D). Untuk menjadi sangat jelas, Entrez bukanlah sebuah database, tetapi itu adalah antarmuka di mana semua database komponennya dapat diakses dan dilalui.

Informasi Entrez mencakup catatan PubMed, data urutan nukleotida dan protein, struktur 3D, informasi, dan pemetaan. Hubungan tautan keras antara basis data. Semua informasi dapat diakses hanya dengan mengeluarkan satu permintaan.

Untuk tinjauan lengkap tentang fitur dan kerumitannya, Anda dapat merujuk ke tutorial tentang sistem Entrez di http://www. ncbi. nlm.nih.gov: 80 / entrez / query / static / help / helpdoc.html.

(b) Peramban Taksonomi:

Keragaman organisme sedemikian rupa sehingga jutaan spesies diketahui. Diharapkan jutaan organisme juga tidak diketahui. Setelah suatu spesies diketahui, berbagai fiturnya dipelajari dan informasinya disimpan dalam basis data. Sejauh ini informasi lebih dari 79.000 organisme telah dipulihkan dalam basis data.

(c) Tautan Lokus:

Locus Link adalah proyek NCBI untuk menghubungkan informasi yang berlaku untuk lokus genetik tertentu dari beberapa database yang berbeda. Locus Link menyediakan antarmuka kueri tunggal ke berbagai jenis informasi mengenai lokus genetik tertentu seperti fenotipe, lokasi peta, dan homologi dengan gen lain.

Saat ini ruang pencarian Locus Link mencakup informasi dari manusia, tikus, tikus, lalat buah dan ikan zebra. Ini membawa informasi tentang homolog tikus dari gen manusia tertentu, Anda tidak bisa mendapatkannya.

Dimulai dengan kueri Locus Link, cukup dengan mengetikkan nama gen ke dalam kotak kueri yang muncul di bagian atas beranda Locus Link, Anda dapat memilih gen yang diinginkan dari daftar abjad.

(d) Sistem Pengambilan Urutan (SRS):

SRS dibuat oleh Swiss Institute of Bioinformatics dan European Bioinformatics Institute, yang juga membuat database Swiss-PROT. SRS memungkinkan pengambilan dari katalog ekstensif lebih dari 75 database biologis publik.

Tombol tautan di SRS akan memungkinkan Anda untuk mendapatkan semua entri di satu bank data yang ditautkan ke entri (atau entri) di bank data lain. Hyperlink membuat tautan antar entri.

  1. Pencarian Basis Data Berbasis Kemiripan :

(a) Alat Pencarian Perataan Lokal Dasar (BLAST):

Karena proyek pencarian genom dalam skala besar, membanjirnya data sekuens DNA yang masuk ke basis data publik sangat mencengangkan. Para ilmuwan mengandalkan deduksi fungsi gen putatif melalui kesamaan dengan protein yang dicirikan dengan baik.

Ada beberapa alat untuk menganalisis informasi sekuens di antara program pencarian kesamaan keluarga BLAST. Pencarian kesamaan urutan menggunakan keberpihakan untuk menentukan ‘kecocokan’. Operasi dasar dalam pencarian basis data adalah menyelaraskan urutan kueri secara berurutan ke setiap urutan subjek dalam basis data.

Sebagian besar pengguna lebih memilih BLAST atau PASTA yang mengandalkan strategi heuristik untuk mempercepat pencarian penyelarasan. Teori sistem BLAST agak rumit dan di luar cakupan buku ini.

(b) CEPAT:

FASTA adalah program pertama yang digunakan secara luas untuk pencarian kesamaan basis data. FASTS melakukan pencarian optimal untuk penyelarasan lokal menggunakan matriks substitusi. Program ini menggunakan pola kata yang diamati untuk mengidentifikasi kemungkinan kecocokan sebelum mencoba pencarian yang dioptimalkan.

Format FASTA berisi garis defimilion dan urutan karakter. Ini dapat digunakan sebagai masukan untuk banyak program analisis. Format FASTA digunakan dalam berbagai rangkaian perangkat lunak biologi molekuler.

Secara umum BLAST cenderung lebih cepat dan lebih sensitif dalam mendeteksi lebih banyak keberpihakan, tetapi FASTA menghasilkan lebih sedikit false hit.

  1. Sumber Daya untuk Urutan Tingkat Gen

Ada beberapa alat di antara sumber daya untuk urutan tingkat gen misalnya UniGene, Homologene, RefSeq, dll.

(a) Basis Data UniGene:

EST telah dijelaskan pada bagian sebelumnya. Banyak EST redundan dihasilkan selama produksinya. Karena beberapa klon cDNA mewakili gen yang sama (Gbr. 5.4). Oleh karena itu, database UniGene (satu gen) dikembangkan di NCBI untuk mengontrol redundansi dalam data EST.

UniGene mengelompokkan EST dan sekuens mRNA lainnya bersama dengan sekuens pengkodean (CDS) yang dianotasi pada DNA genom menjadi subset sekuens terkait. Cluster khusus untuk organisme. Saat ini kluster tersedia untuk manusia, tikus, tikus, ikan zebra, dan sapi. Skema untuk mengelompokkan EST ditampilkan di.

Skema untuk mengelompokkan EST ditunjukkan pada Gambar 5.4 dan langkah-langkahnya diberikan di bawah ini:

  1. Pertama cari urutan kontaminan misalnya urutan ribosom, mitokondria, repetitif dan vektor.
  2. Masukkan urutan (yang berisi sekitar 100 basa) ke dalam UniGene. MRNA dan DNA genom dikelompokkan ke dalam tautan gen.
  3. Perbandingan urutan kedua menghubungkan EST satu sama lain dan ke tautan gen. Semua kluster berlabuh dan berisi urutan dengan situs poliadenilasi (poli A) atau dua EST yang diberi label berasal dari ujung klon 3′.
  4. Tepi berbasis klon ditambahkan dengan menghubungkan 5′ dan 3′ EST yang berasal dari klon yang sama.
  5. Akhirnya EST yang tidak terikat dan kluster gen berukuran 1 dibandingkan dengan kluster UniGene dengan tingkat keketatan yang lebih rendah. UniGene yang dibangun diperbarui setiap minggu. Kemudian cluster urutan dapat berubah.

(b) Basis Data Homologene:

Sumber daya UniGene baru telah dibuat yang disebut ‘HomoloGene’ (gen homolog). Basis data Homologene mencakup ortolog dan homolog yang dikurasi dan dihitung untuk gen dari manusia, tikus, tikus, ikan zebra, dan sapi.

Database ini juga tersedia di Locus Link. Menggunakan Homologene, hubungan homolog dapat dengan mudah disimpulkan. Homolog diidentifikasi sebagai kecocokan terbaik antara gugus Homologene dalam satu organisme dan gugus dalam organisme kedua.

Ketika dua sekuens dalam organisme yang berbeda paling cocok dengan yang lain, kluster Homologene yang sesuai dengan pasangan sekuens dianggap sebagai ortolog putatif.

(c) Basis Data Ref Seq:

Ini adalah database NCBI yang menyediakan kumpulan nomenklatur yang dikurasi dari standar urutan referensi untuk molekul biologis yang terjadi secara alami mulai dari kromosom hingga transkrip hingga protein. Proyek Ref Seq (urutan referensi) menyediakan urutan referensi yang stabil untuk semua molekul yang sesuai dengan dogma sentral biologi yaitu aliran informasi dari DNA ->RNA ->Protein.

Tahukah Anda, seorang kurator ditunjuk di Kebun Raya, Arsip dan Museum untuk menjaga reservoir yang tersedia di pusat-pusat ini?

Begitu pula untuk proses kurasi, seorang kurator atau anotator ditunjuk untuk karya bioinformatika. Kurator memiliki pelatihan ekstensif dalam biologi. Mereka sangat menyadari database. Mereka memastikan bahwa tidak ada data urutan yang hilang selama proses pengiriman.

Di sini, kurator meninjau dan memeriksa data yang baru diajukan dan memastikan bahwa: (i) fitur biologis dijelaskan secara memadai, (ii) terjemahan konseptual wilayah pengkodean mengikuti aturan terjemahan universal, dan (iii) semua informasi wajib telah diberikan .

NCBI telah menyediakan banyak sumber database. Pembahasan semua database tidak diinginkan dan bermakna pada tahap buku ini. Namun, beberapa database penting yang digunakan dalam karya bioinformatika diberikan.

Related Posts