Identification of efflux proteins based on contextual representations with deep bidirectional transformer encoders

Penulis: Semmy Wellem Taju, Syed Muazzam Ali Shah, Yu-Yen Ou

Penelitian ini mengusulkan pendekatan berbasis representasi kontekstual menggunakan Bidirectional Encoder Representations from Transformers (BERT) yang dipadukan dengan Support Vector Machine (SVM) sebagai pengklasifikasi. BERT, sebagai model bahasa pra-latih yang sangat efektif dalam berbagai tugas Natural Language Processing (NLP), digunakan untuk menghasilkan representasi amino acid secara kontekstual dalam urutan protein, sehingga mampu menangkap berbagai interpretasi dari residu protein yang serupa.

Dataset berisi protein efleks yang telah dianotasi dikembangkan sebagai dasar pelatihan dan pengujian. Vektor fitur diperoleh melalui lapisan tersembunyi dari model BERT yang telah dilatih sebelumnya. Metode yang diusulkan diuji pada dua dataset independen dan berhasil mencapai akurasi sebesar 94.15% pada dataset membran dan 87.13% pada dataset transpor.

Studi ini menunjukkan potensi besar penerapan contextual word embeddings dalam bidang Bioinformatika dan Biologi Komputasional, khususnya dalam klasifikasi protein efleks secara akurat dan efisien.

Unduh Jurnal Lengkap (PDF)
Download PDF

Leave a Reply

Your email address will not be published. Required fields are marked *