Lewati ke isi

Home

LANSUNG SAJA KE REPOSITORI GITHUB DIBAWAH INI :

🔗 Akses penuh repository: HazelnutDev/OpenNMT-Indonesia-Bima

Tentang Proyek

Proyek ini bertujuan membangun model terjemahan mesin dari Bahasa Indonesia ke Bahasa Bima (dan sebaliknya) menggunakan framework OpenNMT-py.

Fokus utama proyek adalah: - Mempreservasi bahasa daerah Bima melalui teknologi NLP.
- Menyediakan dataset paralel Indonesia ↔ Bima.
- Menghadirkan model yang dapat dijalankan secara lokal.

Teknologi yang Digunakan

  • Python 3.8+
  • OpenNMT-py v1 (stabil, berbasis CLI)
  • SentencePiece (untuk subword tokenization)
  • PyTorch sebagai backend

Dataset

Dataset terdiri dari pasangan kalimat Indonesia ↔ Bima, dikumpulkan dan disusun secara manual agar sesuai format OpenNMT.

Struktur data:

data/
  ├── src-train.txt   # Kalimat sumber (Indonesia)
  ├── tgt-train.txt   # Kalimat target (Bima)
  ├── src-valid.txt   # Validasi sumber
  └── tgt-valid.txt   # Validasi target
model/
  └── bima_step_5000.pt
onmt_data/
  ├── onmt_data.train.0.pt
  ├── onmt_data.valid.0.pt
  ├── onmt_data.vocab.pt
  ├── spm.model
  └── spm.vocab
split-data/
  ├── src.txt
  └── tgt.txt
sisa nya ikuti semua penempatan isi file sesuai pada github ini seperti:
  ├── train.id.txt (ini berisi source bahasa indonesia)
  ├── train.bhp.txt (ini berisi bahasa taregt Bima)
  ├── valid.id.txt (ini berisi source bahasa indonesia untuk validasi ketika training nanti)
  ├── valid.bhp.txt (ini berisi target bahasa Bima untuk validasi ketika training nanti)
  └── dan seterusnya samakan saja.

Cara Menjalankan

Untuk panduan instalasi, training, dan inferensi model, silakan lihat:
📖 Tutorial Lengkap


✍️ Proyek ini masih dalam tahap pengembangan, kontribusi terbuka untuk siapa saja yang ingin mendukung pelestarian bahasa Bima melalui teknologi AI.