Automatic Scoring for Indonesian Semantic Similarity ✨

Model ini merupakan hasil fine-tuning dari indobenchmark/indobert-large-p2 menggunakan Sentence Transformers untuk tugas Semantic Textual Similarity (STS) dalam bahasa Indonesia.

Model ini dilatih secara multi-dataset menggunakan gabungan dari:

  • 🟒 rzkamalia/stsb-indo-mt-modified
  • 🟒 quarkss/stsb-indo-mt
  • 🟒 AkshitaS/semrel_2024_plus (split ind_Latn)

Tujuan utama dari model ini adalah untuk mendukung penilaian otomatis jawaban siswa atau sistem pembelajaran berbasis teks dalam bahasa Indonesia.

🧠 Model Details

  • Base Model: indobenchmark/indobert-large-p2
  • Framework: sentence-transformers
  • Loss Function: CosineSimilarityLoss
  • Training Epochs: 5
  • Batch Size: 16
  • Evaluation Metric: Cosine Similarity
  • Total Datasets Combined: 3 corpora (STS Indo + Semantic Relation)

πŸ“Š Example Usage

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("eugene702/Automatic-Scoring")

score = util.cos_sim(
    model.encode("Apa dampak pemanasan global?", convert_to_tensor=True),
    model.encode("Bagaimana pengaruh perubahan iklim terhadap bumi?", convert_to_tensor=True)
)

print("Similarity Score:", score.item())

πŸ“ Datasets Used

Dataset Deskripsi
rzkamalia/stsb-indo-mt-modified Versi modifikasi STS bahasa Indonesia
quarkss/stsb-indo-mt STS benchmark bahasa Indonesia
AkshitaS/semrel_2024_plus Dataset Semantic Relation multilingual split ind_Latn

πŸ“ˆ Evaluation

Evaluasi dilakukan pada data test dari ketiga dataset yang digabung. Penilaian dilakukan menggunakan EmbeddingSimilarityEvaluator dari sentence-transformers.

Metric utama: Cosine Similarity terhadap pasangan kalimat dalam bahasa Indonesia.

πŸ’‘ Use Cases

  • Penilaian otomatis jawaban siswa
  • Deteksi parafrase dalam Bahasa Indonesia
  • Penilaian kesamaan kalimat untuk e-learning
  • Analisis pertanyaan dan jawaban semantik

πŸ›  Training Code

Model dilatih menggunakan sentence-transformers di platform Kaggle. Kode pelatihan tersedia secara privat namun dapat diminta melalui email.

πŸ“Œ Model Availability

Model tersedia di:

πŸ“¬ Contact

Untuk pertanyaan atau kolaborasi:

Eugene Feilian Putra Rangga
πŸ“§ eugenefeilianputrarangga@gmail.com
πŸ”— Hugging Face Profile πŸ”— GitHub


Model ini merupakan bagian dari eksperimen untuk membangun sistem penilaian otomatis berbasis semantic similarity pada teks Bahasa Indonesia.

Downloads last month
6
Safetensors
Model size
335M params
Tensor type
F32
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Datasets used to train eugene702/Automatic-Scoring

Evaluation results

  • Cosine Similarity on STSB Indo + SemRel 2024
    self-reported
    Evaluated on test set (see below)