---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:457216
- loss:MatryoshkaLoss
- loss:MultipleNegativesRankingLoss
base_model: aubmindlab/bert-base-arabertv02
widget:
- source_sentence: الناس يسيرون
sentences:
- شخصان يصعدان على الدرج
- الناس يجلسون
- رجل يجلس ويستمع للمحادثات
- source_sentence: لاعب كرة قدم يرتدي زيًا أحمر وأسود يحمل الرقم 3 وخوذة سوداء يحمل
الكرة ويحيط به لاعبون معارضون يرتدون زيًا أبيض وأرجواني بيكسفيل.
sentences:
- لاعب كرة قدم يحمل كرة
- الرجل مستعد لالتقاط كرة القدم
- الكلاب بالخارج
- source_sentence: بعثة لوس أنجلوس هي عيادة مجانية
sentences:
- إنها مساعدة ممرضة في بعثة لوس أنجلوس
- تعمل كطبيبة رئيسة في "لوس أنجلوس ميسيون" عيادة مجانية في حي فقير
- التوافق مطلوب من الأجهزة أو البرمجيات.
- source_sentence: رجل يرتدي قميصًا بنيًا مخططًا يقف يثني ذراعيه على قمة مبنى على
سطح منزل.
sentences:
- رجل ينظر من نافذة المطبخ
- شخص على السطح
- لا يجوز إظهار أي مبلغ من الأصول في الميزانية العمومية للمهمة الفيدرالية
- source_sentence: الحيوانات الأليفة تلعب دور الجدار
sentences:
- كلبان يلعبان في منطقة محصورة من الحصى.
- الكلاب تجري لالتقاط عصا عبر الشارع.
- يمكن تطوير التكنولوجيا.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
model-index:
- name: SentenceTransformer based on aubmindlab/bert-base-arabertv02
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: arabic nli dev
type: arabic-nli-dev
metrics:
- type: pearson_cosine
value: 0.5891378532917348
name: Pearson Cosine
- type: spearman_cosine
value: 0.5933477548023721
name: Spearman Cosine
---
# SentenceTransformer based on aubmindlab/bert-base-arabertv02
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
## Model Details
### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02)
- **Maximum Sequence Length:** 75 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
### Model Sources
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
### Full Model Architecture
```
SentenceTransformer(
(0): Transformer({'max_seq_length': 75, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```
## Usage
### Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
```bash
pip install -U sentence-transformers
```
Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
'الحيوانات الأليفة تلعب دور الجدار',
'كلبان يلعبان في منطقة محصورة من الحصى.',
'الكلاب تجري لالتقاط عصا عبر الشارع.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```
## Evaluation
### Metrics
#### Semantic Similarity
* Dataset: `arabic-nli-dev`
* Evaluated with [EmbeddingSimilarityEvaluator
](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
| Metric | Value |
|:--------------------|:-----------|
| pearson_cosine | 0.5891 |
| **spearman_cosine** | **0.5933** |
## Training Details
### Training Dataset
#### Unnamed Dataset
* Size: 457,216 training samples
* Columns: sentence_0
, sentence_1
, and sentence_2
* Approximate statistics based on the first 1000 samples:
| | sentence_0 | sentence_1 | sentence_2 |
|:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
| type | string | string | string |
| details |
يجلس طفل أحمر الشعر ينظر من خلال السور إلى الماء بينما يلعب الناس على الشاطئ في المسافة.
| طفل أحمر الشعر مهتم بالماء والناس يلعبون على الشاطئ في المسافة.
| فتى شقراء يراقب القارب مع الناس عليه يبحر بعيدا.
|
| عامل نظافة على وشك التنظيف في محطة القطار
| البواب سيقوم بتنظيف محطة القطار
| البواب يجلس في محطة القطار
|
| رجل يرتدي قميصاً أخضر وبنطال جينز ينحني فوق مرمى الهوكي الأحمر مع ثقب فوقه.
| رجل يرتدي قميصاً أخضر.
| امرأة ترتدي قميصاً أخضر.
|
* Loss: [MatryoshkaLoss
](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
```json
{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
512,
256,
128,
64
],
"matryoshka_weights": [
1,
1,
1,
1,
1
],
"n_dims_per_step": -1
}
```
### Training Hyperparameters
#### Non-Default Hyperparameters
- `eval_strategy`: steps
- `per_device_train_batch_size`: 64
- `per_device_eval_batch_size`: 64
- `fp16`: True
- `batch_sampler`: no_duplicates
- `multi_dataset_batch_sampler`: round_robin
#### All Hyperparameters