{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "24106202",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Using device: cuda\n"
     ]
    }
   ],
   "source": [
    "!python settings.py"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "0086aabe",
   "metadata": {},
   "outputs": [],
   "source": [
    "import os\n",
    "import pandas as pd\n",
    "from datasets import Dataset\n",
    "from tqdm.autonotebook import tqdm\n",
    "\n",
    "from sentence_transformers import (\n",
    "    SentenceTransformer,\n",
    "    SentenceTransformerTrainer,\n",
    "    SentenceTransformerTrainingArguments,\n",
    "    SentenceTransformerModelCardData,\n",
    ")\n",
    "from sentence_transformers.readers       import InputExample\n",
    "from sentence_transformers.models        import Transformer, Pooling\n",
    "from sentence_transformers.losses        import CachedMultipleNegativesRankingLoss\n",
    "from sentence_transformers.training_args import BatchSamplers\n",
    "\n",
    "from settings import MODEL_ID, MODEL_NAME, CACHE_DIR, OUTPUT_DIR, MAX_SEQ_LEN, EPOCHS, LR, BATCH_SIZE, DEVICE\n",
    "os.environ['WANDB_DISABLED'] = 'true'"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "3a5cc53d",
   "metadata": {},
   "outputs": [],
   "source": [
    "data = {\n",
    "    'corpus': pd.read_parquet('data/processed/corpus_data.parquet'),\n",
    "    'train' : pd.read_parquet('data/processed/train_data.parquet'),\n",
    "    'test'  : pd.read_parquet('data/processed/test_data.parquet')\n",
    "}\n",
    "for split in ['train', 'test']:\n",
    "    data[split]['cid']          = data[split]['cid'].apply(lambda x: x.tolist())\n",
    "    data[split]['context_list'] = data[split]['context_list'].apply(lambda x: x.tolist())\n",
    "    \n",
    "examples = {'train': [], 'test': []}"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "30ebbd40",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>question</th>\n",
       "      <th>context_list</th>\n",
       "      <th>qid</th>\n",
       "      <th>cid</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Liên đoàn Luật sư Việt Nam là tổ chức xã hội –...</td>\n",
       "      <td>[“Điều 2. Địa vị pháp lý của Liên đoàn Luật sư...</td>\n",
       "      <td>72600</td>\n",
       "      <td>[142820]</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Tên hợp tác xã bị rơi vào trường hợp cấm thì c...</td>\n",
       "      <td>[\"Điều 7. Tên hợp tác xã, liên hiệp hợp tác xã...</td>\n",
       "      <td>147562</td>\n",
       "      <td>[27817, 72117]</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Tài xế lái xe ô tô khách 50 chỗ ngồi bao lâu t...</td>\n",
       "      <td>[\"1. Sử dụng lái xe bảo đảm sức khỏe theo tiêu...</td>\n",
       "      <td>142107</td>\n",
       "      <td>[33215, 56201]</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Các bước chuẩn bị thủ thuật bó bột Cravate sẽ ...</td>\n",
       "      <td>[BỘT CRAVATE\\n...\\nIV. CHUẨN BỊ\\n1. Người thực...</td>\n",
       "      <td>77353</td>\n",
       "      <td>[148158]</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>Viên chức Hộ sinh hạng 4 có những nhiệm vụ gì ...</td>\n",
       "      <td>[Hộ sinh hạng IV - Mã số: V.08.06.16\\n1. Nhiệm...</td>\n",
       "      <td>113090</td>\n",
       "      <td>[188132]</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                                            question  \\\n",
       "0  Liên đoàn Luật sư Việt Nam là tổ chức xã hội –...   \n",
       "1  Tên hợp tác xã bị rơi vào trường hợp cấm thì c...   \n",
       "2  Tài xế lái xe ô tô khách 50 chỗ ngồi bao lâu t...   \n",
       "3  Các bước chuẩn bị thủ thuật bó bột Cravate sẽ ...   \n",
       "4  Viên chức Hộ sinh hạng 4 có những nhiệm vụ gì ...   \n",
       "\n",
       "                                        context_list     qid             cid  \n",
       "0  [“Điều 2. Địa vị pháp lý của Liên đoàn Luật sư...   72600        [142820]  \n",
       "1  [\"Điều 7. Tên hợp tác xã, liên hiệp hợp tác xã...  147562  [27817, 72117]  \n",
       "2  [\"1. Sử dụng lái xe bảo đảm sức khỏe theo tiêu...  142107  [33215, 56201]  \n",
       "3  [BỘT CRAVATE\\n...\\nIV. CHUẨN BỊ\\n1. Người thực...   77353        [148158]  \n",
       "4  [Hộ sinh hạng IV - Mã số: V.08.06.16\\n1. Nhiệm...  113090        [188132]  "
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "data['train'].head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "943bf8ce",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "question <class 'str'>\n",
      "context_list <class 'list'>\n",
      "qid <class 'numpy.int64'>\n",
      "cid <class 'list'>\n",
      "True\n"
     ]
    }
   ],
   "source": [
    "# Debug\n",
    "for col in data['test'].columns:\n",
    "    print(col, type(data['test'][col][0]))\n",
    "    \n",
    "print((data['test']['cid'].apply(len) == data['test']['context_list'].apply(len)).all())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "2c751cf4",
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "509893cf5cfd4a8d9e18bba47561a41c",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Processing train:   0%|          | 0/89162 [00:00<?, ?rows/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "12f4fcee4e4244128d8fb472881862ae",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Processing test:   0%|          | 0/29723 [00:00<?, ?rows/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Training examples: 99580\n"
     ]
    }
   ],
   "source": [
    "for split in ['train', 'test']:\n",
    "    rows = list(data[split].itertuples(index=False))\n",
    "    \n",
    "    for row in tqdm(rows, desc=f\"Processing {split}\", unit='rows'):\n",
    "        q = row.question\n",
    "        for c in row.context_list:\n",
    "            examples[split].append(InputExample(texts=[q, c]))\n",
    "\n",
    "print(f\"Training examples: {len(examples['train'])}\") # Compare with sum(data['train']['cid'].apply(len))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "aadda6e7",
   "metadata": {},
   "outputs": [],
   "source": [
    "embedding_model = Transformer(MODEL_ID, max_seq_length=MAX_SEQ_LEN, cache_dir=CACHE_DIR)\n",
    "pooling_model   = Pooling(\n",
    "    embedding_model.get_word_embedding_dimension(), \n",
    "    pooling_mode_mean_tokens=True\n",
    ")\n",
    "\n",
    "model = SentenceTransformer(\n",
    "    modules=[embedding_model, pooling_model], device=DEVICE, \n",
    "    cache_folder=CACHE_DIR,\n",
    "    model_card_data=SentenceTransformerModelCardData(\n",
    "        model_id=MODEL_ID, \n",
    "        model_name=MODEL_NAME, \n",
    "        language='vi',\n",
    "        license='mit',\n",
    "    )\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "8967eb55",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).\n"
     ]
    }
   ],
   "source": [
    "loss = CachedMultipleNegativesRankingLoss(model=model)\n",
    "\n",
    "args = SentenceTransformerTrainingArguments(\n",
    "    output_dir=OUTPUT_DIR,\n",
    "    num_train_epochs=EPOCHS,\n",
    "    per_device_train_batch_size=BATCH_SIZE,\n",
    "    learning_rate=LR,\n",
    "    warmup_ratio=0.1,\n",
    "    fp16=True,\n",
    "    batch_sampler=BatchSamplers.NO_DUPLICATES,\n",
    "    logging_steps=100\n",
    ")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "8bb935fe",
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).\n"
     ]
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "3d68dc4ff84244488d9de723e68b37ca",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "Computing widget examples:   0%|          | 0/1 [00:00<?, ?example/s]"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/html": [
       "\n",
       "    <div>\n",
       "      \n",
       "      <progress value='3890' max='3890' style='width:300px; height:20px; vertical-align: middle;'></progress>\n",
       "      [3890/3890 3:32:33, Epoch 5/5]\n",
       "    </div>\n",
       "    <table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       " <tr style=\"text-align: left;\">\n",
       "      <th>Step</th>\n",
       "      <th>Training Loss</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <td>100</td>\n",
       "      <td>1.882700</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>200</td>\n",
       "      <td>0.442800</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>300</td>\n",
       "      <td>0.356400</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>400</td>\n",
       "      <td>0.285600</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>500</td>\n",
       "      <td>0.244500</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>600</td>\n",
       "      <td>0.224100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>700</td>\n",
       "      <td>0.193800</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>800</td>\n",
       "      <td>0.189400</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>900</td>\n",
       "      <td>0.143200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1000</td>\n",
       "      <td>0.143200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1100</td>\n",
       "      <td>0.134100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1200</td>\n",
       "      <td>0.131100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1300</td>\n",
       "      <td>0.124900</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1400</td>\n",
       "      <td>0.122700</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1500</td>\n",
       "      <td>0.124100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1600</td>\n",
       "      <td>0.102800</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1700</td>\n",
       "      <td>0.085200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1800</td>\n",
       "      <td>0.085000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>1900</td>\n",
       "      <td>0.082000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2000</td>\n",
       "      <td>0.080000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2100</td>\n",
       "      <td>0.082400</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2200</td>\n",
       "      <td>0.080200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2300</td>\n",
       "      <td>0.082200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2400</td>\n",
       "      <td>0.063300</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2500</td>\n",
       "      <td>0.061500</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2600</td>\n",
       "      <td>0.061200</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2700</td>\n",
       "      <td>0.058000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2800</td>\n",
       "      <td>0.056600</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>2900</td>\n",
       "      <td>0.052100</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3000</td>\n",
       "      <td>0.054800</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3100</td>\n",
       "      <td>0.054700</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3200</td>\n",
       "      <td>0.047900</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3300</td>\n",
       "      <td>0.044900</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3400</td>\n",
       "      <td>0.044000</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3500</td>\n",
       "      <td>0.043900</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3600</td>\n",
       "      <td>0.044400</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3700</td>\n",
       "      <td>0.045700</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <td>3800</td>\n",
       "      <td>0.046100</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table><p>"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "data": {
      "text/plain": [
       "TrainOutput(global_step=3890, training_loss=0.1604946916084976, metrics={'train_runtime': 12756.5123, 'train_samples_per_second': 39.031, 'train_steps_per_second': 0.305, 'total_flos': 0.0, 'train_loss': 0.1604946916084976, 'epoch': 5.0})"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "def to_frame(ex_list):\n",
    "    rows = [(ex.texts[0], ex.texts[1]) for ex in ex_list]\n",
    "    return pd.DataFrame(rows, columns=['text_0', 'text_1'])\n",
    "\n",
    "train_ds = Dataset.from_pandas(to_frame(examples['train']))\n",
    "\n",
    "trainer = SentenceTransformerTrainer(\n",
    "    model=model,\n",
    "    args=args,\n",
    "    train_dataset=train_ds,\n",
    "    loss=loss,\n",
    ")\n",
    "trainer.train()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "f47a01a1",
   "metadata": {},
   "outputs": [],
   "source": [
    "model.save_pretrained(OUTPUT_DIR)\n",
    "# model.push_to_hub(\n",
    "#     repo_id='YuITC/bert-base-multilingual-cased-finetuned-VNLegalDocs', \n",
    "#     commit_message='Update README.md',\n",
    "#     exist_ok=True,\n",
    "#     replace_model_card=False,\n",
    "#     train_datasets=['tmnam20/BKAI-Legal-Retrieval']\n",
    "# )"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "legal_doc_retrieval",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.16"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}