Upload 14 files

Browse files

Files changed (14) hide show

config.json +2 -2
model.safetensors +2 -2
optimizer.pt +2 -2
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
scheduler.pt +1 -1
trainer_state.json +262 -104
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "microsoft/deberta-v3-base",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
@@ -42,5 +42,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.46.3",
   "type_vocab_size": 0,
-  "vocab_size": 128100
 }

 {
+  "_name_or_path": "microsoft/mdeberta-v3-base",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
   "torch_dtype": "float32",
   "transformers_version": "4.46.3",
   "type_vocab_size": 0,
+  "vocab_size": 251000
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdccb9a1326282ce172abc05046d8868d5a53154be6b0905220f3aa58f59e7f1
-size 737722356

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2c014245ee7a2d39769e223503c03bc2cca57313e7aa8543efcaa4b802a3f61
+size 1115271284

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d635017647497837523dbad9bcb82e9b738f9c5e7a0ffa17b00200367a854171
-size 1475564538

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d9cabf3a82eb8e3c7d9c74c3f1cd32f6b4fe3199c1016050950c7fd5d3cac9a
+size 2230662138

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fba9836d3d5d131b179fe7b16872f0458f9ebf0e4b1ed6cead0b06f1011984f3
+size 15984

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2a0c7025936f28ccadaeabad382f47beb7500bee229d6cadbca163725ffe1d4
+size 15984

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1871450a718945b3a8f0c9b05f32928beaa2dff494f7f8ae0d7acbbe8ab99575
+size 15984

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a278fb64096b400bcb71e42326226b98095346679b386a45020136626e71c84
+size 15984

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85f8fd5c6381ed996cfc981c90e784927522bf727a148c2dc7644a129148cc28
+size 15984

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0280f37d29580c31bc7d1d6228c906b4878d32927af739cb82e4228ba73fd30
+size 15984

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36d8cbfbca6b874820791af59a1b4320c909ebd361dd3955e8c6b7343461bb43
+size 15984

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cafaea57a4cda8ba3e730c6f5572f696d7c678648476ef37977a5cc4650e5e25
+size 15984

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e1d4b62c8569136ac533bea6bd4720b618f75d960825875ab003fa764178d75
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e6703b36d6b79a3ae4291228a28a3b0975b7538704440c681042f431f22e174
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,168 +1,326 @@
 {
-  "best_metric": 0.7336740904072855,
-  "best_model_checkpoint": "/shevtsov/sent_results/checkpoint-55176",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 55176,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 10.982656478881836,
       "learning_rate": 5e-06,
-      "loss": 0.278,
-      "step": 6897
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6962722394803728,
-      "eval_f1": 0.6954934097978532,
-      "eval_loss": 0.27303698658943176,
-      "eval_precision": 0.7032410224368593,
-      "eval_recall": 0.6962722394803728,
-      "eval_runtime": 235.2201,
-      "eval_samples_per_second": 90.324,
-      "eval_steps_per_second": 11.292,
-      "step": 6897
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.829893112182617,
       "learning_rate": 4.849231551964771e-06,
-      "loss": 0.1974,
-      "step": 13794
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7188176597947848,
-      "eval_f1": 0.7159777515871979,
-      "eval_loss": 0.2562166452407837,
-      "eval_precision": 0.7156618605155758,
-      "eval_recall": 0.7188176597947848,
-      "eval_runtime": 235.187,
-      "eval_samples_per_second": 90.337,
-      "eval_steps_per_second": 11.293,
-      "step": 13794
     },
     {
       "epoch": 3.0,
-      "grad_norm": 7.553038597106934,
       "learning_rate": 4.415111107797445e-06,
-      "loss": 0.172,
-      "step": 20691
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7296902946436976,
-      "eval_f1": 0.7289604788993475,
-      "eval_loss": 0.27564719319343567,
-      "eval_precision": 0.7285244419417612,
-      "eval_recall": 0.7296902946436976,
-      "eval_runtime": 235.2108,
-      "eval_samples_per_second": 90.327,
-      "eval_steps_per_second": 11.292,
-      "step": 20691
     },
     {
       "epoch": 4.0,
-      "grad_norm": 5.199881076812744,
       "learning_rate": 3.7500000000000005e-06,
-      "loss": 0.154,
-      "step": 27588
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.7309611220935706,
-      "eval_f1": 0.7313527175830589,
-      "eval_loss": 0.3117690682411194,
-      "eval_precision": 0.7331236097784076,
-      "eval_recall": 0.7309611220935706,
-      "eval_runtime": 235.1385,
-      "eval_samples_per_second": 90.355,
-      "eval_steps_per_second": 11.295,
-      "step": 27588
     },
     {
       "epoch": 5.0,
-      "grad_norm": 4.5583109855651855,
       "learning_rate": 2.9341204441673267e-06,
-      "loss": 0.1405,
-      "step": 34485
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7292196178104113,
-      "eval_f1": 0.7306905410800046,
-      "eval_loss": 0.3434309661388397,
-      "eval_precision": 0.7340143377006256,
-      "eval_recall": 0.7292196178104113,
-      "eval_runtime": 235.1135,
-      "eval_samples_per_second": 90.365,
-      "eval_steps_per_second": 11.297,
-      "step": 34485
     },
     {
       "epoch": 6.0,
-      "grad_norm": 5.269964218139648,
       "learning_rate": 2.0658795558326745e-06,
-      "loss": 0.1292,
-      "step": 41382
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.728372399510496,
-      "eval_f1": 0.7270264813978528,
-      "eval_loss": 0.37885233759880066,
-      "eval_precision": 0.7276053091596871,
-      "eval_recall": 0.728372399510496,
-      "eval_runtime": 235.0304,
-      "eval_samples_per_second": 90.397,
-      "eval_steps_per_second": 11.301,
-      "step": 41382
     },
     {
       "epoch": 7.0,
-      "grad_norm": 5.499964714050293,
       "learning_rate": 1.2500000000000007e-06,
-      "loss": 0.1205,
-      "step": 48279
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.7335969123599736,
-      "eval_f1": 0.7320317760805066,
-      "eval_loss": 0.4042453467845917,
-      "eval_precision": 0.7316491391334223,
-      "eval_recall": 0.7335969123599736,
-      "eval_runtime": 235.1289,
-      "eval_samples_per_second": 90.359,
-      "eval_steps_per_second": 11.296,
-      "step": 48279
     },
     {
       "epoch": 8.0,
-      "grad_norm": 7.1066179275512695,
       "learning_rate": 5.848888922025553e-07,
-      "loss": 0.1145,
-      "step": 55176
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7338793184599454,
-      "eval_f1": 0.7336740904072855,
-      "eval_loss": 0.4205409288406372,
-      "eval_precision": 0.7335551105156711,
-      "eval_recall": 0.7338793184599454,
-      "eval_runtime": 235.1161,
-      "eval_samples_per_second": 90.364,
-      "eval_steps_per_second": 11.297,
-      "step": 55176
     }
   ],
   "logging_steps": 500,
-  "max_steps": 68970,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -173,13 +331,13 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.968525969553408e+17,
-  "train_batch_size": 24,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7399751659163123,
+  "best_model_checkpoint": "/opt/dlami/nvme/shevtsov/sent_checkpoints/checkpoint-102510",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 102510,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "step": 10251,
+      "train_accuracy": 0.9232076630758701,
+      "train_f1": 0.9284970394554347,
+      "train_loss": 0.08324012160301208,
+      "train_precision": 0.9395995876182259,
+      "train_recall": 0.9232076630758701,
+      "train_runtime": 5077.4566,
+      "train_samples_per_second": 775.226,
+      "train_steps_per_second": 2.019
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.202436923980713,
       "learning_rate": 5e-06,
+      "loss": 0.1512,
+      "step": 10251
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5906430303537085,
+      "eval_f1": 0.5953154182610875,
+      "eval_loss": 1.1822575330734253,
+      "eval_precision": 0.7605817989645098,
+      "eval_recall": 0.5906430303537085,
+      "eval_runtime": 31.2064,
+      "eval_samples_per_second": 766.446,
+      "eval_steps_per_second": 2.019,
+      "step": 10251
     },
     {
       "epoch": 2.0,
+      "step": 20502,
+      "train_accuracy": 0.9251504125579815,
+      "train_f1": 0.9318479879378413,
+      "train_loss": 0.06029369682073593,
+      "train_precision": 0.9457024638382566,
+      "train_recall": 0.9251504125579815,
+      "train_runtime": 5078.2486,
+      "train_samples_per_second": 775.105,
+      "train_steps_per_second": 2.019
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.3391969203948975,
       "learning_rate": 4.849231551964771e-06,
+      "loss": 0.0727,
+      "step": 20502
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5809850321933272,
+      "eval_f1": 0.5827904211311477,
+      "eval_loss": 0.8601031303405762,
+      "eval_precision": 0.7707426917608643,
+      "eval_recall": 0.5809850321933272,
+      "eval_runtime": 31.1947,
+      "eval_samples_per_second": 766.734,
+      "eval_steps_per_second": 2.02,
+      "step": 20502
+    },
+    {
+      "epoch": 3.0,
+      "step": 30753,
+      "train_accuracy": 0.9311338878819889,
+      "train_f1": 0.9367318532276315,
+      "train_loss": 0.05340421944856644,
+      "train_precision": 0.948615352312463,
+      "train_recall": 0.9311338878819889,
+      "train_runtime": 5078.9472,
+      "train_samples_per_second": 774.998,
+      "train_steps_per_second": 2.018
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.368744134902954,
       "learning_rate": 4.415111107797445e-06,
+      "loss": 0.064,
+      "step": 30753
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6280207375198595,
+      "eval_f1": 0.6341902420521265,
+      "eval_loss": 1.0681450366973877,
+      "eval_precision": 0.768741241964947,
+      "eval_recall": 0.6280207375198595,
+      "eval_runtime": 31.2028,
+      "eval_samples_per_second": 766.535,
+      "eval_steps_per_second": 2.019,
+      "step": 30753
     },
     {
       "epoch": 4.0,
+      "step": 41004,
+      "train_accuracy": 0.941354218588914,
+      "train_f1": 0.9444982035100681,
+      "train_loss": 0.0493415892124176,
+      "train_precision": 0.9518003283876015,
+      "train_recall": 0.941354218588914,
+      "train_runtime": 5080.4688,
+      "train_samples_per_second": 774.766,
+      "train_steps_per_second": 2.018
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 7.862049579620361,
       "learning_rate": 3.7500000000000005e-06,
+      "loss": 0.0585,
+      "step": 41004
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6900660590350364,
+      "eval_f1": 0.6986283009597273,
+      "eval_loss": 1.4099539518356323,
+      "eval_precision": 0.7671384440115526,
+      "eval_recall": 0.6900660590350364,
+      "eval_runtime": 31.2008,
+      "eval_samples_per_second": 766.584,
+      "eval_steps_per_second": 2.019,
+      "step": 41004
     },
     {
       "epoch": 5.0,
+      "step": 51255,
+      "train_accuracy": 0.9479113474150279,
+      "train_f1": 0.9498162368391557,
+      "train_loss": 0.04905932769179344,
+      "train_precision": 0.9544620214289802,
+      "train_recall": 0.9479113474150279,
+      "train_runtime": 5088.1804,
+      "train_samples_per_second": 773.592,
+      "train_steps_per_second": 2.015
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.6737421751022339,
       "learning_rate": 2.9341204441673267e-06,
+      "loss": 0.0543,
+      "step": 51255
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7279454803913371,
+      "eval_f1": 0.7344324841621389,
+      "eval_loss": 2.154353618621826,
+      "eval_precision": 0.7651689935562233,
+      "eval_recall": 0.7279454803913371,
+      "eval_runtime": 31.2388,
+      "eval_samples_per_second": 765.65,
+      "eval_steps_per_second": 2.017,
+      "step": 51255
+    },
+    {
+      "epoch": 6.0,
+      "step": 61506,
+      "train_accuracy": 0.944803507162031,
+      "train_f1": 0.9475462857180277,
+      "train_loss": 0.0426737517118454,
+      "train_precision": 0.9540200071722176,
+      "train_recall": 0.944803507162031,
+      "train_runtime": 5078.4022,
+      "train_samples_per_second": 775.081,
+      "train_steps_per_second": 2.019
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.879870653152466,
       "learning_rate": 2.0658795558326745e-06,
+      "loss": 0.051,
+      "step": 61506
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.7079187223011958,
+      "eval_f1": 0.7155283465045912,
+      "eval_loss": 2.2507946491241455,
+      "eval_precision": 0.7570941064333973,
+      "eval_recall": 0.7079187223011958,
+      "eval_runtime": 31.2026,
+      "eval_samples_per_second": 766.538,
+      "eval_steps_per_second": 2.019,
+      "step": 61506
     },
     {
       "epoch": 7.0,
+      "step": 71757,
+      "train_accuracy": 0.9474675154096338,
+      "train_f1": 0.9497025418465336,
+      "train_loss": 0.0410270020365715,
+      "train_precision": 0.9551267616744933,
+      "train_recall": 0.9474675154096338,
+      "train_runtime": 5080.7556,
+      "train_samples_per_second": 774.722,
+      "train_steps_per_second": 2.018
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 1.4426418542861938,
       "learning_rate": 1.2500000000000007e-06,
+      "loss": 0.0486,
+      "step": 71757
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.7198344343172506,
+      "eval_f1": 0.726834352850576,
+      "eval_loss": 2.45487380027771,
+      "eval_precision": 0.7590566392960729,
+      "eval_recall": 0.7198344343172506,
+      "eval_runtime": 31.2049,
+      "eval_samples_per_second": 766.482,
+      "eval_steps_per_second": 2.019,
+      "step": 71757
     },
     {
       "epoch": 8.0,
+      "step": 82008,
+      "train_accuracy": 0.9504046315025708,
+      "train_f1": 0.9520763661297328,
+      "train_loss": 0.0410199835896492,
+      "train_precision": 0.9562815819971588,
+      "train_recall": 0.9504046315025708,
+      "train_runtime": 5079.0768,
+      "train_samples_per_second": 774.978,
+      "train_steps_per_second": 2.018
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 1.1270148754119873,
       "learning_rate": 5.848888922025553e-07,
+      "loss": 0.0468,
+      "step": 82008
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7316665273016139,
+      "eval_f1": 0.737640105520052,
+      "eval_loss": 2.602576494216919,
+      "eval_precision": 0.7612609852108917,
+      "eval_recall": 0.7316665273016139,
+      "eval_runtime": 31.1916,
+      "eval_samples_per_second": 766.809,
+      "eval_steps_per_second": 2.02,
+      "step": 82008
+    },
+    {
+      "epoch": 9.0,
+      "step": 92259,
+      "train_accuracy": 0.9505296259769004,
+      "train_f1": 0.9522083394688067,
+      "train_loss": 0.03998752683401108,
+      "train_precision": 0.9564247374560226,
+      "train_recall": 0.9505296259769004,
+      "train_runtime": 5078.0822,
+      "train_samples_per_second": 775.13,
+      "train_steps_per_second": 2.019
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 1.666390061378479,
+      "learning_rate": 1.507684480352292e-07,
+      "loss": 0.0457,
+      "step": 92259
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7320010034283803,
+      "eval_f1": 0.7378168031871946,
+      "eval_loss": 2.8211002349853516,
+      "eval_precision": 0.7595695441249473,
+      "eval_recall": 0.7320010034283803,
+      "eval_runtime": 31.2132,
+      "eval_samples_per_second": 766.278,
+      "eval_steps_per_second": 2.018,
+      "step": 92259
+    },
+    {
+      "epoch": 10.0,
+      "step": 102510,
+      "train_accuracy": 0.9510209660446921,
+      "train_f1": 0.9526073589638447,
+      "train_loss": 0.040298543870449066,
+      "train_precision": 0.9566123120238171,
+      "train_recall": 0.9510209660446921,
+      "train_runtime": 5078.6508,
+      "train_samples_per_second": 775.043,
+      "train_steps_per_second": 2.018
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.6141560077667236,
+      "learning_rate": 0.0,
+      "loss": 0.0451,
+      "step": 102510
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7345095743791287,
+      "eval_f1": 0.7399751659163123,
+      "eval_loss": 2.884028911590576,
+      "eval_precision": 0.759520061975123,
+      "eval_recall": 0.7345095743791287,
+      "eval_runtime": 31.2146,
+      "eval_samples_per_second": 766.243,
+      "eval_steps_per_second": 2.018,
+      "step": 102510
     }
   ],
   "logging_steps": 500,
+  "max_steps": 102510,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.0357340434899927e+19,
+  "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d25bd04595533c4a434f13ac4e4cfbd167bcb4a00df5bd299061065f66a73363
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:08fbbf6707e209de037bb4bc3ece3924dd1369ff37078a607f53ee446b0de5b1
 size 5304