use max length of 64 with padding

Files changed (10) hide show

interfaces/cap_media2.py CHANGED Viewed

@@ -47,9 +47,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/cap_media_demo.py CHANGED Viewed

@@ -47,9 +47,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/cap_minor.py CHANGED Viewed

@@ -79,9 +79,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/cap_minor_media.py CHANGED Viewed

@@ -85,7 +85,7 @@ def predict(text, major_model_id, minor_model_id, tokenizer_id, HF_TOKEN=None):
     tokenizer = AutoTokenizer.from_pretrained(tokenizer_id)
     # Tokenize input
-    inputs = tokenizer(text, max_length=256, truncation=True, padding="do_not_pad", return_tensors="pt").to(device)
     # Predict major topic
     major_model.eval()
@@ -162,9 +162,9 @@ def predict_flat(text, model_id, tokenizer_id, HF_TOKEN=None):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     tokenizer = AutoTokenizer.from_pretrained(tokenizer_id)
     # Tokenize input
+    inputs = tokenizer(text, max_length=64, truncation=True, padding=True, return_tensors="pt").to(device)
     # Predict major topic
     major_model.eval()
     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/emotion.py CHANGED Viewed

@@ -39,9 +39,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/emotion9.py CHANGED Viewed

@@ -38,9 +38,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/illframes.py CHANGED Viewed

@@ -70,9 +70,9 @@ def predict(text, model_id, tokenizer_id, label_names):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/manifesto.py CHANGED Viewed

@@ -38,9 +38,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/ontolisst.py CHANGED Viewed

@@ -56,9 +56,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

interfaces/sentiment.py CHANGED Viewed

@@ -42,9 +42,9 @@ def predict(text, model_id, tokenizer_id):
     # Tokenize input
     inputs = tokenizer(
         text,
-        max_length=256,
         truncation=True,
-        padding="do_not_pad",
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}

     # Tokenize input
     inputs = tokenizer(
         text,
+        max_length=64,
         truncation=True,
+        padding=True,
         return_tensors="pt"
     )
     inputs = {k: v.to(device) for k, v in inputs.items()}