Spaces:

mahfudl26
/

keluh-cerdas

Sleeping

mahfudl26 commited on Jun 12

Commit

a325a3b

verified ·

1 Parent(s): c81f8a8

Update helper.py

Files changed (1) hide show

helper.py CHANGED Viewed

@@ -2,7 +2,6 @@ import demoji
 import re
 import pandas as pd
 import numpy as np
-import nltk
 import keras
 import os
 import warnings
@@ -11,7 +10,6 @@ import tensorflow as tf
 from transformers import BertTokenizer, TFBertModel
 from string import punctuation
 from keybert import KeyBERT
-from nltk.corpus import stopwords
 from sentence_transformers import SentenceTransformer
 # --- Disable warnings ---
@@ -22,16 +20,16 @@ MAX_LENGTH = 128
 base_path = os.path.join('data')
 model_path = os.path.join('Model')
-# --- Setup NLTK data directory (custom path for Hugging Face) ---
-nltk_data_dir = os.path.join(tempfile.gettempdir(), "nltk_data")
-os.makedirs(nltk_data_dir, exist_ok=True)
-nltk.data.path.append(nltk_data_dir)
-nltk.download('stopwords', download_dir=nltk_data_dir)
 # --- Load Resources ---
 alay_dict = pd.read_csv(os.path.join(base_path, 'kamus_alay.csv'), names=['alay', 'normal'], encoding='latin-1')
 alay_dict_map = dict(zip(alay_dict['alay'], alay_dict['normal']))
-stop_words = set(stopwords.words('indonesian'))
 tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-large-p1")
 bert_model = TFBertModel.from_pretrained("indobenchmark/indobert-large-p1")
 lstm_model = keras.models.load_model(os.path.join(model_path, 'indobert_lstm_model.keras'))

 import re
 import pandas as pd
 import numpy as np
 import keras
 import os
 import warnings
 from transformers import BertTokenizer, TFBertModel
 from string import punctuation
 from keybert import KeyBERT
 from sentence_transformers import SentenceTransformer
 # --- Disable warnings ---
 base_path = os.path.join('data')
 model_path = os.path.join('Model')
 # --- Load Resources ---
 alay_dict = pd.read_csv(os.path.join(base_path, 'kamus_alay.csv'), names=['alay', 'normal'], encoding='latin-1')
 alay_dict_map = dict(zip(alay_dict['alay'], alay_dict['normal']))
+# Load stopwords dari Excel
+stopwords_excel_path = os.path.join(base_path, 'stopwords_indonesia.xlsx')
+stopwords_df = pd.read_excel(stopwords_excel_path)
+stop_words = set(stopwords_df['stopword'].astype(str).tolist())
+# Load tokenizer & model
 tokenizer = BertTokenizer.from_pretrained("indobenchmark/indobert-large-p1")
 bert_model = TFBertModel.from_pretrained("indobenchmark/indobert-large-p1")
 lstm_model = keras.models.load_model(os.path.join(model_path, 'indobert_lstm_model.keras'))