Spaces:

rahideer
/

Rahiya

Running

App Files Files Community

rahideer commited on 15 days ago

Commit

0cf0218

verified ·

1 Parent(s): da6d2e8

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -88

app.py CHANGED Viewed

@@ -1,91 +1,52 @@
 import streamlit as st
-from langdetect import detect
-import faiss
-import torch
-from sentence_transformers import SentenceTransformer
-from transformers import MBartForConditionalGeneration, MBart50Tokenizer
-import numpy as np
 import pandas as pd
 import os
-st.set_page_config(page_title="🌍 Multilingual RAG Translator/Answer Bot", layout="centered")
-@st.cache_resource
-def load_resources():
-    embedder = SentenceTransformer("sentence-transformers/distiluse-base-multilingual-cased-v1")
-    tokenizer = MBart50Tokenizer.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
-    model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
-    # Load multilingual dataset CSV
-    df = pd.read_csv("all_languages_test.csv")
-    # Construct corpus
-    corpus = (df["premise"] + " " + df["hypothesis"]).fillna("").tolist()
-    # Compute embeddings for corpus
-    corpus_embeddings = embedder.encode(corpus, convert_to_numpy=True, show_progress_bar=True)
-    # Create FAISS index
-    dimension = corpus_embeddings.shape[1]
-    index = faiss.IndexFlatL2(dimension)
-    index.add(corpus_embeddings)
-    return embedder, index, corpus, tokenizer, model
-def detect_lang(text):
-    try:
-        return detect(text)
-    except:
-        return "en"
-def get_top_k_passages(query, embedder, index, corpus, k=3):
-    query_embedding = embedder.encode([query], convert_to_numpy=True)
-    distances, indices = index.search(query_embedding, k)
-    return [corpus[i] for i in indices[0] if i < len(corpus)]
-def generate_answer(query, context, tokenizer, model, src_lang):
-    model.eval()
-    tokenizer.src_lang = src_lang
-    joined_context = " ".join(context)
-    inputs = tokenizer(query + " " + joined_context, return_tensors="pt", max_length=1024, truncation=True)
-    generated_tokens = model.generate(
-        **inputs,
-        forced_bos_token_id=tokenizer.lang_code_to_id["en_XX"],
-        max_length=256,
-        num_beams=5,
-        early_stopping=True
-    )
-    return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
-st.title("🌍 Multilingual RAG Translator/Answer Bot")
-st.caption("Ask in Urdu, French, Hindi, etc., and get culturally-aware, context-grounded answers.")
-query = st.text_input("💬 Enter your question in any supported language:")
-if query:
-    if len(query.strip()) < 3:
-        st.warning("Please enter a more complete question for better results.")
-    else:
-        with st.spinner("Thinking..."):
-            embedder, index, corpus, tokenizer, model = load_resources()
-            lang = detect_lang(query)
-            lang_map = {
-                "en": "en_XX", "fr": "fr_XX", "ur": "ur_PK", "hi": "hi_IN",
-                "es": "es_XX", "de": "de_DE", "zh": "zh_CN", "ar": "ar_AR",
-                "ru": "ru_RU", "tr": "tr_TR", "it": "it_IT", "pt": "pt_XX",
-            }
-            src_lang = lang_map.get(lang, "en_XX")
-            context = get_top_k_passages(query, embedder, index, corpus)
-            if not context:
-                st.error("⚠️ Could not find any relevant context to answer your question.")
-            else:
-                try:
-                    answer = generate_answer(query, context, tokenizer, model, src_lang)
-                    st.markdown("### 📌 Answer:")
-                    st.success(answer)
-                except Exception as e:
-                    st.error(f"⚠️ Something went wrong while generating the answer.\n\n{e}")

 import streamlit as st
 import pandas as pd
+import zipfile
 import os
+from sentence_transformers import SentenceTransformer, util
+from transformers import pipeline
+# Constants
+ZIP_FILE = "xnli-multilingual-nli-dataset.zip"
+CSV_FILE = "en_test.csv"
+EXTRACT_FOLDER = "extracted_data"
+# Load and extract ZIP
+@st.cache_data
+def extract_and_load():
+    if not os.path.exists(EXTRACT_FOLDER):
+        with zipfile.ZipFile(ZIP_FILE, "r") as zip_ref:
+            zip_ref.extractall(EXTRACT_FOLDER)
+    csv_path = os.path.join(EXTRACT_FOLDER, CSV_FILE)
+    df = pd.read_csv(csv_path).dropna().sample(500)
+    return df[['premise', 'hypothesis', 'label']]
+df = extract_and_load()
+# Load models
+nli_model = pipeline("text-classification", model="joeddav/xlm-roberta-large-xnli")
+embedder = SentenceTransformer("sentence-transformers/distiluse-base-multilingual-cased-v2")
+# UI
+st.title("🌐 Multilingual RAG-style NLI Explorer")
+st.markdown("Enter a sentence in **any language**, and the app will find a related statement from the dataset and infer their relationship.")
+user_input = st.text_input("Enter your **hypothesis** (your own sentence):")
+if user_input:
+    with st.spinner("Finding most relevant premise..."):
+        premise_embeddings = embedder.encode(df['premise'].tolist(), convert_to_tensor=True)
+        user_embedding = embedder.encode(user_input, convert_to_tensor=True)
+        top_hit = util.semantic_search(user_embedding, premise_embeddings, top_k=1)[0][0]
+        match_idx = top_hit['corpus_id']
+        selected_premise = df.iloc[match_idx]['premise']
+        st.subheader("🔍 Most Relevant Premise:")
+        st.write(selected_premise)
+        # Run NLI classification
+        full_input = f"{selected_premise} </s> {user_input}"
+        result = nli_model(full_input)[0]
+        st.subheader("🧠 Predicted Relationship:")
+        st.write(f"**{result['label']}** (confidence: {result['score']:.2f})")