Spaces:

tensorboy0101
/

pdf_krish_naik

Sleeping

tensorboy0101 commited on Apr 29

Commit

69ffbc4

verified ·

1 Parent(s): 19b5668

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,6 +9,11 @@ from langchain_google_genai import ChatGoogleGenerativeAI
 from langchain.chains.question_answering import load_qa_chain
 from langchain.prompts import PromptTemplate
 from dotenv import load_dotenv
 load_dotenv()
 os.getenv("GOOGLE_API_KEY")
@@ -17,12 +22,27 @@ genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
 def get_pdf_text(pdf_docs):
     text = ""
-    for pdf in pdf_docs:
-        pdf_reader = PdfReader(pdf)
-        for page in pdf_reader.pages:
-            page_text = page.extract_text()
-            if page_text:
-                text += page_text
     return text

 from langchain.chains.question_answering import load_qa_chain
 from langchain.prompts import PromptTemplate
 from dotenv import load_dotenv
+from pdf2image import convert_from_bytes
+from PIL import Image
+import pytesseract
+import io
 load_dotenv()
 os.getenv("GOOGLE_API_KEY")
 def get_pdf_text(pdf_docs):
     text = ""
+    for uploaded_file in pdf_docs:
+        if uploaded_file.name.endswith(".pdf"):
+            # Process actual PDF files
+            pdf_reader = PdfReader(uploaded_file)
+            for page in pdf_reader.pages:
+                page_text = page.extract_text()
+                if page_text:
+                    text += page_text
+            # If no text extracted, try OCR
+            if not text.strip():
+                images = convert_from_bytes(uploaded_file.read())
+                for img in images:
+                    text += pytesseract.image_to_string(img)
+        else:
+            # Process image files
+            image = Image.open(uploaded_file)
+            text += pytesseract.image_to_string(image)
     return text