nomic-ai
/

colnomic-embed-multimodal-3b

Visual Document Retrieval

multimodal_embedding

multilingual_embedding

Text-to-Visual Document (T→VD) retrieval

Model card Files Files and versions

zpn commited on Apr 2

Commit

6baedbf

·

verified ·

1 Parent(s): 82b488d

Update README.md

Files changed (1) hide show

README.md +48 -0

README.md CHANGED Viewed

@@ -40,6 +40,54 @@ tags:
 | Llama Index vdr-2b-multi-v1 | 58.4 | 63.1 | 52.8 | 61.0 | 60.6 | 50.3 | 51.2 | 56.9 | 68.8 | 61.2 |
 | Voyage Multimodal 3 | 55.0 | 56.1 | 55.0 | 59.5 | 56.4 | 47.2 | 46.2 | 51.5 | 64.1 | 58.8 |
 ## Model Architecture
 - **Total Parameters**: 3B

 | Llama Index vdr-2b-multi-v1 | 58.4 | 63.1 | 52.8 | 61.0 | 60.6 | 50.3 | 51.2 | 56.9 | 68.8 | 61.2 |
 | Voyage Multimodal 3 | 55.0 | 56.1 | 55.0 | 59.5 | 56.4 | 47.2 | 46.2 | 51.5 | 64.1 | 58.8 |
+To use `colnomic-embed-multimodal-7b`, please install `colpali` from source
+```bash
+pip install git+https://github.com/nomic-ai/colpali.git
+```
+```python
+import torch
+from PIL import Image
+from transformers.utils.import_utils import is_flash_attn_2_available
+from colpali_engine.models import ColQwen2_5, ColQwen2_5_Processor
+model_name = "nomic-ai/colnomic-embed-multimodal-3b"
+model = ColQwen2_5.from_pretrained(
+    model_name,
+    torch_dtype=torch.bfloat16,
+    device_map="cuda:0",  # or "mps" if on Apple Silicon
+    attn_implementation="flash_attention_2" if is_flash_attn_2_available() else None,
+).eval()
+processor = ColQwen2_5_Processor.from_pretrained(model_name)
+# Your inputs
+images = [
+    Image.new("RGB", (128, 128), color="white"),
+    Image.new("RGB", (64, 32), color="black"),
+]
+queries = [
+    "What is the organizational structure for our R&D department?",
+    "Can you provide a breakdown of last year’s financial performance?",
+]
+# Process the inputs
+batch_images = processor.process_images(images).to(model.device)
+batch_queries = processor.process_queries(queries).to(model.device)
+# Forward pass
+with torch.no_grad():
+    image_embeddings = model(**batch_images)
+    query_embeddings = model(**batch_queries)
+scores = processor.score_multi_vector(query_embeddings, image_embeddings)
+```
 ## Model Architecture
 - **Total Parameters**: 3B