Spaces:

snap-stanford
/

stark-leaderboard

Running

App Files Files Community

Shiyu Zhao commited on Oct 23, 2024

Commit

518f6cc

1 Parent(s): e65749f

Update space

Browse files

Files changed (1) hide show

app.py +44 -33

app.py CHANGED Viewed

@@ -223,14 +223,21 @@ def scan_submissions_directory():
         # Initialize HuggingFace API
         api = HfApi()
-        # Get submissions directory content from HuggingFace hub
         try:
-            repo_files = api.list_repo_files(
                 repo_id=REPO_ID,
                 repo_type="space"
             )
             # Filter for files in submissions directory
-            repo_files = [f for f in repo_files if f.startswith('submissions/')]
         except Exception as e:
             print(f"Error listing repository contents: {str(e)}")
             return
@@ -238,61 +245,60 @@ def scan_submissions_directory():
         if not repo_files:
             print("No submissions directory found or empty")
             return
-        # Track submissions for each split
-        submissions_by_split = {
-            'test': [],
-            'test-0.1': [],
-            'human_generated_eval': []
-        }
         # Group files by team folders
         folder_files = {}
-        for file_info in repo_files:
-            path = file_info.path
-            if not path.startswith('submissions/'):
                 continue
-            parts = path.split('/')
-            if len(parts) < 3:  # submissions/folder_name/file
-                continue
-            folder_name = parts[1]
             if folder_name not in folder_files:
                 folder_files[folder_name] = []
-            folder_files[folder_name].append(path)
         # Process each team folder
         for folder_name, files in folder_files.items():
             try:
-                # Look for latest.json
                 latest_file = next((f for f in files if f.endswith('latest.json')), None)
                 if not latest_file:
                     continue
                 # Read latest.json
                 try:
-                    latest_content = hub_storage.get_file_content(latest_file)
                     latest_info = json.loads(latest_content)
                 except Exception as e:
                     print(f"Error reading latest.json for {folder_name}: {str(e)}")
                     continue
                 if latest_info.get('status') != 'approved':
                     continue
                 timestamp = latest_info.get('latest_submission')
                 if not timestamp:
                     continue
-                # Find corresponding metadata file
                 metadata_file = next(
                     (f for f in files if f.endswith(f'metadata_{timestamp}.json')),
                     None
                 )
                 if not metadata_file:
                     continue
                 # Read metadata file
                 try:
                     metadata_content = api.hf_hub_download(
@@ -306,19 +312,21 @@ def scan_submissions_directory():
                     print(f"Error reading metadata for {folder_name}: {str(e)}")
                     continue
                 split = submission_data.get('Split')
                 if split in submissions_by_split:
                     submissions_by_split[split].append(submission_data)
-                    # Update corresponding DataFrame
                     update_leaderboard_data(submission_data)
-                    print(f"Added submission from {folder_name} to {split} leaderboard")
             except Exception as e:
                 print(f"Error processing folder {folder_name}: {str(e)}")
                 continue
-        print("Leaderboard initialized with existing submissions:")
         for split, submissions in submissions_by_split.items():
             print(f"{split}: {len(submissions)} submissions")
@@ -844,6 +852,11 @@ with gr.Blocks(css=css) as demo:
     gr.Markdown("# Semi-structured Retrieval Benchmark (STaRK) Leaderboard")
     gr.Markdown("Refer to the [STaRK paper](https://arxiv.org/pdf/2404.13207) for details on metrics, tasks and models.")
     # Model type filter
     model_type_filter = gr.CheckboxGroup(
         choices=list(model_types.keys()),
@@ -934,9 +947,7 @@ with gr.Blocks(css=css) as demo:
     submit_btn = gr.Button("Submit", variant="primary")
     result = gr.Textbox(label="Submission Status", interactive=False)
-    # Initialize leaderboard at startup
-    initialize_leaderboard()
     # Set up event handlers
     model_type_filter.change(

         # Initialize HuggingFace API
         api = HfApi()
+        # Track submissions for each split
+        submissions_by_split = {
+            'test': [],
+            'test-0.1': [],
+            'human_generated_eval': []
+        }
+        # Get all files from repository
         try:
+            all_files = api.list_repo_files(
                 repo_id=REPO_ID,
                 repo_type="space"
             )
             # Filter for files in submissions directory
+            repo_files = [f for f in all_files if f.startswith('submissions/')]
         except Exception as e:
             print(f"Error listing repository contents: {str(e)}")
             return
         if not repo_files:
             print("No submissions directory found or empty")
             return
         # Group files by team folders
         folder_files = {}
+        for filepath in repo_files:
+            parts = filepath.split('/')
+            if len(parts) < 3:  # Need at least submissions/team_folder/file
                 continue
+            folder_name = parts[1]  # team_folder name
             if folder_name not in folder_files:
                 folder_files[folder_name] = []
+            folder_files[folder_name].append(filepath)
         # Process each team folder
         for folder_name, files in folder_files.items():
             try:
+                # Find latest.json in this folder
                 latest_file = next((f for f in files if f.endswith('latest.json')), None)
                 if not latest_file:
+                    print(f"No latest.json found in {folder_name}")
                     continue
                 # Read latest.json
                 try:
+                    latest_content = api.hf_hub_download(
+                        repo_id=REPO_ID,
+                        repo_type="space",
+                        filename=latest_file,
+                        text=True
+                    )
                     latest_info = json.loads(latest_content)
                 except Exception as e:
                     print(f"Error reading latest.json for {folder_name}: {str(e)}")
                     continue
+                # Check submission status
                 if latest_info.get('status') != 'approved':
+                    print(f"Skipping unapproved submission in {folder_name}")
                     continue
                 timestamp = latest_info.get('latest_submission')
                 if not timestamp:
+                    print(f"No timestamp found in latest.json for {folder_name}")
                     continue
+                # Find metadata file
                 metadata_file = next(
                     (f for f in files if f.endswith(f'metadata_{timestamp}.json')),
                     None
                 )
                 if not metadata_file:
+                    print(f"No matching metadata file found for {folder_name} timestamp {timestamp}")
                     continue
                 # Read metadata file
                 try:
                     metadata_content = api.hf_hub_download(
                     print(f"Error reading metadata for {folder_name}: {str(e)}")
                     continue
+                # Update leaderboard
                 split = submission_data.get('Split')
                 if split in submissions_by_split:
                     submissions_by_split[split].append(submission_data)
                     update_leaderboard_data(submission_data)
+                    print(f"Successfully added submission from {folder_name} to {split} leaderboard")
+                else:
+                    print(f"Invalid split '{split}' found in {folder_name}")
             except Exception as e:
                 print(f"Error processing folder {folder_name}: {str(e)}")
                 continue
+        # Print summary
+        print("\nLeaderboard initialization summary:")
         for split, submissions in submissions_by_split.items():
             print(f"{split}: {len(submissions)} submissions")
     gr.Markdown("# Semi-structured Retrieval Benchmark (STaRK) Leaderboard")
     gr.Markdown("Refer to the [STaRK paper](https://arxiv.org/pdf/2404.13207) for details on metrics, tasks and models.")
+    # Initialize leaderboard at startup
+    print("Starting leaderboard initialization...")
+    initialize_leaderboard()
+    print("Leaderboard initialization finished")
     # Model type filter
     model_type_filter = gr.CheckboxGroup(
         choices=list(model_types.keys()),
     submit_btn = gr.Button("Submit", variant="primary")
     result = gr.Textbox(label="Submission Status", interactive=False)
     # Set up event handlers
     model_type_filter.change(