Spaces:

dwb2023
/

retrieval_metadata

Paused

App Files Files Community

donb-hf commited on Jul 9, 2024

Commit

79cf287

1 Parent(s): 660b29c

update get_dataset_records

Browse files

Files changed (2) hide show

app.py +34 -13
dataset_management_service.py +23 -4

app.py CHANGED Viewed

@@ -3,36 +3,56 @@ from typing import List, Dict, Any
 from config import DATASET_NAME
 from arxiv_retrieval_service import ArxivRetrievalService
 from dataset_management_service import DatasetManagementService
-# Initialize services
 arxiv_service = ArxivRetrievalService()
 dataset_service = DatasetManagementService(DATASET_NAME)
 def handle_metadata_extraction(query: str, max_results: int) -> str:
     try:
-        # Fetch metadata from ArXiv
         metadata_list = arxiv_service.fetch_metadata(query, max_results)
         if not metadata_list:
             return "No metadata found for the given query."
-        # Update the dataset with new metadata
         result = dataset_service.update_dataset(metadata_list)
         return result
     except Exception as e:
-        return f"An error occurred: {str(e)}"
-def handle_dataset_view() -> List[Dict[str, Any]]:
     try:
-        return dataset_service.get_dataset_records()
     except Exception as e:
-        return [{"error": f"Error loading dataset: {str(e)}"}]
-# Define Gradio interface
 with gr.Blocks() as demo:
     gr.Markdown(
-        f"""Extract metadata from ArXiv papers and update the dataset.
-        \n\nCurrently leverages the following dataset:
-        \n- [{DATASET_NAME}](https://huggingface.co/datasets/{DATASET_NAME}/viewer)
         """
     )
@@ -49,12 +69,13 @@ with gr.Blocks() as demo:
         )
     with gr.Tab("View Dataset"):
-        refresh_button = gr.Button("Refresh Dataset Info")
         dataset_info = gr.JSON(label="Dataset Info")
         refresh_button.click(
             fn=handle_dataset_view,
-            inputs=[],
             outputs=dataset_info
         )

 from config import DATASET_NAME
 from arxiv_retrieval_service import ArxivRetrievalService
 from dataset_management_service import DatasetManagementService
+import logging
+logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
 arxiv_service = ArxivRetrievalService()
 dataset_service = DatasetManagementService(DATASET_NAME)
 def handle_metadata_extraction(query: str, max_results: int) -> str:
     try:
+        logging.info(f"Fetching metadata for query: {query}, max_results: {max_results}")
         metadata_list = arxiv_service.fetch_metadata(query, max_results)
         if not metadata_list:
             return "No metadata found for the given query."
         result = dataset_service.update_dataset(metadata_list)
+        logging.info(f"Dataset update result: {result}")
         return result
     except Exception as e:
+        error_msg = f"An error occurred during metadata extraction: {str(e)}"
+        logging.error(error_msg)
+        return error_msg
+def handle_dataset_view(page: int = 1, page_size: int = 10) -> Dict[str, Any]:
+    logging.info(f"handle_dataset_view called with page={page}, page_size={page_size}")
     try:
+        total_records = dataset_service.get_dataset_size()
+        logging.info(f"Total records: {total_records}")
+        records = dataset_service.get_dataset_records(page, page_size)
+        logging.info(f"Records type: {type(records)}")
+        logging.info(f"Number of records returned: {len(records)}")
+        result = {
+            "total_records": total_records,
+            "current_page": page,
+            "records": records
+        }
+        logging.info(f"Returning result: {result}")
+        return result
     except Exception as e:
+        error_msg = f"Error loading dataset: {str(e)}"
+        logging.error(error_msg)
+        return {"error": error_msg}
 with gr.Blocks() as demo:
     gr.Markdown(
+        f"""# ArXiv Metadata Extraction and Dataset Management
+        This application extracts metadata from ArXiv papers and manages the dataset:
+        [{DATASET_NAME}](https://huggingface.co/datasets/{DATASET_NAME}/viewer)
         """
     )
         )
     with gr.Tab("View Dataset"):
+        page_number = gr.Number(value=1, label="Page Number", precision=0)
+        refresh_button = gr.Button("Refresh Dataset View")
         dataset_info = gr.JSON(label="Dataset Info")
         refresh_button.click(
             fn=handle_dataset_view,
+            inputs=[page_number],
             outputs=dataset_info
         )

dataset_management_service.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from typing import List, Dict, Any
 from datasets import load_dataset, Dataset
 class DatasetManagementService:
     def __init__(self, dataset_name: str):
@@ -47,13 +48,31 @@ class DatasetManagementService:
         except Exception as e:
             return f"Failed to update dataset: {str(e)}"
-    def get_dataset_records(self) -> List[Dict[str, Any]]:
         try:
             dataset = load_dataset(self.dataset_name, split="train")
-            if len(dataset) == 0:
-                return []
-            return dataset.to_pandas().to_dict(orient="records")
         except Exception as e:
             return [{"error": f"Error loading dataset: {str(e)}"}]
 # Usage:

 from typing import List, Dict, Any
 from datasets import load_dataset, Dataset
+import logging
 class DatasetManagementService:
     def __init__(self, dataset_name: str):
         except Exception as e:
             return f"Failed to update dataset: {str(e)}"
+    def get_dataset_size(self) -> int:
         try:
             dataset = load_dataset(self.dataset_name, split="train")
+            size = len(dataset)
+            logging.info(f"Dataset size: {size}")
+            return size
         except Exception as e:
+            logging.error(f"Error getting dataset size: {str(e)}")
+            return 0
+    def get_dataset_records(self, page: int, page_size: int) -> List[Dict[str, Any]]:
+        try:
+            dataset = load_dataset(self.dataset_name, split="train")
+            start_idx = (page - 1) * page_size
+            end_idx = start_idx + page_size
+            records = dataset[start_idx:end_idx]
+            # Convert to list of dictionaries
+            records_list = [dict(zip(records.keys(), values)) for values in zip(*records.values())]
+            logging.info(f"Records type: {type(records_list)}")
+            logging.info(f"Number of records: {len(records_list)}")
+            return records_list
+        except Exception as e:
+            logging.error(f"Error loading dataset records: {str(e)}")
             return [{"error": f"Error loading dataset: {str(e)}"}]
 # Usage: