Patronus AI

Team

company

Verified

https://patronus.ai

patronusai

Activity Feed Request to join this org

AI & ML interests

LLM Evaluation

Recent Activity

DarshanDeshpande submitted a paper 1 day ago

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

DarshanDeshpande published a dataset 3 days ago

PatronusAI/trace-dataset

DarshanDeshpande updated a dataset 3 days ago

PatronusAI/trace-dataset

View all activity

Papers

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

View all Papers

PatronusAI 's datasets 38

PatronusAI/trace-dataset

Viewer • Updated 3 days ago • 517 • 8 • 1

PatronusAI/TRAIL

Viewer • Updated May 15, 2025 • 148 • 81 • 16

PatronusAI/BLUR

Viewer • Updated Mar 26, 2025 • 350 • 3 • 11

PatronusAI/glider-feedback-bench-suite

Viewer • Updated Dec 18, 2024 • 1k • 1 • 1

PatronusAI/glider-multilingual-reward-bench-suite

Viewer • Updated Dec 18, 2024 • 66k • 12

PatronusAI/glider-reward-bench-suite-reasoning

Viewer • Updated Dec 18, 2024 • 1.43k • 31

PatronusAI/glider-reward-bench-suite-safety

Viewer • Updated Dec 18, 2024 • 740 • 27

PatronusAI/glider-reward-bench-suite-chat

Viewer • Updated Dec 18, 2024 • 318 • 25

PatronusAI/glider-reward-bench-suite-chat_hard

Viewer • Updated Dec 18, 2024 • 456 • 28

PatronusAI/glider-flask-eval-suite

Viewer • Updated Dec 18, 2024 • 2k • 41 • 1

PatronusAI/glider-biggen-bench-suite

Viewer • Updated Dec 12, 2024 • 3.2k • 5

PatronusAI/lynx-train-v0.4

Viewer • Updated Dec 9, 2024 • 5.29k • 1 • 1

PatronusAI/glider_livebench_instruction_suite

Viewer • Updated Dec 8, 2024 • 200 • 34 • 1

PatronusAI/bump-3.2-3b-results

Viewer • Updated Dec 7, 2024 • 500 • 2

PatronusAI/glider-mt-bench-suite

Viewer • Updated Dec 6, 2024 • 2.58k • 5

PatronusAI/glider-hh-alignment-suite

Viewer • Updated Dec 6, 2024 • 178 • 2

PatronusAI/lynx-train-v0.2

Viewer • Updated Dec 6, 2024 • 5.69k • 38

PatronusAI/lynx-train-v0.1

Viewer • Updated Dec 4, 2024 • 6.69k • 1

PatronusAI/financenews-train-v0.1

Viewer • Updated Dec 4, 2024 • 209 • 1

PatronusAI/bump-train-v0.1

Viewer • Updated Dec 4, 2024 • 1.28k • 1

PatronusAI/glider_summeval_suite

Viewer • Updated Dec 4, 2024 • 6.4k • 6

PatronusAI/financebench

Viewer • Updated Nov 17, 2024 • 150 • 1.74k • 116

PatronusAI/HaluBench

Viewer • Updated Jul 11, 2024 • 14.9k • 539 • 40

PatronusAI/openai-gpt-4-turbo-halueval-generations

Viewer • Updated Jul 9, 2024 • 10k • 3

PatronusAI/openai-gpt-4-turbo-financebench-generations

Viewer • Updated Jul 9, 2024 • 1k • 3

PatronusAI/openai-gpt-4o-drop-generations

Viewer • Updated Jul 9, 2024 • 1k • 1

PatronusAI/openai-gpt-4-turbo-drop-generations

Viewer • Updated Jul 9, 2024 • 1k • 2

PatronusAI/openai-gpt-3.5-turbo-drop-generations

Viewer • Updated Jul 9, 2024 • 1k • 3

PatronusAI/openai-gpt-4o-covidqa-generations

Viewer • Updated Jul 9, 2024 • 1k

PatronusAI/openai-gpt-4-turbo-covidqa-generations

Viewer • Updated Jul 9, 2024 • 1k • 3