Benchmark Hub

Featured Benchmarks

VibeCode Arena

VibeCode Arena

Pokemon Gym

Pokemon Gym

JFK Arena

JFK Arena

PaperBench

PaperBench

WebArena

WebArena

Carnegie Mellon University

SWE-Bench

SWE-Bench

RareBench

RareBench

Bird-SQL

Bird-SQL

AlibabaResearch

MedQA-CS

MedQA-CS

WebCanvas

WebCanvas

MMLU-Pro

MMLU-Pro

All Benchmarks

Hub
Contact

agent
code
commonsense
embedding
general
knowledge
language
long-context
multimodal
performance
reasoning
retrieval
safety
tool-calling
vision

All Benchmarks

66

Dung610AI_Agent_Benchmark

Updated 2 months ago

James4ever0Vimgolf

Updated 3 months ago

shuaizhou1991123

Updated 4 months ago

Updated 7 months ago

BenchFlowsimple-qa

Updated 7 months ago

BenchFlowTaskBench

Updated 7 months ago

BenchFlowEQBench

Updated 7 months ago

BenchFlowTauBench

Updated 7 months ago

BenchFlowAIME2024

Updated 7 months ago

BenchFlowOSWorld

Updated 7 months ago

BenchFlowBIGBenchHard

Updated 7 months ago

Updated 7 months ago

Updated 7 months ago

Updated 7 months ago

Updated 7 months ago

BenchFlowMind2Web

Updated 7 months ago

BenchFlowAssistantBench

Updated 7 months ago

Updated 7 months ago

BenchFlowDS-1000

Updated 7 months ago

Updated 7 months ago

BenchFlowHELMET

Updated 7 months ago

Updated 7 months ago

BenchFlowBabiLong

Updated 7 months ago

BenchFlowInfiniteBench

Updated 7 months ago

BenchFlowMMGenBench

Updated 7 months ago

BenchFlowStableToolBench

Updated 7 months ago

BenchFlowRouter-Bench

Updated 7 months ago

BenchFlowNexus-Bench

Updated 7 months ago

BenchFlowHotpotqa

Updated 7 months ago

Updated 7 months ago

Updated 7 months ago

BenchFlowCodeXGLUE

Updated 7 months ago

BenchFlowBigBench

Updated 7 months ago

BenchFlowAlexarena

Updated 7 months ago

BenchFlowMEGABench

Updated 7 months ago

BenchFlowMobileAIBench

Updated 7 months ago

BenchFlowSpec-Bench

Updated 7 months ago

BenchFlowTruthfulQA

Updated 7 months ago

BenchFlowSuperGLUE

Updated 7 months ago

Updated 7 months ago

BenchFlowHumanEval

Updated 7 months ago

BenchFlowHellaSwag

Updated 7 months ago

Updated 7 months ago

BenchFlowLegalBench

Updated 7 months ago

BenchFlowAgentbench

Updated 7 months ago

BenchFlowSWE-bench-Multimodal

Updated 7 months ago

BenchFlowMLE-bench

Updated 7 months ago

Updated 7 months ago

Updated 7 months ago

BenchFlowPokemonGym

Updated 8 months ago

Updated 8 months ago

abderrahmane-brhumaneval

Updated 8 months ago

xiangyi-liBIRD-critiq

Updated 8 months ago

xiangyi-liOS-World

Updated 8 months ago

Updated 8 months ago

holmansneydercautomation

Updated 8 months ago

BenchFlowrarebench

Updated 8 months ago

Updated 8 months ago

xiangyi-lirarebench

Updated 8 months ago

BenchFlowmedqa-cs

Updated 8 months ago

BenchFlowSwebench

Updated 8 months ago

BenchFlowMMLU-PRO

Updated 8 months ago

Updated 8 months ago

BenchFlowwebcanvas

Updated 8 months ago

BenchFlowwebarena

Updated 8 months ago

xiangyi-liwebarena

Updated 8 months ago