OpenEvals

community

AI & ML interests

LLM evaluation

Recent Activity

nielsr submitted a paper about 11 hours ago

Geometric Context Transformer for Streaming 3D Reconstruction

nielsr submitted a paper 8 days ago

A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

nielsr submitted a paper 14 days ago

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

View all activity

OpenEvals 's datasets 5

OpenEvals/leaderboard-data

Viewer • Updated 19 days ago • 105 • 1.26k • 1

OpenEvals/IMO-AnswerBench

Viewer • Updated Jan 23 • 400 • 278 • 1

OpenEvals/MuSR

Viewer • Updated Dec 12, 2025 • 756 • 122

OpenEvals/aime_24

Viewer • Updated Dec 12, 2025 • 30 • 55 • 1

OpenEvals/SimpleQA

Viewer • Updated Dec 12, 2025 • 4.33k • 2.57k • 4