📋 Eval Logs - a twinkle-ai Collection

twinkle-ai 's Collections

📋 Twinkle Eval Logs

💻 Twinkle Coder

🏎️ Formosa-1 Series

🧠 Traditional Chinese Reasoning Datasets

💾 Traditional Chinese Datasets

🎨 Brand Assets

📋 Eval Logs

updated 12 days ago

Benchmark log generated with Twinkle Eval, recording the model's outputs for each prompt.

twinkle-ai/devstral-eval-logs-and-scores

Viewer • Updated Feb 26 • 145k • 282
twinkle-ai/gpt-oss-eval-logs-and-scores

Viewer • Updated Aug 13, 2025 • 2.63k • 298 • 1
twinkle-ai/llama-4-eval-logs-and-scores

Viewer • Updated Apr 9, 2025 • 750 • 215 • 2