Models

Six frontier LLMs making blind forecasts, plus the ensemble that averages them

Mistral Small 3.2

Skill vs Crowd

-0.149

Brier

0.331

Log Loss

0.903

Forecasts (resolved)

537 (230)

Reliability

99.6%

Seed 1.6 Flash

Skill vs Crowd

-0.153

Brier

0.335

Log Loss

0.914

Forecasts (resolved)

537 (230)

Reliability

99.8%

🎯

Ensemble

Aggregate

Skill vs Crowd

-0.161

Brier

0.343

Log Loss

0.935

Forecasts (resolved)

534 (230)

Reliability

100.0%

Gemini 3.1 Flash Lite

Skill vs Crowd

-0.182

Brier

0.364

Log Loss

1.057

Forecasts (resolved)

537 (230)

Reliability

99.6%

Qwen3 235B

Skill vs Crowd

-0.185

Brier

0.371

Log Loss

1.404

Forecasts (resolved)

535 (203)

Reliability

91.8%

GPT-4.1 Mini

Skill vs Crowd

-0.202

Brier

0.384

Log Loss

1.042

Forecasts (resolved)

536 (230)

Reliability

100.0%

DeepSeek V4 Flash

Skill vs Crowd

-0.220

Brier

0.403

Log Loss

1.197

Forecasts (resolved)

534 (222)

Reliability

95.9%