Leaderboard | Coding

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1114

GPT-5 Mini Minimal

1118

Gemini 2.5 Flash Thinking

1122

Gemini 2.5 Flash Lite Preview 0925

1123

GPT-4.1

1125

Grok 4

1127

Qwen3 Max Thinking Preview

1129

Grok 4.20 Multi Agent Beta

1130

DeepSeek V3.1 Turbo

1131

GPT-5 Mini

1131

Mistral Large 3

1140

Gemini 2.5 Flash Preview 0925

1142

Qwen3.5 397B A17B

1146

Qwen Plus (Aug'24)

1158

DeepSeek V3.1 Terminus Chat

1161

GLM 4.7

Last updated about 1 month ago

Rank	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
201	GPT-5 Mini Minimal	1114	±12	3.2K	8.5%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
202	Gemini 2.5 Flash Thinking	1118	±4	13.7K	3.6%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
203	Gemini 2.5 Flash Lite Preview 0925	1122	±7	8.5K	6.6%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
204	GPT-4.1	1123	±5	32.8K	5.2%	3.7%	112 tps	1.3s	1M	$2.00	$8.00
205	Grok 4	1125	±3	39.6K	4.4%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
206	Qwen3 Max Thinking Preview	1127	±10	6.3K	5.7%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
207	Grok 4.20 Multi Agent Beta	1129	±19	945	3.6%	1.2%	56 tps	8.8s	2M	$2.00	$6.00
208	DeepSeek V3.1 Turbo	1130	±7	4.8K	5.3%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
209	GPT-5 Mini	1131	±5	8.6K	5.4%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
210	Mistral Large 3	1131	±8	5.4K	5.8%	2.1%	51 tps	1.0s	256K	$0.50	$1.50
211	Gemini 2.5 Flash Preview 0925	1140	±6	7.6K	6.0%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
212	Qwen3.5 397B A17B	1142	±14	2.5K	2.9%	4.3%	57 tps	1.4s	256K	$0.52	$3.00
213	Qwen Plus (Aug'24)	1146	±5	17.2K	4.7%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
214	DeepSeek V3.1 Terminus Chat	1158	±5	6.5K	6.9%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
215	GLM 4.7	1161	±7	16.8K	3.7%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
216	GPT-5 Codex (Low)	1163	±10	5K	4.1%	2.7%	112 tps	3.5s	400K	$1.25	$10.00
217	Qwen3.5 35B A3B	1164	±25	865	3.9%	2.1%	116 tps	2.1s	256K	$0.63	$1.13
218	gpt-oss-120b	1165	±5	19.2K	5.0%	0.7%	213 tps	0.5s	131K	$0.11	$0.50
219	Grok 4.20 Beta Reasoning	1167	±22	1.2K	4.1%	1.1%	77 tps	4.5s	2M	$2.00	$5.50
220	GPT-5.1 Instant	1171	±8	8.3K	4.1%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
221	GPT-5.1 Codex (Medium)	1171	±14	3K	3.2%	4.6%	71 tps	3.7s	400K	$1.25	$10.00
222	Claude Sonnet 3.5 v2	1171	±6	5.5K	3.4%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
223	Qwen3 235B A22B Instruct 2507	1172	±4	12.6K	6.4%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
224	Gemini 2.5 Pro	1176	±3	37.9K	4.8%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
225	Grok 4 Fast Reasoning	1177	±3	14.5K	5.0%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
226	DeepSeek V3.2 Thinking	1178	±9	23.3K	4.0%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
227	Grok 4.1 Fast Reasoning	1178	±7	39.5K	4.4%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
228	GPT-5.3 Codex (Low)	1178	±28	510	1.0%	1.8%	61 tps	4.3s	400K	$1.75	$14.00
229	GLM 4.6	1182	±7	17.2K	4.4%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
230	Nova Experimental Chat 12-10	1182	±9	2.9K	3.8%	2.4%	84 tps	12.9s	98K	$0	$0
231	MiniMax M2	1183	±5	19.7K	4.2%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
232	Grok 4 Fast Non-Reasoning	1185	±5	8.1K	7.1%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
233	GPT-5	1185	±4	21.3K	5.3%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
234	MiniMax M2.5 FP8	1185	±17	610	3.2%	3.6%	33 tps	1.7s	205K	$0.45	$1.75
235	DeepSeek V3.2	1189	±8	5.1K	4.7%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
236	MiniMax M2.1	1192	±8	19.4K	3.6%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
237	Kimi K2 Thinking Turbo	1192	±6	20.3K	3.4%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
238	Qwen3 30B A3B Instruct 2507	1194	±5	12.7K	5.7%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
239	MiniMax M2.1 Lightning	1197	±23	875	3.3%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
240	GPT-5.1 Codex Max	1200	±12	6.4K	3.9%	3.0%	118 tps	4.1s	400K	$1.25	$10.00

6of8

View All (286 models)