Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1313

GPT-5 Chat

1239

GPT-5.1

1235

Gemini 3 Pro

1214

GPT-5.2 Instant

1211

Gemini 3 Pro (Low)

1203

GPT-5.2

1200

Claude Haiku 4.5 (Extended Thinking)

1195

Gemini 3 Flash Preview Thinking

1188

Claude Opus 4.5 (Thinking)

1183

Grok 4.1 Fast Non-Reasoning

1169

Claude Haiku 4.5

1145

GPT-5.1 (High)

1139

Claude Sonnet 4.5

1139

Qwen3 30B A3B Instruct 2507

1137

Gemini 3 Flash Preview

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	22	GPT-5 Chat	1313	±8	2.4K	0.6%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
2	8	GPT-5.1	1239	±21	960	0.5%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
3	10	Gemini 3 Pro	1235	±13	1.6K	1.2%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
4	10	GPT-5.2 Instant	1214	±21	1.3K	0.4%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
5	14	Gemini 3 Pro (Low)	1211	±21	1K	0.9%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
6	16	GPT-5.2	1203	±26	680	0.7%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
7	26	Claude Haiku 4.5 (Extended Thinking)	1200	±17	610	0.8%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
8	14	Gemini 3 Flash Preview Thinking	1195	±20	950	1.6%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
9	7	Claude Opus 4.5 (Thinking)	1188	±22	1.1K	1.8%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
10	26	Grok 4.1 Fast Non-Reasoning	1183	±28	980	1.0%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
11	52	Claude Haiku 4.5	1169	±17	960	1.0%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
12	8	GPT-5.1 (High)	1145	±19	1.1K	3.6%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
13	37	Claude Sonnet 4.5	1139	±17	1.3K	1.1%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
14	33	Qwen3 30B A3B Instruct 2507	1139	±16	780	1.3%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
15	17	Gemini 3 Flash Preview	1137	±20	615	0.8%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
16	106	DeepSeek V3 0324	1125	±15	1.4K	1.8%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
17	81	GPT-4o	1121	±14	895	1.6%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
18	32	Gemini 2.5 Pro High	1109	±20	1.2K	1.3%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
19	17	Claude Opus 4.5	1086	±21	625	0.8%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
20	40	DeepSeek V3.2	1083	±25	640	0.8%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
21	10	Claude Sonnet 4.5 (Thinking)	1080	±15	1K	1.0%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
22	44	Gemini 2.5 Pro	1076	±12	1.9K	1.3%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
23	62	GPT-5.1 Instant	1070	±21	705	1.4%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
24	106	Claude Sonnet 3.5 v2	1069	±23	630	1.6%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
25	42	Qwen3 Max Instruct Preview	1059	±19	980	1.0%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
26	93	Qwen Max	1056	±11	1.6K	2.4%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
27	93	DeepSeek V3 0324 Turbo	1054	±16	1.5K	2.0%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
28	40	Qwen3 235B A22B Instruct 2507	1050	±17	795	1.2%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
29	68	Qwen Plus (Aug'24)	1046	±18	1.5K	1.3%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
30	17	GPT-5.2 (High)	1036	±20	1.3K	1.1%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
31	44	Grok 4.1 Fast Reasoning	1036	±25	1.2K	1.2%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
32	44	DeepSeek V3.1 Terminus Chat	1034	±22	590	1.7%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
33	52	Grok 4 Fast Non-Reasoning	1031	±29	600	0.8%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
34	48	Claude Sonnet 4 (Thinking)	1031	±20	775	1.3%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
35	52	GPT-5	1023	±14	1.1K	1.7%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
36	42	GPT-5.2 (Extra High)	1020	±24	600	0.8%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
37	101	Gemini 2.5 Flash Lite	1012	±16	1.5K	2.2%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
38	60	MiniMax M2.1	1007	±20	955	1.0%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
39	106	Grok 3	996	±12	1.5K	1.6%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
40	68	Grok 4	989	±11	3.3K	0.9%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
41	48	Grok 4 Fast Reasoning	988	±17	635	0.8%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
42	113	Gemini 2.5 Flash Lite Thinking	986	±19	580	1.7%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
43	71	GPT-5 Mini	979	±27	535	0.9%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
44	119	ERNIE 4.5 300B A47B	976	±15	1.2K	2.0%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
45	95	Gemini 2.5 Flash	976	±14	3.7K	1.6%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
46	62	MiniMax M2	974	±21	760	1.3%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
47	71	Gemini 2.5 Flash Lite Preview 0925	968	±18	680	1.4%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
48	60	Gemini 2.5 Flash Preview 0925	964	±24	700	1.4%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
49	118	GPT-4.1 mini	963	±13	1.9K	1.3%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
50	86	Claude Sonnet 4	958	±12	3.4K	1.0%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
51	160	Llama 4 Scout	947	±14	1.6K	1.9%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
52	124	Kimi K2 0905 Turbo	946	±19	795	1.9%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
53	133	GPT-4.1 nano	944	±13	1.5K	2.0%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
54	68	GLM 4.7	933	±20	870	1.7%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
55	170	Kimi K2 0711	925	±20	510	3.8%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
56	139	OpenAI o4-mini	917	±15	650	2.3%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
57	113	Mistral Medium	908	±21	845	1.7%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
58	79	Qwen3 Max Thinking Preview	903	±33	535	0.9%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
59	71	Seed 1.8 251228	894	±25	660	1.5%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
60	143	Gemini 2.0 Flash	887	±23	680	2.2%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
61	71	Gemini 2.5 Flash Thinking	886	±22	630	1.6%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
62	143	Gemini 2.0 Flash Lite	883	±22	1.6K	1.2%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
63	148	OpenAI o4-mini-high	877	±19	685	2.1%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
64	186	Gemma 3n E4B	805	±25	545	1.8%	2.0%	30 tps	0.5s	8K	$0.01	$0.02
65	177	OpenAI o3-mini	738	±21	700	2.1%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
66	175	OpenAI o3-mini-low	736	±28	555	2.6%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
67	186	Grok 3 Mini Fast	733	±25	540	3.6%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
68	186	Grok 3 Mini	725	±29	625	3.1%	1.2%	43 tps	0.5s	131K	$0.30	$0.50

Show Less