Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Language

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1446

GPT-5.4

1440

Claude Opus 4.6 (Thinking)

1420

Claude Opus 4.6

1377

Claude Sonnet 4.6 (Thinking)

1345

Claude Sonnet 4.6

1319

Claude Sonnet 4.5 (Thinking)

1317

Gemini 3.1 Pro

1295

GPT-5.1

1285

Gemini 3 Pro

1272

Claude Opus 4.5 (Thinking)

1272

Gemini 3 Flash Preview Thinking

1262

Gemini 3 Pro (Low)

1262

GPT-5.2 Instant

1259

Claude Opus 4.5

1254

GPT-5.2

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	2	GPT-5.4	1446	±14	1.7K	1.7%	2.6%	55 tps	0.8s	1M	$2.50	$15.00
2	1	Claude Opus 4.6 (Thinking)	1440	±9	5.1K	1.2%	2.5%	56 tps	1.6s	200K	$5.00	$25.00
3	2	Claude Opus 4.6	1420	±11	6.5K	1.1%	2.1%	48 tps	1.7s	200K	$5.00	$25.00
4	5	Claude Sonnet 4.6 (Thinking)	1377	±9	4.9K	1.3%	4.7%	57 tps	1.1s	200K	$3.00	$15.00
5	4	Claude Sonnet 4.6	1345	±11	4.7K	1.3%	1.6%	47 tps	1.2s	200K	$3.00	$15.00
6	10	Claude Sonnet 4.5 (Thinking)	1319	±4	6.7K	2.4%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
7	6	Gemini 3.1 Pro	1317	±8	7.9K	1.6%	3.5%	35 tps	4.1s	1M	$2.00	$12.00
8	8	GPT-5.1	1295	±7	4.3K	2.2%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
9	10	Gemini 3 Pro	1285	±9	17.6K	1.5%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
10	7	Claude Opus 4.5 (Thinking)	1272	±7	11.3K	2.0%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
11	14	Gemini 3 Flash Preview Thinking	1272	±9	7.9K	1.8%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
12	14	Gemini 3 Pro (Low)	1262	±6	6.1K	2.2%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
13	10	GPT-5.2 Instant	1262	±7	6.9K	1.8%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
14	17	Claude Opus 4.5	1259	±7	4.1K	2.9%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
15	16	GPT-5.2	1254	±11	4.5K	1.8%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
16	8	GPT-5.1 (High)	1252	±8	6.4K	1.9%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
17	17	Gemini 3 Flash Preview	1248	±12	3.9K	2.2%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
18	22	GPT-5 Chat	1243	±7	11.4K	2.5%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
19	13	GPT-5.3 Instant	1240	±14	4.5K	1.9%	0.9%	63 tps	0.8s	400K	$1.75	$14.00
20	17	GPT-5.2 (High)	1236	±8	11.2K	1.8%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
21	37	Claude Sonnet 4.5	1230	±6	4.7K	4.1%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
22	17	Grok 4.20 Beta Reasoning	1209	±21	915	2.1%	1.1%	77 tps	4.5s	2M	$2.00	$5.50
23	26	Claude Haiku 4.5 (Extended Thinking)	1196	±6	3K	2.6%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
24	32	Gemini 2.5 Pro High	1191	±6	6.1K	3.2%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
25	44	Gemini 2.5 Pro	1184	±5	13.8K	2.9%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
26	62	GPT-5.1 Instant	1168	±7	4.3K	2.5%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
27	52	Claude Haiku 4.5	1163	±8	5.3K	4.1%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
28	71	Gemini 2.5 Flash Thinking	1161	±4	6.8K	3.0%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
29	60	MiniMax M2.1	1159	±11	2.1K	2.1%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
30	33	Grok 4.20 Multi Agent Beta	1158	±23	665	1.5%	1.2%	56 tps	8.8s	2M	$2.00	$6.00
31	42	GPT-5.2 (Extra High)	1146	±10	3.5K	2.3%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
32	86	Claude Sonnet 4	1138	±7	7.4K	2.3%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
33	71	Gemini 2.5 Flash Lite Preview 0925	1134	±9	3.5K	3.4%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
34	56	Gemini 3.1 Flash Lite Preview Thinking	1132	±12	1.7K	3.9%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
35	22	GLM 5	1132	±12	1.7K	1.4%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
36	40	Qwen3 235B A22B Instruct 2507	1126	±8	2.1K	2.5%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
37	60	Gemini 2.5 Flash Preview 0925	1124	±9	3.4K	3.4%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
38	48	Claude Sonnet 4 (Thinking)	1116	±7	5.3K	4.2%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
39	26	GPT-5 (High)	1115	±7	3.7K	3.6%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
40	52	GPT-5	1115	±8	5.4K	3.7%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
41	81	GPT-4o	1113	±8	2.2K	3.6%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
42	29	Nova Experimental Chat 12-10	1110	±25	710	1.4%	2.4%	84 tps	12.9s	98K	$0	$0
43	95	Gemini 2.5 Flash	1104	±7	9.8K	2.7%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
44	42	Qwen3 Max Instruct Preview	1103	±13	2.2K	2.0%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
45	68	Grok 4	1102	±7	7.8K	3.3%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
46	95	Gemini 2.5 Flash Lite Thinking Preview 0925	1086	±8	3.4K	2.7%	1.5%	152 tps	3.0s	1M	$0.10	$0.40
47	71	DeepSeek V3.1	1085	±14	690	3.5%	0.8%	197 tps	0.4s	164K	$0.55	$1.60
48	33	Qwen3 30B A3B Instruct 2507	1084	±8	2.3K	3.2%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
49	68	GLM 4.7	1071	±12	1.9K	2.1%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
50	113	Gemini 2.5 Flash Lite Thinking	1071	±10	2.3K	3.2%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
51	56	DeepSeek V3.1 Turbo	1070	±12	1.3K	2.6%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
52	71	Qwen3.5 397B A17B	1067	±15	1.3K	2.2%	4.3%	57 tps	1.4s	256K	$0.52	$3.00
53	71	Gemini 3.1 Flash Lite Preview	1060	±22	1.2K	3.3%	1.0%	8 tps	1.2s	1M	$0.25	$1.50
54	26	Grok 4.1 Fast Non-Reasoning	1058	±19	2K	4.1%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
55	44	DeepSeek V3.1 Terminus Chat	1056	±13	955	2.1%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
56	40	DeepSeek V3.2	1056	±15	1.4K	1.4%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
57	106	Claude Sonnet 3.5 v2	1055	±22	770	3.8%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
58	48	Grok 4 Fast Reasoning	1049	±10	2.3K	3.6%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
59	118	GPT-4.1 mini	1045	±8	3.4K	2.5%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
60	113	Mistral Medium	1043	±11	1.1K	3.1%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
61	86	Amazon Nova 2 Lite	1042	±23	690	2.1%	1.0%	137 tps	0.6s	300K	$0.35	$2.95
62	101	Gemini 2.5 Flash Lite	1042	±6	7.8K	4.3%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
63	37	Qwen3 Omni 30B A3B Thinking	1040	±20	750	2.0%	3.7%	67 tps	1.2s	66K	$0.97	$1.79
64	113	GLM 4.5	1038	±12	915	3.2%	3.7%	46 tps	1.4s	131K	$0.43	$1.63
65	93	DeepSeek V3 0324 Turbo	1038	±9	2.2K	1.8%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
66	86	DeepSeek V3.1 Chat	1038	±13	975	2.5%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
67	29	Qwen3 VL 235B A22B Instruct	1036	±16	1.3K	4.2%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
68	106	Grok 3	1034	±8	2.8K	2.8%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
69	52	Grok 4 Fast Non-Reasoning	1030	±17	1.5K	4.1%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
70	68	Qwen Plus (Aug'24)	1023	±9	2.4K	2.9%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
71	44	Grok 4.1 Fast Reasoning	1020	±7	3.7K	3.0%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
72	56	MiniMax M2.1 Lightning	1019	±24	830	1.8%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
73	71	GPT-5 Mini	1017	±10	3.1K	5.2%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
74	106	DeepSeek V3 0324	1013	±11	2.1K	3.1%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
75	124	Qwen3 235B A22B Thinking 2507	1010	±16	745	3.2%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
76	93	Qwen Max	1009	±11	2.7K	2.7%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
77	65	GLM 4.6	991	±15	945	3.6%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
78	71	Seed 1.8 251228	983	±10	3K	2.6%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
79	143	Gemini 2.0 Flash	974	±19	1.9K	4.7%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
80	133	GPT-4.1 nano	974	±11	2.3K	3.4%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
81	148	OpenAI o3	970	±10	1.2K	3.1%	0.9%	85 tps	6.8s	128K	$7.33	$29.33
82	111	LongCat Flash Chat	963	±25	560	4.3%	0.8%	85 tps	0.9s	131K	$0.14	$0.68
83	153	OpenAI o1	960	±11	2.3K	2.4%	4.2%	92 tps	5.5s	200K	$15.00	$60.00
84	148	OpenAI o4-mini-high	958	±11	2.2K	3.1%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
85	139	OpenAI o4-mini	956	±16	1.4K	2.8%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
86	129	DeepSeek V3.1 Thinking	955	±14	1.1K	2.2%	7.1%	18 tps	1.8s	131K	$0.23	$0.75
87	79	Qwen3 Max Thinking Preview	952	±20	1.1K	2.2%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
88	81	OpenAI o3-pro	951	±19	1.6K	3.4%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
89	101	Qwen3.5 35B A3B	949	±27	530	2.8%	2.1%	116 tps	2.1s	256K	$0.63	$1.13
90	143	Seed 1.6 250615	928	±21	635	5.2%	3.1%	46 tps	2.2s	256K	$0.25	$2.00
91	95	Kimi K2 Thinking	926	±17	740	2.0%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
92	124	Kimi K2 0905 Turbo	925	±13	1.5K	4.7%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
93	133	Kimi K2 0905	922	±21	805	4.2%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
94	126	Qwen3 VL 235B A22B Thinking	922	±18	745	4.5%	4.3%	47 tps	3.0s	127K	$0.47	$3.31
95	119	ERNIE 4.5 300B A47B	918	±17	1.6K	2.7%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
96	143	Gemini 2.0 Flash Lite	917	±11	2.5K	6.7%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
97	62	MiniMax M2	905	±18	1.4K	3.5%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
98	177	OpenAI o3-mini	901	±12	2.5K	3.1%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
99	139	Seed 2.0 Mini (Medium)	900	±30	515	3.7%	11.9%	33 tps	1.7s	256K	$0.15	$0.60
100	165	Qwen3 4B	878	±23	735	3.9%	1.9%	94 tps	1.5s	128K	$0.01	$0.01
101	160	Llama 4 Scout	875	±15	2.3K	2.9%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
102	179	GLM 4.7 Flash	874	±24	855	2.8%	5.8%	61 tps	2.8s	128K	$0.07	$0.39
103	214	OpenAI o3-mini-high	868	±13	1.4K	3.8%	2.4%	231 tps	10.5s	200K	$1.10	$4.40
104	129	Qwen3 Max Thinking	866	±14	1.5K	1.7%	13.5%	32 tps	2.3s	256K	$1.20	$6.00
105	139	GLM 4.6V	865	±24	890	2.7%	6.4%	21 tps	1.8s	128K	$0.38	$0.90
106	170	Kimi K2 0711	858	±24	890	4.3%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
107	157	Qwen3 Next 80B A3B Thinking	846	±15	1.3K	3.9%	0.6%	175 tps	1.3s	256K	$0.21	$2.26
108	157	GPT-5 Nano	843	±14	2K	6.0%	3.2%	113 tps	20.9s	400K	$0.05	$0.40
109	175	OpenAI o3-mini-low	838	±21	1.7K	2.6%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
110	84	GPT-5 Mini Minimal	835	±13	1.1K	6.6%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
111	186	Grok 3 Mini Fast	832	±23	1K	3.3%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
112	133	DeepSeek V3.2 Speciale	830	±28	540	3.6%	6.0%	43 tps	1.4s	131K	$0.84	$1.52
113	161	Qwen3 8B	827	±36	600	4.0%	2.4%	61 tps	1.4s	41K	$0.02	$0.07
114	201	GPT-4o mini	826	±18	645	6.5%	2.1%	71 tps	1.7s	128K	$0.15	$0.60
115	148	Qwen3 30B A3B Thinking 2507	818	±18	795	3.0%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
116	265	Qwen 2.5 VL 72B Instruct	804	±29	715	6.5%	5.3%	25 tps	3.7s	128K	$1.01	$2.79
117	229	Magistral Medium 2509	797	±17	570	5.0%	4.0%	58 tps	0.9s	131K	$2.00	$5.00
118	265	Magistral Small 2509	790	±29	530	6.2%	2.7%	116 tps	0.6s	131K	$0.50	$1.50
119	186	Gemma 3n E4B	781	±27	535	4.5%	2.0%	30 tps	0.5s	8K	$0.01	$0.02
120	194	Llama 3.3 70B	745	±30	525	4.5%	0.3%	500 tps	0.5s	8K	$0.48	$0.66
121	186	Grok 3 Mini	739	±20	1.4K	2.5%	1.2%	43 tps	0.5s	131K	$0.30	$0.50

Show Less