Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1569

Claude Opus 4.6 (Thinking)

1493

GPT-5.4

1469

Claude Opus 4.6

1418

Gemini 3.1 Pro

1368

GPT-5.1 (High)

1364

Claude Sonnet 4.6

1361

GPT-5.2 Instant

1360

GPT-5.1

1345

Qwen3 30B A3B Instruct 2507

1343

Gemini 3 Pro

1329

GPT-5.2

1313

Claude Opus 4.5 (Thinking)

1300

Gemini 3 Pro (Low)

1281

Gemini 3 Flash Preview

1280

Claude Sonnet 4.6 (Thinking)

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	1	Claude Opus 4.6 (Thinking)	1569	±10	1.5K	1.7%	2.5%	56 tps	1.6s	200K	$5.00	$25.00
2	2	GPT-5.4	1493	±14	695	1.4%	2.6%	55 tps	0.8s	1M	$2.50	$15.00
3	2	Claude Opus 4.6	1469	±16	1.6K	2.4%	2.1%	48 tps	1.7s	200K	$5.00	$25.00
4	6	Gemini 3.1 Pro	1418	±11	4.9K	1.0%	3.5%	35 tps	4.1s	1M	$2.00	$12.00
5	8	GPT-5.1 (High)	1368	±10	4.9K	2.2%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
6	4	Claude Sonnet 4.6	1364	±19	1.9K	1.3%	1.6%	47 tps	1.2s	200K	$3.00	$15.00
7	10	GPT-5.2 Instant	1361	±11	4K	1.1%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
8	8	GPT-5.1	1360	±9	2.6K	2.4%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
9	33	Qwen3 30B A3B Instruct 2507	1345	±6	3.4K	1.4%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
10	10	Gemini 3 Pro	1343	±7	16.2K	1.4%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
11	16	GPT-5.2	1329	±9	3.2K	1.2%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
12	7	Claude Opus 4.5 (Thinking)	1313	±9	6K	2.5%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
13	14	Gemini 3 Pro (Low)	1300	±8	4.1K	1.8%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
14	17	Gemini 3 Flash Preview	1281	±11	2K	1.2%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
15	5	Claude Sonnet 4.6 (Thinking)	1280	±14	1.4K	2.2%	4.7%	57 tps	1.1s	200K	$3.00	$15.00
16	17	GPT-5.2 (High)	1275	±12	6.5K	1.4%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
17	29	Qwen3 VL 235B A22B Instruct	1273	±14	1.1K	2.3%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
18	22	GPT-5 Chat	1269	±5	7.9K	1.6%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
19	40	Qwen3 235B A22B Instruct 2507	1261	±8	3.1K	1.4%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
20	10	Claude Sonnet 4.5 (Thinking)	1261	±7	5.5K	1.9%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
21	26	Grok 4.1 Fast Non-Reasoning	1260	±16	2.5K	3.7%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
22	14	Gemini 3 Flash Preview Thinking	1248	±10	3.7K	1.3%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
23	32	Gemini 2.5 Pro High	1234	±6	4.6K	2.4%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
24	62	GPT-5.1 Instant	1233	±12	2.6K	2.7%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
25	81	GPT-4o	1228	±11	2.9K	1.7%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
26	13	GPT-5.3 Instant	1225	±13	2.3K	1.3%	0.9%	63 tps	0.8s	400K	$1.75	$14.00
27	42	Qwen3 Max Instruct Preview	1192	±9	2.8K	3.0%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
28	29	Nova Experimental Chat 12-10	1192	±11	1.4K	0.7%	2.4%	84 tps	12.9s	98K	$0	$0
29	17	Claude Opus 4.5	1177	±15	1.9K	4.7%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
30	42	GPT-5.2 (Extra High)	1172	±13	3K	1.6%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
31	56	Gemini 3.1 Flash Lite Preview Thinking	1162	±19	730	2.0%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
32	44	Gemini 2.5 Pro	1161	±6	12.1K	1.4%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
33	44	Grok 4.1 Fast Reasoning	1159	±11	4.3K	2.9%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
34	26	Claude Haiku 4.5 (Extended Thinking)	1154	±8	2.4K	2.8%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
35	48	Grok 4 Fast Reasoning	1154	±10	2.2K	3.0%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
36	68	Qwen Plus (Aug'24)	1152	±9	4.8K	1.1%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
37	60	Gemini 2.5 Flash Preview 0925	1151	±9	1.8K	3.3%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
38	37	Qwen3 Omni 30B A3B Thinking	1150	±16	845	3.4%	3.7%	67 tps	1.2s	66K	$0.97	$1.79
39	37	Claude Sonnet 4.5	1148	±9	3.3K	2.7%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
40	106	Claude Sonnet 3.5 v2	1147	±14	1K	2.0%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
41	133	Kimi K2 0905	1145	±10	1.5K	2.0%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
42	26	GPT-5 (High)	1131	±9	2.7K	3.2%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
43	40	DeepSeek V3.2	1125	±10	2.1K	1.6%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
44	111	LongCat Flash Chat	1121	±17	725	4.6%	0.8%	85 tps	0.9s	131K	$0.14	$0.68
45	71	Gemini 2.5 Flash Lite Preview 0925	1116	±10	2K	2.4%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
46	101	Gemini 2.5 Flash Lite	1113	±6	4.4K	1.8%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
47	52	Grok 4 Fast Non-Reasoning	1108	±12	1.8K	3.0%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
48	79	Qwen3 Max Thinking Preview	1105	±14	1.9K	4.0%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
49	124	Qwen3 235B A22B Thinking 2507	1091	±20	705	2.1%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
50	52	GPT-5	1084	±7	5K	2.1%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
51	56	DeepSeek V3.1 Turbo	1082	±16	1.8K	2.2%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
52	148	Qwen3 30B A3B Thinking 2507	1081	±19	890	2.7%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
53	93	Qwen Max	1080	±7	5.4K	1.1%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
54	22	GLM 5	1080	±15	1.4K	1.4%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
55	113	Mistral Medium	1079	±9	2.7K	1.8%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
56	52	Claude Haiku 4.5	1078	±11	2.6K	3.7%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
57	95	Kimi K2 Thinking	1072	±30	880	8.8%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
58	60	MiniMax M2.1	1071	±11	2.6K	1.1%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
59	86	DeepSeek V3.1 Chat	1069	±11	1.3K	3.0%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
60	93	DeepSeek V3 0324 Turbo	1068	±7	4.2K	0.8%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
61	68	Grok 4	1062	±6	10.5K	1.3%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
62	95	Gemini 2.5 Flash	1061	±7	10K	1.0%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
63	44	DeepSeek V3.1 Terminus Chat	1060	±13	1.4K	3.3%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
64	84	GPT-5 Mini Minimal	1057	±11	745	5.7%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
65	71	Gemini 2.5 Flash Thinking	1055	±11	2.8K	2.3%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
66	95	Gemini 2.5 Flash Lite Thinking Preview 0925	1051	±15	1.5K	4.2%	1.5%	152 tps	3.0s	1M	$0.10	$0.40
67	56	MiniMax M2.1 Lightning	1050	±23	615	1.6%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
68	157	Qwen3 Next 80B A3B Thinking	1049	±9	2K	2.6%	0.6%	175 tps	1.3s	256K	$0.21	$2.26
69	68	GLM 4.7	1047	±15	2.4K	1.2%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
70	71	GPT-5 Mini	1047	±9	2.2K	2.7%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
71	106	DeepSeek V3 0324	1045	±8	4.1K	1.0%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
72	106	Grok 3	1044	±7	6K	1.1%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
73	113	Gemini 2.5 Flash Lite Thinking	1041	±9	2.2K	1.8%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
74	81	OpenAI o3-pro	1037	±18	950	2.6%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
75	165	DeepSeek R1T2 Chimera	1031	±17	575	3.4%	3.0%	28 tps	1.8s	164K	$0.13	$0.45
76	48	Claude Sonnet 4 (Thinking)	1028	±15	3.7K	2.9%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
77	126	Qwen3 VL 235B A22B Thinking	1027	±13	935	4.1%	4.3%	47 tps	3.0s	127K	$0.47	$3.31
78	62	MiniMax M2	1027	±9	2.5K	5.2%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
79	129	Qwen3 Max Thinking	1022	±12	1.3K	1.1%	13.5%	32 tps	2.3s	256K	$1.20	$6.00
80	71	Qwen3.5 397B A17B	1021	±22	910	1.1%	4.3%	57 tps	1.4s	256K	$0.52	$3.00
81	124	Kimi K2 0905 Turbo	1017	±12	2.1K	2.3%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
82	119	ERNIE 4.5 300B A47B	1014	±11	4K	1.1%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
83	86	Claude Sonnet 4	1013	±7	10.4K	1.2%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
84	65	GLM 4.6	1001	±15	1.3K	4.4%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
85	118	GPT-4.1 mini	999	±10	5.1K	1.4%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
86	71	Seed 1.8 251228	997	±13	2.4K	1.3%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
87	161	Qwen3 8B	991	±11	1.4K	2.5%	2.4%	61 tps	1.4s	41K	$0.02	$0.07
88	113	GLM 4.5	986	±15	1.5K	2.0%	3.7%	46 tps	1.4s	131K	$0.43	$1.63
89	129	DeepSeek V3.1 Thinking	984	±13	1.4K	3.7%	7.1%	18 tps	1.8s	131K	$0.23	$0.75
90	139	OpenAI o4-mini	971	±8	2.2K	2.6%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
91	148	OpenAI o3	968	±12	1.6K	1.6%	0.9%	85 tps	6.8s	128K	$7.33	$29.33
92	143	Gemini 2.0 Flash	965	±12	1.8K	1.3%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
93	71	DeepSeek V3.1	962	±20	750	3.2%	0.8%	197 tps	0.4s	164K	$0.55	$1.60
94	133	GPT-4.1 nano	958	±8	4K	1.4%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
95	157	GPT-5 Nano	955	±18	1.2K	4.1%	3.2%	113 tps	20.9s	400K	$0.05	$0.40
96	86	Amazon Nova 2 Lite	948	±21	970	7.6%	1.0%	137 tps	0.6s	300K	$0.35	$2.95
97	143	Gemini 2.0 Flash Lite	948	±7	3.5K	1.7%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
98	153	OpenAI o1	946	±11	3.6K	1.0%	4.2%	92 tps	5.5s	200K	$15.00	$60.00
99	165	Qwen3 4B	940	±14	1.7K	5.2%	1.9%	94 tps	1.5s	128K	$0.01	$0.01
100	179	GLM 4.7 Flash	932	±26	690	2.1%	5.8%	61 tps	2.8s	128K	$0.07	$0.39
101	170	Kimi K2 0711	932	±12	2.4K	1.7%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
102	170	Mistral Small 3.2 24B	929	±14	985	2.5%	2.8%	141 tps	0.7s	33K	$0.02	$0.08
103	111	Grok 3 Fast	922	±12	530	0.9%	1.7%	52 tps	2.4s	131K	$5.00	$25.00
104	133	DeepSeek V3.2 Speciale	922	±25	780	6.6%	6.0%	43 tps	1.4s	131K	$0.84	$1.52
105	148	OpenAI o4-mini-high	915	±10	4.7K	1.5%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
106	143	Seed 1.6 250615	888	±23	530	2.8%	3.1%	46 tps	2.2s	256K	$0.25	$2.00
107	139	GLM 4.6V	880	±33	885	2.2%	6.4%	21 tps	1.8s	128K	$0.38	$0.90
108	157	Cogito v2.1 671B	876	±30	490	3.9%	0.8%	85 tps	0.5s	128K	$1.25	$1.25
109	160	Llama 4 Scout	872	±11	4.4K	1.4%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
110	194	Magistral Small 2506	870	±16	1K	2.8%	1.6%	156 tps	0.5s	40K	$0.37	$1.10
111	170	Devstral Medium	865	±19	805	1.8%	1.5%	77 tps	0.6s	131K	$0.40	$2.00
112	209	Llama 3.3 Swallow 70B Instruct	865	±19	820	1.8%	1.4%	153 tps	1.3s	131K	$0.13	$0.39
113	175	OpenAI o3-mini-low	852	±8	4.4K	1.8%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
114	186	Grok 3 Mini	852	±14	2.5K	1.4%	1.2%	43 tps	0.5s	131K	$0.30	$0.50
115	177	OpenAI o3-mini	851	±7	4.7K	1.8%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
116	179	Inception Mercury	847	±13	1.4K	1.0%	0.4%	257 tps	1.1s	32K	$0.25	$1.00
117	214	OpenAI o3-mini-high	833	±13	2.9K	1.0%	2.4%	231 tps	10.5s	200K	$1.10	$4.40
118	235	GLM 4 32B	820	±16	700	2.1%	2.6%	40 tps	1.6s	33K	$0.14	$0.14
119	186	Gemma 3n E4B	814	±17	1.6K	3.6%	2.0%	30 tps	0.5s	8K	$0.01	$0.02
120	186	Grok 3 Mini Fast	807	±14	2.4K	1.8%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
121	179	Amazon Nova Pro 1.0	803	±13	1.2K	2.0%	0.9%	96 tps	0.7s	300K	$0.80	$1.70
122	229	Magistral Medium 2509	782	±28	550	7.6%	4.0%	58 tps	0.9s	131K	$2.00	$5.00
123	186	Jamba 1.6 Large	761	±15	780	1.9%	2.0%	59 tps	1.2s	256K	$1.33	$5.33
124	222	Jamba 1.5 Large	744	±24	715	2.1%	1.7%	48 tps	0.9s	256K	$1.50	$6.00
125	274	DeepSeek-R1 Distill Qwen 32B	736	±22	570	1.7%	6.2%	22 tps	1.8s	131K	$0.37	$0.39
126	194	Llama 3.3 70B	726	±26	735	5.2%	0.3%	500 tps	0.5s	8K	$0.48	$0.66
127	179	Switchpoint Router	710	±26	620	3.1%	1.7%	71 tps	4.9s	131K	$0.85	$3.40
128	284	MiniMax M1	707	±14	1.5K	1.0%	<0.1%	31 tps	2.8s	1M	$0.55	$2.20
129	214	Gemma 3 12B	689	±23	550	4.3%	4.2%	73 tps	0.8s	131K	$0.05	$0.12
130	209	Qwen 2.5 14B Instruct	679	±22	505	3.8%	2.4%	40 tps	1.6s	1M	$0.40	$1.61
131	201	GPT-4o mini	654	±30	515	4.6%	2.1%	71 tps	1.7s	128K	$0.15	$0.60

Show Less