Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Language

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1388

Claude Opus 4.6 (Thinking)

1339

GPT-5.4

1328

Claude Opus 4.6

1325

Claude Sonnet 4.6 (Thinking)

1268

Gemini 3.1 Pro

1266

GPT-5.2 Instant

1258

GPT-5.1 (High)

1243

GPT-5 (High)

1233

GPT-5.1

1232

Claude Sonnet 4.6

1226

Qwen3 30B A3B Instruct 2507

1217

Gemini 3 Pro

1208

GPT-5 Chat

1202

Qwen3 VL 235B A22B Instruct

1191

GPT-5.3 Instant

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	1	Claude Opus 4.6 (Thinking)	1388	±10	1.8K	0.8%	2.5%	56 tps	1.6s	200K	$5.00	$25.00
2	2	GPT-5.4	1339	±15	530	0.9%	2.6%	55 tps	0.8s	1M	$2.50	$15.00
3	2	Claude Opus 4.6	1328	±8	2.3K	0.9%	2.1%	48 tps	1.7s	200K	$5.00	$25.00
4	5	Claude Sonnet 4.6 (Thinking)	1325	±7	1.6K	1.2%	4.7%	57 tps	1.1s	200K	$3.00	$15.00
5	6	Gemini 3.1 Pro	1268	±8	4.3K	0.7%	3.5%	35 tps	4.1s	1M	$2.00	$12.00
6	10	GPT-5.2 Instant	1266	±4	6.2K	0.7%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
7	8	GPT-5.1 (High)	1258	±6	5.3K	1.3%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
8	26	GPT-5 (High)	1243	±7	3K	2.3%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
9	8	GPT-5.1	1233	±8	3.3K	1.4%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
10	4	Claude Sonnet 4.6	1232	±11	1.6K	0.9%	1.6%	47 tps	1.2s	200K	$3.00	$15.00
11	33	Qwen3 30B A3B Instruct 2507	1226	±8	5.6K	2.2%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
12	10	Gemini 3 Pro	1217	±5	11.7K	0.9%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
13	22	GPT-5 Chat	1208	±5	10.4K	2.2%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
14	29	Qwen3 VL 235B A22B Instruct	1202	±10	1.8K	4.5%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
15	13	GPT-5.3 Instant	1191	±11	1.6K	1.2%	0.9%	63 tps	0.8s	400K	$1.75	$14.00
16	17	Grok 4.20 Beta Reasoning	1190	±17	540	0.9%	1.1%	77 tps	4.5s	2M	$2.00	$5.50
17	14	Gemini 3 Pro (Low)	1189	±6	4.8K	0.9%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
18	32	Gemini 2.5 Pro High	1182	±3	6.7K	2.2%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
19	40	Qwen3 235B A22B Instruct 2507	1178	±6	5.1K	1.9%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
20	106	Claude Sonnet 3.5 v2	1177	±8	1.6K	1.2%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
21	17	GPT-5.2 (High)	1177	±7	7.4K	0.8%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
22	14	Gemini 3 Flash Preview Thinking	1173	±5	4.4K	0.6%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
23	81	GPT-4o	1170	±9	2.3K	2.8%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
24	16	GPT-5.2	1168	±6	3K	1.2%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
25	17	Gemini 3 Flash Preview	1166	±7	2.4K	0.6%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
26	60	Gemini 2.5 Flash Preview 0925	1163	±7	2.7K	2.9%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
27	7	Claude Opus 4.5 (Thinking)	1155	±5	5.3K	1.6%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
28	26	Grok 4.1 Fast Non-Reasoning	1151	±6	3.2K	1.8%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
29	68	Qwen Plus (Aug'24)	1150	±5	7.5K	1.4%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
30	17	Claude Opus 4.5	1144	±8	2.4K	2.1%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
31	37	Qwen3 Omni 30B A3B Thinking	1139	±7	1.6K	1.2%	3.7%	67 tps	1.2s	66K	$0.97	$1.79
32	29	Nova Experimental Chat 12-10	1138	±9	1.9K	0.5%	2.4%	84 tps	12.9s	98K	$0	$0
33	10	Claude Sonnet 4.5 (Thinking)	1136	±5	6.8K	2.7%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
34	42	GPT-5.2 (Extra High)	1131	±5	3.7K	0.9%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
35	26	Claude Haiku 4.5 (Extended Thinking)	1129	±5	3.6K	1.6%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
36	42	Qwen3 Max Instruct Preview	1126	±4	4.3K	2.8%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
37	44	Gemini 2.5 Pro	1126	±4	16.2K	1.5%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
38	44	Grok 4.1 Fast Reasoning	1119	±6	5.4K	1.5%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
39	37	Claude Sonnet 4.5	1116	±6	5K	3.1%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
40	56	DeepSeek V3.1 Turbo	1114	±6	4K	2.1%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
41	40	DeepSeek V3.2	1113	±5	3.6K	0.8%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
42	101	Gemini 2.5 Flash Lite	1112	±6	7.6K	1.7%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
43	93	Qwen Max	1111	±6	7.6K	1.4%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
44	95	Qwen3 32B	1111	±17	515	1.9%	3.9%	30 tps	3.1s	41K	$0.12	$0.42
45	22	GLM 5	1110	±7	1.8K	0.8%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
46	84	GPT-5 Mini Minimal	1107	±10	970	3.5%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
47	93	DeepSeek V3 0324 Turbo	1103	±5	4.4K	1.9%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
48	86	DeepSeek V3.1 Chat	1097	±7	1.9K	2.3%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
49	111	LongCat Flash Chat	1095	±7	1.7K	2.8%	0.8%	85 tps	0.9s	131K	$0.14	$0.68
50	62	GPT-5.1 Instant	1085	±6	3.7K	1.1%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
51	106	DeepSeek V3 0324	1084	±4	5.7K	1.4%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
52	52	GPT-5	1083	±5	7.6K	2.2%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
53	86	Claude Sonnet 4	1083	±5	12K	1.6%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
54	60	MiniMax M2.1	1080	±6	5.2K	0.6%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
55	48	Grok 4 Fast Reasoning	1077	±6	3.3K	2.8%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
56	121	NVIDIA Llama 3.3 Nemotron Super 49B v1.5	1076	±12	755	1.9%	2.0%	50 tps	0.6s	131K	$0.09	$0.33
57	52	Claude Haiku 4.5	1076	±8	4.2K	2.2%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
58	52	Grok 4 Fast Non-Reasoning	1075	±6	2.9K	3.3%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
59	56	Gemini 3.1 Flash Lite Preview Thinking	1071	±13	560	1.8%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
60	68	Grok 4	1070	±4	13.8K	1.6%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
61	95	Gemini 2.5 Flash	1068	±4	11.2K	1.2%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
62	56	MiniMax M2.1 Lightning	1067	±12	855	0.6%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
63	79	Qwen3 Max Thinking Preview	1067	±6	3.1K	1.4%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
64	71	Gemini 2.5 Flash Lite Preview 0925	1066	±6	3.3K	2.8%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
65	124	Qwen3 235B A22B Thinking 2507	1065	±7	1.8K	1.9%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
66	118	GPT-4.1 mini	1062	±5	5.5K	1.8%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
67	81	OpenAI o3-pro	1061	±14	1.3K	2.7%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
68	106	Grok 3	1054	±6	7.1K	1.7%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
69	95	Kimi K2 Thinking	1054	±9	1.9K	3.8%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
70	71	DeepSeek V3.1	1053	±13	1.8K	1.6%	0.8%	197 tps	0.4s	164K	$0.55	$1.60
71	44	DeepSeek V3.1 Terminus Chat	1053	±6	2.6K	2.6%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
72	62	MiniMax M2	1046	±6	3.8K	1.9%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
73	119	ERNIE 4.5 300B A47B	1046	±6	5.3K	1.3%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
74	133	GPT-4.1 nano	1046	±8	5.1K	2.0%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
75	48	Claude Sonnet 4 (Thinking)	1044	±5	8.4K	2.3%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
76	71	Gemini 2.5 Flash Thinking	1042	±5	6.5K	1.5%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
77	71	Qwen3.5 397B A17B	1040	±10	1.4K	1.4%	4.3%	57 tps	1.4s	256K	$0.52	$3.00
78	119	GLM 4.7 FP8	1039	±9	515	1.0%	6.9%	40 tps	1.3s	200K	$0.30	$1.20
79	113	Mistral Medium	1035	±5	3.6K	1.8%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
80	65	GLM 4.6	1030	±8	2.6K	2.8%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
81	68	GLM 4.7	1026	±6	4.5K	0.8%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
82	71	GPT-5 Mini	1025	±6	3.2K	2.0%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
83	126	Qwen3 VL 235B A22B Thinking	1024	±11	1.6K	4.2%	4.3%	47 tps	3.0s	127K	$0.47	$3.31
84	143	Gemini 2.0 Flash	1022	±7	2.5K	2.5%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
85	113	GLM 4.5	1019	±6	2.5K	1.6%	3.7%	46 tps	1.4s	131K	$0.43	$1.63
86	71	Seed 1.8 251228	1018	±6	4.4K	1.0%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
87	139	GLM 4.6V	1018	±12	1.6K	1.2%	6.4%	21 tps	1.8s	128K	$0.38	$0.90
88	148	Qwen3 30B A3B Thinking 2507	1017	±9	2.2K	1.8%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
89	133	Kimi K2 0905	1013	±11	2.1K	3.7%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
90	101	DeepSeek V3 (Turbo)	1013	±12	705	1.4%	1.5%	32 tps	1.5s	64K	$0.40	$1.30
91	129	Qwen3 Max Thinking	1012	±6	2.1K	0.2%	13.5%	32 tps	2.3s	256K	$1.20	$6.00
92	143	Seed 1.6 250615	1005	±20	880	2.2%	3.1%	46 tps	2.2s	256K	$0.25	$2.00
93	133	DeepSeek V3.2 Speciale	1003	±10	1.3K	2.2%	6.0%	43 tps	1.4s	131K	$0.84	$1.52
94	113	Gemini 2.5 Flash Lite Thinking	1003	±8	3.7K	2.4%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
95	157	Qwen3 Next 80B A3B Thinking	1000	±7	3.2K	3.0%	0.6%	175 tps	1.3s	256K	$0.21	$2.26
96	161	Qwen3 8B	992	±8	3.1K	1.6%	2.4%	61 tps	1.4s	41K	$0.02	$0.07
97	71	MiniMax M2.5 FP8	988	±19	525	1.9%	3.6%	33 tps	1.7s	205K	$0.45	$1.75
98	143	Gemini 2.0 Flash Lite	988	±6	4.1K	2.6%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
99	153	OpenAI o1	981	±5	9.1K	1.7%	4.2%	92 tps	5.5s	200K	$15.00	$60.00
100	95	Gemini 2.5 Flash Lite Thinking Preview 0925	978	±7	2.2K	2.5%	1.5%	152 tps	3.0s	1M	$0.10	$0.40
101	124	Kimi K2 0905 Turbo	972	±7	3.2K	3.9%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
102	165	Qwen3 4B	970	±8	3.1K	2.7%	1.9%	94 tps	1.5s	128K	$0.01	$0.01
103	148	OpenAI o4-mini-high	966	±4	9.3K	1.8%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
104	86	Amazon Nova 2 Lite	966	±9	1.6K	3.0%	1.0%	137 tps	0.6s	300K	$0.35	$2.95
105	175	OpenAI o3-mini-low	963	±8	8.8K	1.9%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
106	129	DeepSeek V3.1 Thinking	956	±10	2.2K	2.4%	7.1%	18 tps	1.8s	131K	$0.23	$0.75
107	170	Mistral Small 3.2 24B	953	±9	1.4K	1.8%	2.8%	141 tps	0.7s	33K	$0.02	$0.08
108	165	DeepSeek R1T2 Chimera	947	±20	620	2.4%	3.0%	28 tps	1.8s	164K	$0.13	$0.45
109	160	Llama 4 Scout	941	±7	6.9K	1.5%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
110	179	GLM 4.7 Flash	939	±11	1.1K	1.3%	5.8%	61 tps	2.8s	128K	$0.07	$0.39
111	186	Grok 3 Mini Fast	939	±11	3.9K	2.3%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
112	157	Cogito v2.1 671B	937	±15	885	1.7%	0.8%	85 tps	0.5s	128K	$1.25	$1.25
113	148	OpenAI o3	935	±5	4.3K	1.7%	0.9%	85 tps	6.8s	128K	$7.33	$29.33
114	157	GPT-5 Nano	928	±10	1.8K	3.0%	3.2%	113 tps	20.9s	400K	$0.05	$0.40
115	170	Kimi K2 0711	928	±9	3.2K	2.2%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
116	139	OpenAI o4-mini	925	±8	4K	2.3%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
117	209	Seed 1.6 Flash 250715	922	±16	580	2.5%	2.5%	108 tps	1.6s	256K	$0.07	$0.30
118	214	OpenAI o3-mini-high	922	±6	7.5K	2.0%	2.4%	231 tps	10.5s	200K	$1.10	$4.40
119	177	OpenAI o3-mini	921	±6	9K	1.9%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
120	214	Gemma 3 12B	921	±18	635	3.1%	4.2%	73 tps	0.8s	131K	$0.05	$0.12
121	186	Jamba 1.6 Large	915	±18	660	1.5%	2.0%	59 tps	1.2s	256K	$1.33	$5.33
122	113	GLM 4.5 AirX	913	±23	540	1.8%	3.3%	75 tps	1.2s	131K	$1.10	$4.50
123	186	Grok 3 Mini	908	±9	3.8K	2.3%	1.2%	43 tps	0.5s	131K	$0.30	$0.50
124	194	Llama 3.3 70B	900	±12	1.1K	3.0%	0.3%	500 tps	0.5s	8K	$0.48	$0.66
125	170	Devstral Medium	899	±10	995	1.5%	1.5%	77 tps	0.6s	131K	$0.40	$2.00
126	186	Gemma 3n E4B	892	±10	2K	2.6%	2.0%	30 tps	0.5s	8K	$0.01	$0.02
127	179	Switchpoint Router	876	±16	675	1.5%	1.7%	71 tps	4.9s	131K	$0.85	$3.40
128	229	ERNIE 4.5 21B A3B Thinking	866	±16	685	2.8%	1.8%	87 tps	1.5s	120K	$0.07	$0.28
129	209	Llama 3.3 Swallow 70B Instruct	854	±18	890	1.1%	1.4%	153 tps	1.3s	131K	$0.13	$0.39
130	229	Magistral Medium 2509	849	±16	990	3.9%	4.0%	58 tps	0.9s	131K	$2.00	$5.00
131	194	Magistral Small 2506	847	±14	1.3K	1.9%	1.6%	156 tps	0.5s	40K	$0.37	$1.10
132	209	Qwen 2.5 14B Instruct	830	±24	570	1.7%	2.4%	40 tps	1.6s	1M	$0.40	$1.61
133	265	Magistral Small 2509	830	±23	825	5.7%	2.7%	116 tps	0.6s	131K	$0.50	$1.50
134	179	Inception Mercury	829	±10	2K	1.5%	0.4%	257 tps	1.1s	32K	$0.25	$1.00
135	201	Llama 3 8B	826	±17	720	1.4%	6.0%	85 tps	0.7s	8K	$0.12	$0.16
136	222	Jamba 1.5 Large	819	±15	690	1.4%	1.7%	48 tps	0.9s	256K	$1.50	$6.00
137	179	Amazon Nova Pro 1.0	807	±19	1.4K	1.7%	0.9%	96 tps	0.7s	300K	$0.80	$1.70
138	201	GPT-4o mini	803	±24	545	4.4%	2.1%	71 tps	1.7s	128K	$0.15	$0.60
139	235	GLM 4 32B	751	±19	740	2.0%	2.6%	40 tps	1.6s	33K	$0.14	$0.14
140	225	GPT-3.5 Turbo 16k	699	±17	690	0.7%	<0.1%	22 tps	0.6s	16K	$3.00	$4.00
141	274	DeepSeek-R1 Distill Qwen 32B	638	±9	1.8K	2.7%	6.2%	22 tps	1.8s	131K	$0.37	$0.39
142	284	MiniMax M1	570	±10	3K	1.3%	<0.1%	31 tps	2.8s	1M	$0.55	$2.20

Show Less