Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

1485

Claude Opus 4.6 (Thinking)

1483

Claude Opus 4.6

1466

GPT-5.4 (High)

1344

Gemini 3.1 Pro

1295

Claude Sonnet 4.6

1280

GPT-5.1 (Medium)

1274

GPT-5.2 Instant

1274

GPT-5.1 (High)

1270

Gemini 3 Pro (Low)

1268

GPT-5.1

1265

Gemini 3 Pro

1264

Nova Experimental Chat 11-10

1260

Claude Sonnet 4.5 (Thinking)

1248

Claude Opus 4.5 (Thinking)

1235

Claude Sonnet 4.6 (Thinking)

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	1	Claude Opus 4.6 (Thinking)	1485	±11	2.3K	1.3%	2.5%	56 tps	1.6s	200K	$5.00	$25.00
2	2	Claude Opus 4.6	1483	±11	3.2K	0.9%	2.1%	48 tps	1.7s	200K	$5.00	$25.00
3	4	GPT-5.4 (High)	1466	±19	515	2.8%	4.6%	68 tps	7.9s	1M	$2.50	$15.00
4	6	Gemini 3.1 Pro	1344	±16	2.8K	2.4%	3.5%	35 tps	4.1s	1M	$2.00	$12.00
5	4	Claude Sonnet 4.6	1295	±16	1.8K	0.8%	1.6%	47 tps	1.2s	200K	$3.00	$15.00
6	8	GPT-5.1 (Medium)	1280	±12	740	1.3%	<0.1%	86 tps	3.8s	400K	$0.83	$6.67
7	10	GPT-5.2 Instant	1274	±8	3.9K	2.2%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
8	8	GPT-5.1 (High)	1274	±6	4.2K	2.5%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
9	14	Gemini 3 Pro (Low)	1270	±12	3.5K	2.4%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
10	8	GPT-5.1	1268	±6	3.3K	1.5%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
11	10	Gemini 3 Pro	1265	±5	12K	1.3%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
12	16	Nova Experimental Chat 11-10	1264	±13	1.1K	1.4%	0.4%	84 tps	8.9s	98K	$0	$0
13	10	Claude Sonnet 4.5 (Thinking)	1260	±4	8.3K	1.8%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
14	7	Claude Opus 4.5 (Thinking)	1248	±6	9.3K	2.3%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
15	5	Claude Sonnet 4.6 (Thinking)	1235	±18	1.7K	2.0%	4.7%	57 tps	1.1s	200K	$3.00	$15.00
16	17	Claude Opus 4.5	1228	±9	2.9K	1.8%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
17	22	GPT-5 Chat	1220	±6	10.4K	2.1%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
18	16	GPT-5.2	1213	±12	2.7K	2.2%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
19	14	Gemini 3 Flash Preview Thinking	1212	±8	4.2K	1.8%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
20	19	Mistral Medium 3.1	1198	±10	2.2K	2.8%	<0.1%	77 tps	0.7s	128K	$0.40	$2.00
21	17	Gemini 3 Flash Preview	1198	±14	2K	2.0%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
22	32	Gemini 2.5 Pro High	1189	±6	4.5K	2.5%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
23	22	GLM 5	1184	±22	795	2.5%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
24	17	GPT-5.2 (High)	1175	±10	6.4K	1.7%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
25	42	GPT-5.2 (Extra High)	1168	±12	2.4K	1.8%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
26	37	Nova Experimental Chat 10-20	1162	±9	1.1K	3.1%	<0.1%	30 tps	0.5s	98K	$0	$0
27	56	Gemini 2.5 Pro Low	1162	±8	2.4K	3.3%	<0.1%	89 tps	2.4s	1M	$1.25	$10.00
28	13	GPT-5.3 Instant	1160	±19	1.5K	1.9%	0.9%	63 tps	0.8s	400K	$1.75	$14.00
29	84	Claude Sonnet 3.7 (Thinking)	1159	±7	1.9K	5.3%	<0.1%	41 tps	2.6s	200K	$3.00	$15.00
30	44	Gemini 2.5 Pro	1158	±5	7.8K	3.3%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
31	52	GPT-5	1157	±7	5.3K	2.9%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
32	37	Claude Sonnet 4.5	1156	±5	5.1K	2.8%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
33	71	Gemini 2.5 Flash Thinking	1148	±7	2.6K	4.2%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
34	48	Claude Sonnet 4 (Thinking)	1144	±6	4.2K	3.5%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
35	33	Qwen3 Next 80B A3B Instruct	1142	±9	1.8K	2.5%	0.6%	84 tps	1.1s	256K	$0.20	$1.42
36	80	GPT-5 (Minimal)	1141	±11	1.9K	3.0%	<0.1%	67 tps	1.4s	400K	$1.25	$10.00
37	111	Claude Sonnet 3.7	1140	±9	2K	5.0%	<0.1%	39 tps	1.6s	200K	$3.00	$15.00
38	43	Gemini 2.5 Flash Thinking Preview 0925	1138	±7	2.3K	3.4%	<0.1%	111 tps	4.7s	1M	$0.30	$2.50
39	29	Nova Experimental Chat 12-10	1135	±19	720	2.0%	2.4%	84 tps	12.9s	98K	$0	$0
40	60	Gemini 2.5 Flash Preview 0925	1131	±10	2.1K	2.7%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
41	26	Grok 4.1 Fast Non-Reasoning	1130	±15	2K	4.3%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
42	33	Qwen3 30B A3B Instruct 2507	1127	±9	2.5K	2.9%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
43	81	OpenAI o3-pro	1126	±10	2.3K	3.1%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
44	40	Qwen3 235B A22B Instruct 2507	1118	±11	2.5K	2.1%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
45	68	Qwen Plus (Aug'24)	1115	±8	1.9K	2.6%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
46	26	Claude Haiku 4.5 (Extended Thinking)	1115	±12	2.2K	2.7%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
47	29	Qwen3 VL 235B A22B Instruct	1114	±8	1.3K	2.5%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
48	21	Claude Opus 4 (Thinking)	1114	±8	770	3.1%	<0.1%	28 tps	1.3s	200K	$15.00	$75.00
49	71	Qwen3.5 397B A17B	1112	±24	580	2.5%	4.3%	57 tps	1.4s	256K	$0.52	$3.00
50	26	GPT-5 (High)	1110	±7	4.3K	3.1%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
51	37	Kimi K2.5 Instant	1101	±28	495	1.0%	2.9%	32 tps	3.0s	262K	$0.50	$3.00
52	95	Gemini 2.5 Flash	1098	±9	4.8K	2.7%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
53	68	Grok 4	1093	±5	5.7K	4.0%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
54	48	Grok 4 Fast Reasoning	1090	±11	2.1K	3.1%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
55	21	Claude Opus 4	1087	±9	3.2K	2.9%	<0.1%	25 tps	1.5s	200K	$15.00	$75.00
56	56	Gemini 3.1 Flash Lite Preview Thinking	1083	±32	485	3.0%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
57	33	Kimi K2.5	1083	±16	1.7K	3.2%	6.5%	33 tps	1.7s	262K	$0.34	$2.57
58	48	gpt-oss-120b	1083	±7	3.5K	3.0%	0.7%	213 tps	0.5s	131K	$0.11	$0.50
59	56	Claude Opus 4.1 (Thinking)	1083	±6	2K	4.1%	<0.1%	20 tps	3.9s	200K	$15.00	$75.00
60	44	Grok 4.1 Fast Reasoning	1076	±10	2.6K	4.2%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
61	71	GPT-5 Mini	1075	±9	2.1K	4.3%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
62	62	GPT-5.1 Instant	1075	±9	2.2K	2.6%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
63	93	DeepSeek V3 0324 Turbo	1074	±14	2.1K	1.9%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
64	71	Gemini 2.5 Flash Lite Preview 0925	1066	±11	2.2K	2.8%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
65	86	Claude Sonnet 4	1066	±8	5.3K	2.5%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
66	42	Qwen3 Max Instruct Preview	1063	±7	2.7K	1.5%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
67	40	DeepSeek V3.2	1063	±16	1.1K	2.5%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
68	52	Claude Haiku 4.5	1057	±6	3.4K	3.4%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
69	52	Grok 4 Fast Non-Reasoning	1054	±8	1.6K	2.5%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
70	81	GPT-4o	1046	±15	1.4K	2.5%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
71	48	OpenAI o1-mini	1045	±8	1.8K	3.5%	<0.1%	118 tps	N/A	128K	$1.13	$4.51
72	60	MiniMax M2.1	1044	±12	1.7K	2.8%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
73	95	Gemini 2.5 Flash Lite Thinking Preview 0925	1044	±9	1.7K	3.5%	1.5%	152 tps	3.0s	1M	$0.10	$0.40
74	62	MiniMax M2	1043	±9	1.8K	4.2%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
75	65	GLM 4.6	1041	±11	1.6K	2.9%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
76	44	DeepSeek V3.1 Terminus Chat	1037	±9	1.3K	2.2%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
77	56	DeepSeek V3.2 Thinking	1033	±15	1.7K	2.0%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
78	77	Claude Opus 4.1	1032	±11	2K	2.7%	3.0%	17 tps	3.7s	200K	$15.00	$75.00
79	129	Qwen3 Max Thinking	1029	±31	600	2.4%	13.5%	32 tps	2.3s	256K	$1.20	$6.00
80	65	Mistral Large 3	1026	±22	1.1K	4.1%	2.1%	51 tps	1.0s	256K	$0.50	$1.50
81	95	DeepSeek-R1 Turbo	1021	±13	485	3.0%	2.6%	29 tps	1.8s	64K	$2.85	$4.75
82	93	Qwen Max	1021	±14	1.8K	2.7%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
83	79	Qwen3 Max Thinking Preview	1020	±10	1.2K	2.4%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
84	86	DeepSeek V3.1 Chat	1018	±12	1.1K	3.1%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
85	133	Kimi K2 0905	1014	±13	810	2.4%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
86	101	Gemini 2.5 Flash Lite	1014	±9	5.3K	3.9%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
87	86	Amazon Nova 2 Lite	1013	±18	815	4.7%	1.0%	137 tps	0.6s	300K	$0.35	$2.95
88	108	GPT-5 Mini Low	1005	±16	735	3.9%	<0.1%	69 tps	3.2s	400K	$0.25	$2.00
89	106	Grok 3	1003	±9	2K	2.6%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
90	170	Kimi K2 0711	1002	±15	720	3.4%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
91	95	DeepSeek V3.2 Exp Thinking	999	±22	775	1.9%	7.2%	26 tps	3.0s	131K	$0.28	$0.42
92	113	Gemini 2.5 Flash Lite Thinking	996	±11	2.5K	3.7%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
93	124	Kimi K2 0905 Turbo	991	±12	1.6K	1.8%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
94	106	DeepSeek V3 0324	990	±11	2.1K	3.0%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
95	113	Kimi K2 Fast	989	±10	7.4K	2.2%	0.8%	365 tps	0.5s	131K	$1.00	$3.00
96	86	Qwen3 235B A22B	989	±19	740	3.9%	5.3%	71 tps	0.9s	41K	$0.23	$0.63
97	113	Mistral Medium	989	±14	1.1K	2.7%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
98	44	Kimi K2 Thinking Turbo	986	±14	1.1K	3.2%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
99	95	Kimi K2 Thinking	985	±21	620	3.1%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
100	106	DeepSeek V3.1 Terminus Thinking	979	±13	660	3.6%	5.9%	27 tps	1.8s	131K	$0.56	$1.68
101	118	GPT-4.1 mini	976	±13	2.7K	1.8%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
102	113	GLM 4.5	969	±19	1.3K	3.5%	3.7%	46 tps	1.4s	131K	$0.43	$1.63
103	84	GPT-5 Mini Minimal	968	±17	795	3.6%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
104	148	OpenAI o3	960	±16	600	2.4%	0.9%	85 tps	6.8s	128K	$7.33	$29.33
105	129	DeepSeek V3.1 Thinking	958	±14	1K	2.4%	7.1%	18 tps	1.8s	131K	$0.23	$0.75
106	56	DeepSeek V3.1 Turbo	957	±14	820	4.1%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
107	126	DeepSeek V3	956	±12	1.7K	2.5%	0.9%	69 tps	1.1s	64K	$0.59	$1.49
108	148	OpenAI o4-mini-high	950	±12	1.5K	3.8%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
109	68	GLM 4.7	949	±13	1.6K	1.8%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
110	71	Seed 1.8 251228	949	±18	1.2K	2.7%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
111	129	Command A	948	±12	1.9K	3.1%	2.2%	42 tps	0.8s	256K	$2.00	$7.33
112	139	OpenAI o4-mini	947	±11	1.2K	2.5%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
113	133	Qwen3 14B	943	±16	825	4.1%	1.7%	109 tps	0.8s	41K	$0.04	$0.15
114	126	Qwen3 VL 235B A22B Thinking	939	±15	965	3.5%	4.3%	47 tps	3.0s	127K	$0.47	$3.31
115	133	Solar Pro 2 250710	938	±10	1.7K	3.9%	<0.1%	9 tps	N/A	66K	$0.50	$0.50
116	148	DeepSeek-R1	936	±21	705	4.1%	0.8%	133 tps	0.6s	64K	$0.91	$3.07
117	147	GLM 4.5 Air	932	±16	1.6K	3.5%	<0.1%	22 tps	1.4s	131K	$0.10	$0.38
118	153	OpenAI o1	926	±15	915	2.1%	4.2%	92 tps	5.5s	200K	$15.00	$60.00
119	101	gpt-oss-20b	912	±12	1.5K	4.1%	0.5%	216 tps	0.5s	131K	$0.06	$0.26
120	65	DeepSeek V3.2 Exp Chat	909	±11	1.3K	2.6%	2.6%	29 tps	1.5s	131K	$0.27	$0.39
121	124	Qwen3 235B A22B Thinking 2507	905	±16	695	2.1%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
122	133	DeepSeek-R1 0528	904	±19	640	4.5%	1.3%	93 tps	0.5s	64K	$1.60	$3.67
123	143	Gemini 2.0 Flash Lite	902	±14	990	7.9%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
124	157	GPT-5 Nano	901	±9	1.2K	5.0%	3.2%	113 tps	20.9s	400K	$0.05	$0.40
125	133	GPT-4.1 nano	896	±11	1.8K	3.2%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
126	241	GPT-5 Mini High	891	±16	810	4.1%	<0.1%	33 tps	3.9s	400K	$0.25	$2.00
127	157	Qwen3 Next 80B A3B Thinking	890	±16	1.1K	3.4%	0.6%	175 tps	1.3s	256K	$0.21	$2.26
128	143	Gemini 2.0 Flash	885	±16	870	5.9%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
129	119	ERNIE 4.5 300B A47B	873	±12	1.1K	3.4%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
130	121	Qwen3 32B Fast	863	±13	2K	4.5%	11.6%	30 tps	3.1s	41K	$0.10	$0.25
131	159	Qwen Turbo	847	±15	1.1K	4.3%	<0.1%	53 tps	1.1s	1M	$0.05	$0.20
132	133	DeepSeek V3.2 Speciale	842	±38	485	4.9%	6.0%	43 tps	1.4s	131K	$0.84	$1.52
133	161	Llama 4 Maverick	838	±10	2.4K	4.3%	1.2%	88 tps	2.4s	1M	$0.23	$0.83
134	139	GLM 4.6V	837	±23	640	5.2%	6.4%	21 tps	1.8s	128K	$0.38	$0.90
135	126	Qwen3 30B A3B	832	±20	950	4.0%	5.1%	163 tps	1.0s	41K	$0.06	$0.21
136	121	QwQ 32B	825	±16	1.3K	5.5%	5.4%	41 tps	2.1s	16K	$0.43	$0.56
137	165	Qwen3 4B	818	±20	870	4.9%	1.9%	94 tps	1.5s	128K	$0.01	$0.01
138	161	Qwen3 8B	813	±23	610	5.4%	2.4%	61 tps	1.4s	41K	$0.02	$0.07
139	314	MAI-DS-R1	810	±20	565	5.8%	<0.1%	73 tps	3.2s	64K	$0.10	$0.40
140	213	Claude Haiku 3.5	801	±15	1.2K	5.9%	0.8%	40 tps	2.8s	200K	$0.80	$4.00
141	186	Grok 3 Mini	799	±23	1.9K	2.6%	1.2%	43 tps	0.5s	131K	$0.30	$0.50
142	302	YouTube	797	±20	1.1K	4.0%	<0.1%	34 tps	2.7s	32K	$0.99	$0.99
143	165	Pixtral Large	796	±26	610	7.6%	2.5%	57 tps	1.3s	128K	$1.50	$4.50
144	170	Mistral Small 3.2 24B	793	±28	475	5.9%	2.8%	141 tps	0.7s	33K	$0.02	$0.08
145	148	Qwen3 30B A3B Thinking 2507	787	±14	655	4.4%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
146	160	Llama 4 Scout	782	±15	1.6K	4.1%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
147	214	OpenAI o3-mini-high	778	±17	630	3.1%	2.4%	231 tps	10.5s	200K	$1.10	$4.40
148	177	OpenAI o3-mini	777	±12	2K	3.6%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
149	229	Magistral Medium 2509	765	±18	610	3.9%	4.0%	58 tps	0.9s	131K	$2.00	$5.00
150	175	OpenAI o3-mini-low	752	±17	1.4K	4.3%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
151	186	Grok 3 Mini Fast	724	±15	1.3K	4.3%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
152	194	Llama 3.3 70B	719	±18	550	3.5%	0.3%	500 tps	0.5s	8K	$0.48	$0.66
153	277	Wikipedia	703	±16	710	4.1%	<0.1%	47 tps	2.1s	32K	$0	$0
154	274	Pixtral 12B	674	±33	720	5.9%	2.2%	101 tps	1.2s	131K	$0.08	$0.08
155	265	Qwen 2.5 VL 72B Instruct	635	±34	505	5.6%	5.3%	25 tps	3.7s	128K	$1.01	$2.79
156	179	Inception Mercury	613	±25	500	6.5%	0.4%	257 tps	1.1s	32K	$0.25	$1.00
157	182	Fauna Fox	518	±29	625	6.0%	<0.1%	194 tps	0.3s	128K	$0.04	$0.15
158	288	Qwen 2.5 VL 3B Instruct	373	±46	955	7.7%	3.0%	44 tps	2.5s	128K	$0.21	$0.63
159	292	AFM 4.5B	95	±54	605	9.7%	<0.1%	81 tps	0.3s	66K	$0.05	$0.20

Show Less