Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Language

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

546

Qwen 2.5 VL 3B Instruct

726

GLM 4.6V Flash

739

Grok 3 Mini

744

Pixtral 12B

745

Llama 3.3 70B

778

Pixtral Large

781

Gemma 3n E4B

790

Magistral Small 2509

797

Magistral Medium 2509

804

Qwen 2.5 VL 72B Instruct

818

Qwen3 30B A3B Thinking 2507

821

Nemotron 3 Nano (Thinking)

826

GPT-4o mini

827

Qwen3 8B

830

DeepSeek V3.2 Speciale

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	288	Qwen 2.5 VL 3B Instruct	546	±31	1K	9.1%	3.0%	44 tps	2.5s	128K	$0.21	$0.63
2	186	GLM 4.6V Flash	726	±29	575	2.5%	3.7%	64 tps	2.1s	128K	$0.04	$0.40
3	186	Grok 3 Mini	739	±20	1.4K	2.5%	1.2%	43 tps	0.5s	131K	$0.30	$0.50
4	274	Pixtral 12B	744	±33	940	9.6%	2.2%	101 tps	1.2s	131K	$0.08	$0.08
5	194	Llama 3.3 70B	745	±30	525	4.5%	0.3%	500 tps	0.5s	8K	$0.48	$0.66
6	165	Pixtral Large	778	±18	1.1K	7.2%	2.5%	57 tps	1.3s	128K	$1.50	$4.50
7	186	Gemma 3n E4B	781	±27	535	4.5%	2.0%	30 tps	0.5s	8K	$0.01	$0.02
8	265	Magistral Small 2509	790	±29	530	6.2%	2.7%	116 tps	0.6s	131K	$0.50	$1.50
9	229	Magistral Medium 2509	797	±17	570	5.0%	4.0%	58 tps	0.9s	131K	$2.00	$5.00
10	265	Qwen 2.5 VL 72B Instruct	804	±29	715	6.5%	5.3%	25 tps	3.7s	128K	$1.01	$2.79
11	148	Qwen3 30B A3B Thinking 2507	818	±18	795	3.0%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
12	86	Nemotron 3 Nano (Thinking)	821	±23	540	4.4%	2.0%	200 tps	0.5s	256K	$0	$0
13	201	GPT-4o mini	826	±18	645	6.5%	2.1%	71 tps	1.7s	128K	$0.15	$0.60
14	161	Qwen3 8B	827	±36	600	4.0%	2.4%	61 tps	1.4s	41K	$0.02	$0.07
15	133	DeepSeek V3.2 Speciale	830	±28	540	3.6%	6.0%	43 tps	1.4s	131K	$0.84	$1.52
16	186	Grok 3 Mini Fast	832	±23	1K	3.3%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
17	84	GPT-5 Mini Minimal	835	±13	1.1K	6.6%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
18	175	OpenAI o3-mini-low	838	±21	1.7K	2.6%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
19	157	GPT-5 Nano	843	±14	2K	6.0%	3.2%	113 tps	20.9s	400K	$0.05	$0.40
20	157	Qwen3 Next 80B A3B Thinking	846	±15	1.3K	3.9%	0.6%	175 tps	1.3s	256K	$0.21	$2.26
21	121	Qwen3 32B Fast	853	±13	1.8K	4.2%	11.6%	30 tps	3.1s	41K	$0.10	$0.25
22	133	Qwen3 14B	856	±24	745	2.6%	1.7%	109 tps	0.8s	41K	$0.04	$0.15
23	170	Kimi K2 0711	858	±24	890	4.3%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
24	139	GLM 4.6V	865	±24	890	2.7%	6.4%	21 tps	1.8s	128K	$0.38	$0.90
25	129	Qwen3 Max Thinking	866	±14	1.5K	1.7%	13.5%	32 tps	2.3s	256K	$1.20	$6.00
26	214	OpenAI o3-mini-high	868	±13	1.4K	3.8%	2.4%	231 tps	10.5s	200K	$1.10	$4.40
27	246	DeepSeek-R1 Distill Llama 70B	869	±28	590	4.8%	3.6%	27 tps	1.6s	32K	$0.73	$0.95
28	179	GLM 4.7 Flash	874	±24	855	2.8%	5.8%	61 tps	2.8s	128K	$0.07	$0.39
29	160	Llama 4 Scout	875	±15	2.3K	2.9%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
30	165	Qwen3 4B	878	±23	735	3.9%	1.9%	94 tps	1.5s	128K	$0.01	$0.01
31	161	Llama 4 Maverick	883	±12	3.6K	4.4%	1.2%	88 tps	2.4s	1M	$0.23	$0.83
32	148	DeepSeek-R1	894	±12	1.1K	3.8%	0.8%	133 tps	0.6s	64K	$0.91	$3.07
33	86	Qwen3 235B A22B	898	±23	725	3.3%	5.3%	71 tps	0.9s	41K	$0.23	$0.63
34	139	Seed 2.0 Mini (Medium)	900	±30	515	3.7%	11.9%	33 tps	1.7s	256K	$0.15	$0.60
35	177	OpenAI o3-mini	901	±12	2.5K	3.1%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
36	62	MiniMax M2	905	±18	1.4K	3.5%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
37	121	QwQ 32B	910	±13	1.8K	3.1%	5.4%	41 tps	2.1s	16K	$0.43	$0.56
38	143	Gemini 2.0 Flash Lite	917	±11	2.5K	6.7%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
39	126	Qwen3 30B A3B	918	±15	865	3.4%	5.1%	163 tps	1.0s	41K	$0.06	$0.21
40	119	ERNIE 4.5 300B A47B	918	±17	1.6K	2.7%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
41	126	Qwen3 VL 235B A22B Thinking	922	±18	745	4.5%	4.3%	47 tps	3.0s	127K	$0.47	$3.31
42	133	Kimi K2 0905	922	±21	805	4.2%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
43	124	Kimi K2 0905 Turbo	925	±13	1.5K	4.7%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
44	95	Kimi K2 Thinking	926	±17	740	2.0%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
45	143	Seed 1.6 250615	928	±21	635	5.2%	3.1%	46 tps	2.2s	256K	$0.25	$2.00
46	65	Mistral Large 3	947	±20	1.3K	4.4%	2.1%	51 tps	1.0s	256K	$0.50	$1.50
47	101	Qwen3.5 35B A3B	949	±27	530	2.8%	2.1%	116 tps	2.1s	256K	$0.63	$1.13
48	101	gpt-oss-20b	950	±18	1.4K	4.7%	0.5%	216 tps	0.5s	131K	$0.06	$0.26
49	81	OpenAI o3-pro	951	±19	1.6K	3.4%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
50	79	Qwen3 Max Thinking Preview	952	±20	1.1K	2.2%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
51	129	DeepSeek V3.1 Thinking	955	±14	1.1K	2.2%	7.1%	18 tps	1.8s	131K	$0.23	$0.75
52	139	OpenAI o4-mini	956	±16	1.4K	2.8%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
53	148	OpenAI o4-mini-high	958	±11	2.2K	3.1%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
54	126	DeepSeek V3	960	±7	3.4K	2.3%	0.9%	69 tps	1.1s	64K	$0.59	$1.49
55	153	OpenAI o1	960	±11	2.3K	2.4%	4.2%	92 tps	5.5s	200K	$15.00	$60.00
56	111	LongCat Flash Chat	963	±25	560	4.3%	0.8%	85 tps	0.9s	131K	$0.14	$0.68
57	129	Command A	965	±8	3K	2.9%	2.2%	42 tps	0.8s	256K	$2.00	$7.33
58	148	OpenAI o3	970	±10	1.2K	3.1%	0.9%	85 tps	6.8s	128K	$7.33	$29.33
59	133	GPT-4.1 nano	974	±11	2.3K	3.4%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
60	143	Gemini 2.0 Flash	974	±19	1.9K	4.7%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
61	113	Kimi K2 Fast	975	±10	4.8K	2.3%	0.8%	365 tps	0.5s	131K	$1.00	$3.00
62	71	Seed 1.8 251228	983	±10	3K	2.6%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
63	65	GLM 4.6	991	±15	945	3.6%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
64	106	DeepSeek V3.1 Terminus Thinking	1000	±14	745	2.6%	5.9%	27 tps	1.8s	131K	$0.56	$1.68
65	133	DeepSeek-R1 0528	1001	±15	1.1K	4.1%	1.3%	93 tps	0.5s	64K	$1.60	$3.67
66	93	Qwen Max	1009	±11	2.7K	2.7%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
67	95	DeepSeek-R1 Turbo	1009	±20	660	3.6%	2.6%	29 tps	1.8s	64K	$2.85	$4.75
68	124	Qwen3 235B A22B Thinking 2507	1010	±16	745	3.2%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
69	106	DeepSeek V3 0324	1013	±11	2.1K	3.1%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
70	71	GPT-5 Mini	1017	±10	3.1K	5.2%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
71	56	MiniMax M2.1 Lightning	1019	±24	830	1.8%	1.7%	52 tps	2.1s	205K	$0.30	$2.40
72	44	Grok 4.1 Fast Reasoning	1020	±7	3.7K	3.0%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
73	56	DeepSeek V3.2 Thinking	1021	±13	1.9K	1.8%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
74	68	Qwen Plus (Aug'24)	1023	±9	2.4K	2.9%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
75	52	Grok 4 Fast Non-Reasoning	1030	±17	1.5K	4.1%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
76	79	MiniMax M2.5 Lightning	1031	±20	820	1.8%	1.5%	51 tps	2.0s	205K	$0.60	$2.40
77	106	Grok 3	1034	±8	2.8K	2.8%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
78	29	Qwen3 VL 235B A22B Instruct	1036	±16	1.3K	4.2%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
79	86	DeepSeek V3.1 Chat	1038	±13	975	2.5%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
80	95	DeepSeek V3.2 Exp Thinking	1038	±17	655	3.7%	7.2%	26 tps	3.0s	131K	$0.28	$0.42
81	93	DeepSeek V3 0324 Turbo	1038	±9	2.2K	1.8%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
82	113	GLM 4.5	1038	±12	915	3.2%	3.7%	46 tps	1.4s	131K	$0.43	$1.63
83	37	Qwen3 Omni 30B A3B Thinking	1040	±20	750	2.0%	3.7%	67 tps	1.2s	66K	$0.97	$1.79
84	101	Gemini 2.5 Flash Lite	1042	±6	7.8K	4.3%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
85	86	Amazon Nova 2 Lite	1042	±23	690	2.1%	1.0%	137 tps	0.6s	300K	$0.35	$2.95
86	113	Mistral Medium	1043	±11	1.1K	3.1%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
87	118	GPT-4.1 mini	1045	±8	3.4K	2.5%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
88	48	Grok 4 Fast Reasoning	1049	±10	2.3K	3.6%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
89	106	Claude Sonnet 3.5 v2	1055	±22	770	3.8%	<0.1%	46 tps	1.4s	200K	$3.00	$15.00
90	40	DeepSeek V3.2	1056	±15	1.4K	1.4%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
91	81	Qwen3.5 27B	1056	±17	665	2.9%	3.7%	55 tps	2.6s	256K	$0.30	$2.40
92	44	DeepSeek V3.1 Terminus Chat	1056	±13	955	2.1%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
93	26	Grok 4.1 Fast Non-Reasoning	1058	±19	2K	4.1%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
94	71	Gemini 3.1 Flash Lite Preview	1060	±22	1.2K	3.3%	1.0%	8 tps	1.2s	1M	$0.25	$1.50
95	52	Qwen3.5 122B A17B	1063	±14	980	1.5%	1.5%	82 tps	1.4s	256K	$0.40	$3.20
96	71	Qwen3.5 397B A17B	1067	±15	1.3K	2.2%	4.3%	57 tps	1.4s	256K	$0.52	$3.00
97	48	Step 3.5 Flash	1067	±20	630	2.3%	2.2%	109 tps	0.6s	256K	$0.05	$0.15
98	56	DeepSeek V3.1 Turbo	1070	±12	1.3K	2.6%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
99	113	Gemini 2.5 Flash Lite Thinking	1071	±10	2.3K	3.2%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
100	68	GLM 4.7	1071	±12	1.9K	2.1%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
101	65	DeepSeek V3.2 Exp Chat	1072	±12	755	2.6%	2.6%	29 tps	1.5s	131K	$0.27	$0.39
102	44	Kimi K2 Thinking Turbo	1072	±17	1.3K	2.2%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
103	48	gpt-oss-120b	1074	±6	3K	2.6%	0.7%	213 tps	0.5s	131K	$0.11	$0.50
104	33	Qwen3 Next 80B A3B Instruct	1083	±16	1.5K	2.6%	0.6%	84 tps	1.1s	256K	$0.20	$1.42
105	33	Qwen3 30B A3B Instruct 2507	1084	±8	2.3K	3.2%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
106	71	DeepSeek V3.1	1085	±14	690	3.5%	0.8%	197 tps	0.4s	164K	$0.55	$1.60
107	95	Gemini 2.5 Flash Lite Thinking Preview 0925	1086	±8	3.4K	2.7%	1.5%	152 tps	3.0s	1M	$0.10	$0.40
108	33	Kimi K2.5	1090	±13	4.3K	2.1%	6.5%	33 tps	1.7s	262K	$0.34	$2.57
109	37	Kimi K2.5 Instant	1093	±12	1.4K	2.7%	2.9%	32 tps	3.0s	262K	$0.50	$3.00
110	68	Grok 4	1102	±7	7.8K	3.3%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
111	42	Qwen3 Max Instruct Preview	1103	±13	2.2K	2.0%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
112	95	Gemini 2.5 Flash	1104	±7	9.8K	2.7%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
113	29	Nova Experimental Chat 12-10	1110	±25	710	1.4%	2.4%	84 tps	12.9s	98K	$0	$0
114	81	GPT-4o	1113	±8	2.2K	3.6%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
115	52	GPT-5	1115	±8	5.4K	3.7%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
116	26	GPT-5 (High)	1115	±7	3.7K	3.6%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
117	48	Claude Sonnet 4 (Thinking)	1116	±7	5.3K	4.2%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
118	60	Gemini 2.5 Flash Preview 0925	1124	±9	3.4K	3.4%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
119	40	Qwen3 235B A22B Instruct 2507	1126	±8	2.1K	2.5%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
120	22	GLM 5	1132	±12	1.7K	1.4%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
121	56	Gemini 3.1 Flash Lite Preview Thinking	1132	±12	1.7K	3.9%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
122	71	Gemini 2.5 Flash Lite Preview 0925	1134	±9	3.5K	3.4%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
123	86	Claude Sonnet 4	1138	±7	7.4K	2.3%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
124	42	GPT-5.2 (Extra High)	1146	±10	3.5K	2.3%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
125	33	Grok 4.20 Multi Agent Beta	1158	±23	665	1.5%	1.2%	56 tps	8.8s	2M	$2.00	$6.00
126	60	MiniMax M2.1	1159	±11	2.1K	2.1%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
127	71	Gemini 2.5 Flash Thinking	1161	±4	6.8K	3.0%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
128	52	Claude Haiku 4.5	1163	±8	5.3K	4.1%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
129	62	GPT-5.1 Instant	1168	±7	4.3K	2.5%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
130	44	Gemini 2.5 Pro	1184	±5	13.8K	2.9%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
131	32	Gemini 2.5 Pro High	1191	±6	6.1K	3.2%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
132	26	Claude Haiku 4.5 (Extended Thinking)	1196	±6	3K	2.6%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
133	17	Grok 4.20 Beta Reasoning	1209	±21	915	2.1%	1.1%	77 tps	4.5s	2M	$2.00	$5.50
134	37	Claude Sonnet 4.5	1230	±6	4.7K	4.1%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
135	17	GPT-5.2 (High)	1236	±8	11.2K	1.8%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
136	13	GPT-5.3 Instant	1240	±14	4.5K	1.9%	0.9%	63 tps	0.8s	400K	$1.75	$14.00
137	22	GPT-5 Chat	1243	±7	11.4K	2.5%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
138	17	Gemini 3 Flash Preview	1248	±12	3.9K	2.2%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
139	8	GPT-5.1 (High)	1252	±8	6.4K	1.9%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
140	16	GPT-5.2	1254	±11	4.5K	1.8%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
141	17	Claude Opus 4.5	1259	±7	4.1K	2.9%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
142	10	GPT-5.2 Instant	1262	±7	6.9K	1.8%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
143	14	Gemini 3 Pro (Low)	1262	±6	6.1K	2.2%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
144	14	Gemini 3 Flash Preview Thinking	1272	±9	7.9K	1.8%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
145	7	Claude Opus 4.5 (Thinking)	1272	±7	11.3K	2.0%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
146	10	Gemini 3 Pro	1285	±9	17.6K	1.5%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
147	8	GPT-5.1	1295	±7	4.3K	2.2%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
148	6	Gemini 3.1 Pro	1317	±8	7.9K	1.6%	3.5%	35 tps	4.1s	1M	$2.00	$12.00
149	10	Claude Sonnet 4.5 (Thinking)	1319	±4	6.7K	2.4%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
150	4	Claude Sonnet 4.6	1345	±11	4.7K	1.3%	1.6%	47 tps	1.2s	200K	$3.00	$15.00
151	5	Claude Sonnet 4.6 (Thinking)	1377	±9	4.9K	1.3%	4.7%	57 tps	1.1s	200K	$3.00	$15.00
152	2	Claude Opus 4.6	1420	±11	6.5K	1.1%	2.1%	48 tps	1.7s	200K	$5.00	$25.00
153	1	Claude Opus 4.6 (Thinking)	1440	±9	5.1K	1.2%	2.5%	56 tps	1.6s	200K	$5.00	$25.00
154	2	GPT-5.4	1446	±14	1.7K	1.7%	2.6%	55 tps	0.8s	1M	$2.50	$15.00

Show Less