Leaderboard | Text

Models

Choose model family

Claude by Anthropic

Mistral by Mistral AI

Topics

Choose topic

All topics Facts and Information Creative Writing and Ideation Logic and Problem-Solving Task Completion Coding

Choose language

All languages English Chinese Arabic Spanish Indonesian Japanese

More filters

Show inactive models

Hide models that are no longer actively available on Yupp.

Turns

Filter model performance by the number of turns in a conversation.

All Single turn Multiple turns

Open license models

Filter the leaderboard to only show models that have an open license.

All selected Open license Proprietary license

373

Qwen 2.5 VL 3B Instruct

613

Inception Mercury

635

Qwen 2.5 VL 72B Instruct

674

Pixtral 12B

719

Llama 3.3 70B

724

Grok 3 Mini Fast

752

OpenAI o3-mini-low

765

Magistral Medium 2509

777

OpenAI o3-mini

778

OpenAI o3-mini-high

782

Llama 4 Scout

787

Qwen3 30B A3B Thinking 2507

793

Mistral Small 3.2 24B

796

Pixtral Large

799

Grok 3 Mini

Last updated about 1 month ago

Rank	Overall	Name	VIBE Score	Confidence Interval	Votes	Downvote %	Abort %	Speed	Latency	Context	Cost (Input)	Cost (Output)
1	288	Qwen 2.5 VL 3B Instruct	373	±46	955	7.7%	3.0%	44 tps	2.5s	128K	$0.21	$0.63
2	179	Inception Mercury	613	±25	500	6.5%	0.4%	257 tps	1.1s	32K	$0.25	$1.00
3	265	Qwen 2.5 VL 72B Instruct	635	±34	505	5.6%	5.3%	25 tps	3.7s	128K	$1.01	$2.79
4	274	Pixtral 12B	674	±33	720	5.9%	2.2%	101 tps	1.2s	131K	$0.08	$0.08
5	194	Llama 3.3 70B	719	±18	550	3.5%	0.3%	500 tps	0.5s	8K	$0.48	$0.66
6	186	Grok 3 Mini Fast	724	±15	1.3K	4.3%	1.6%	44 tps	0.5s	131K	$0.60	$4.00
7	175	OpenAI o3-mini-low	752	±17	1.4K	4.3%	0.7%	139 tps	1.5s	200K	$1.10	$4.40
8	229	Magistral Medium 2509	765	±18	610	3.9%	4.0%	58 tps	0.9s	131K	$2.00	$5.00
9	177	OpenAI o3-mini	777	±12	2K	3.6%	0.8%	143 tps	3.3s	200K	$1.10	$4.40
10	214	OpenAI o3-mini-high	778	±17	630	3.1%	2.4%	231 tps	10.5s	200K	$1.10	$4.40
11	160	Llama 4 Scout	782	±15	1.6K	4.1%	0.6%	88 tps	5.1s	131K	$0.18	$0.46
12	148	Qwen3 30B A3B Thinking 2507	787	±14	655	4.4%	0.5%	124 tps	1.2s	131K	$0.16	$1.70
13	170	Mistral Small 3.2 24B	793	±28	475	5.9%	2.8%	141 tps	0.7s	33K	$0.02	$0.08
14	165	Pixtral Large	796	±26	610	7.6%	2.5%	57 tps	1.3s	128K	$1.50	$4.50
15	186	Grok 3 Mini	799	±23	1.9K	2.6%	1.2%	43 tps	0.5s	131K	$0.30	$0.50
16	161	Qwen3 8B	813	±23	610	5.4%	2.4%	61 tps	1.4s	41K	$0.02	$0.07
17	165	Qwen3 4B	818	±20	870	4.9%	1.9%	94 tps	1.5s	128K	$0.01	$0.01
18	121	QwQ 32B	825	±16	1.3K	5.5%	5.4%	41 tps	2.1s	16K	$0.43	$0.56
19	126	Qwen3 30B A3B	832	±20	950	4.0%	5.1%	163 tps	1.0s	41K	$0.06	$0.21
20	139	GLM 4.6V	837	±23	640	5.2%	6.4%	21 tps	1.8s	128K	$0.38	$0.90
21	161	Llama 4 Maverick	838	±10	2.4K	4.3%	1.2%	88 tps	2.4s	1M	$0.23	$0.83
22	133	DeepSeek V3.2 Speciale	842	±38	485	4.9%	6.0%	43 tps	1.4s	131K	$0.84	$1.52
23	121	Qwen3 32B Fast	863	±13	2K	4.5%	11.6%	30 tps	3.1s	41K	$0.10	$0.25
24	119	ERNIE 4.5 300B A47B	873	±12	1.1K	3.4%	4.7%	23 tps	2.3s	123K	$0.28	$1.10
25	143	Gemini 2.0 Flash	885	±16	870	5.9%	<0.1%	76 tps	0.5s	1M	$0.14	$0.56
26	157	Qwen3 Next 80B A3B Thinking	890	±16	1.1K	3.4%	0.6%	175 tps	1.3s	256K	$0.21	$2.26
27	133	GPT-4.1 nano	896	±11	1.8K	3.2%	0.6%	175 tps	0.5s	1M	$0.10	$0.40
28	157	GPT-5 Nano	901	±9	1.2K	5.0%	3.2%	113 tps	20.9s	400K	$0.05	$0.40
29	143	Gemini 2.0 Flash Lite	902	±14	990	7.9%	<0.1%	42 tps	0.5s	1M	$0.08	$0.30
30	133	DeepSeek-R1 0528	904	±19	640	4.5%	1.3%	93 tps	0.5s	64K	$1.60	$3.67
31	124	Qwen3 235B A22B Thinking 2507	905	±16	695	2.1%	2.5%	53 tps	1.6s	131K	$0.59	$5.70
32	65	DeepSeek V3.2 Exp Chat	909	±11	1.3K	2.6%	2.6%	29 tps	1.5s	131K	$0.27	$0.39
33	101	gpt-oss-20b	912	±12	1.5K	4.1%	0.5%	216 tps	0.5s	131K	$0.06	$0.26
34	153	OpenAI o1	926	±15	915	2.1%	4.2%	92 tps	5.5s	200K	$15.00	$60.00
35	148	DeepSeek-R1	936	±21	705	4.1%	0.8%	133 tps	0.6s	64K	$0.91	$3.07
36	126	Qwen3 VL 235B A22B Thinking	939	±15	965	3.5%	4.3%	47 tps	3.0s	127K	$0.47	$3.31
37	133	Qwen3 14B	943	±16	825	4.1%	1.7%	109 tps	0.8s	41K	$0.04	$0.15
38	139	OpenAI o4-mini	947	±11	1.2K	2.5%	1.4%	97 tps	7.0s	128K	$1.10	$4.40
39	129	Command A	948	±12	1.9K	3.1%	2.2%	42 tps	0.8s	256K	$2.00	$7.33
40	71	Seed 1.8 251228	949	±18	1.2K	2.7%	3.7%	41 tps	2.1s	256K	$0.25	$2.00
41	68	GLM 4.7	949	±13	1.6K	1.8%	5.8%	40 tps	1.5s	200K	$0.77	$1.73
42	148	OpenAI o4-mini-high	950	±12	1.5K	3.8%	1.9%	117 tps	15.9s	200K	$1.10	$4.40
43	126	DeepSeek V3	956	±12	1.7K	2.5%	0.9%	69 tps	1.1s	64K	$0.59	$1.49
44	56	DeepSeek V3.1 Turbo	957	±14	820	4.1%	0.9%	173 tps	1.3s	164K	$2.00	$3.75
45	129	DeepSeek V3.1 Thinking	958	±14	1K	2.4%	7.1%	18 tps	1.8s	131K	$0.23	$0.75
46	148	OpenAI o3	960	±16	600	2.4%	0.9%	85 tps	6.8s	128K	$7.33	$29.33
47	84	GPT-5 Mini Minimal	968	±17	795	3.6%	1.2%	63 tps	1.4s	400K	$0.25	$2.00
48	113	GLM 4.5	969	±19	1.3K	3.5%	3.7%	46 tps	1.4s	131K	$0.43	$1.63
49	118	GPT-4.1 mini	976	±13	2.7K	1.8%	1.1%	67 tps	0.9s	1M	$0.34	$1.60
50	106	DeepSeek V3.1 Terminus Thinking	979	±13	660	3.6%	5.9%	27 tps	1.8s	131K	$0.56	$1.68
51	95	Kimi K2 Thinking	985	±21	620	3.1%	4.2%	61 tps	5.9s	262K	$0.24	$1.03
52	44	Kimi K2 Thinking Turbo	986	±14	1.1K	3.2%	2.0%	75 tps	1.4s	262K	$1.15	$8.00
53	113	Mistral Medium	989	±14	1.1K	2.7%	1.8%	48 tps	0.6s	33K	$1.48	$4.55
54	86	Qwen3 235B A22B	989	±19	740	3.9%	5.3%	71 tps	0.9s	41K	$0.23	$0.63
55	113	Kimi K2 Fast	989	±10	7.4K	2.2%	0.8%	365 tps	0.5s	131K	$1.00	$3.00
56	106	DeepSeek V3 0324	990	±11	2.1K	3.0%	5.8%	12 tps	2.7s	164K	$0.38	$0.93
57	124	Kimi K2 0905 Turbo	991	±12	1.6K	1.8%	0.7%	373 tps	0.5s	262K	$1.70	$6.50
58	113	Gemini 2.5 Flash Lite Thinking	996	±11	2.5K	3.7%	1.0%	118 tps	4.4s	1M	$0.03	$0.13
59	95	DeepSeek V3.2 Exp Thinking	999	±22	775	1.9%	7.2%	26 tps	3.0s	131K	$0.28	$0.42
60	170	Kimi K2 0711	1002	±15	720	3.4%	1.6%	29 tps	1.3s	131K	$0.72	$2.60
61	106	Grok 3	1003	±9	2K	2.6%	1.5%	53 tps	0.6s	1M	$3.67	$18.33
62	86	Amazon Nova 2 Lite	1013	±18	815	4.7%	1.0%	137 tps	0.6s	300K	$0.35	$2.95
63	101	Gemini 2.5 Flash Lite	1014	±9	5.3K	3.9%	1.3%	210 tps	0.7s	1M	$0.10	$0.40
64	133	Kimi K2 0905	1014	±13	810	2.4%	4.0%	30 tps	1.4s	262K	$0.63	$2.39
65	86	DeepSeek V3.1 Chat	1018	±12	1.1K	3.1%	2.8%	21 tps	1.6s	131K	$0.38	$1.00
66	79	Qwen3 Max Thinking Preview	1020	±10	1.2K	2.4%	3.1%	40 tps	2.1s	256K	$1.20	$6.00
67	93	Qwen Max	1021	±14	1.8K	2.7%	1.5%	49 tps	1.5s	33K	$1.60	$6.40
68	95	DeepSeek-R1 Turbo	1021	±13	485	3.0%	2.6%	29 tps	1.8s	64K	$2.85	$4.75
69	65	Mistral Large 3	1026	±22	1.1K	4.1%	2.1%	51 tps	1.0s	256K	$0.50	$1.50
70	129	Qwen3 Max Thinking	1029	±31	600	2.4%	13.5%	32 tps	2.3s	256K	$1.20	$6.00
71	56	DeepSeek V3.2 Thinking	1033	±15	1.7K	2.0%	9.0%	30 tps	2.6s	131K	$0.28	$0.42
72	44	DeepSeek V3.1 Terminus Chat	1037	±9	1.3K	2.2%	3.4%	27 tps	1.5s	131K	$0.86	$1.80
73	65	GLM 4.6	1041	±11	1.6K	2.9%	5.4%	39 tps	1.5s	200K	$0.42	$1.66
74	62	MiniMax M2	1043	±9	1.8K	4.2%	2.2%	39 tps	2.3s	205K	$0.21	$0.85
75	95	Gemini 2.5 Flash Lite Thinking Preview 0925	1044	±9	1.7K	3.5%	1.5%	152 tps	3.0s	1M	$0.10	$0.40
76	60	MiniMax M2.1	1044	±12	1.7K	2.8%	2.1%	66 tps	2.6s	205K	$0.30	$1.20
77	81	GPT-4o	1046	±15	1.4K	2.5%	1.0%	49 tps	2.4s	128K	$3.71	$12.57
78	52	Grok 4 Fast Non-Reasoning	1054	±8	1.6K	2.5%	1.5%	93 tps	0.6s	2M	$0.27	$0.67
79	52	Claude Haiku 4.5	1057	±6	3.4K	3.4%	1.1%	100 tps	0.9s	200K	$1.00	$5.00
80	40	DeepSeek V3.2	1063	±16	1.1K	2.5%	1.4%	83 tps	5.1s	131K	$0.43	$1.09
81	42	Qwen3 Max Instruct Preview	1063	±7	2.7K	1.5%	1.1%	31 tps	1.7s	256K	$1.43	$6.61
82	86	Claude Sonnet 4	1066	±8	5.3K	2.5%	1.8%	49 tps	1.3s	200K	$3.00	$15.00
83	71	Gemini 2.5 Flash Lite Preview 0925	1066	±11	2.2K	2.8%	1.2%	209 tps	0.7s	1M	$0.25	$0.35
84	93	DeepSeek V3 0324 Turbo	1074	±14	2.1K	1.9%	6.3%	12 tps	2.4s	164K	$0.73	$1.79
85	62	GPT-5.1 Instant	1075	±9	2.2K	2.6%	1.3%	50 tps	1.9s	400K	$1.25	$10.00
86	71	GPT-5 Mini	1075	±9	2.1K	4.3%	2.6%	66 tps	14.2s	400K	$0.25	$2.00
87	44	Grok 4.1 Fast Reasoning	1076	±10	2.6K	4.2%	1.5%	58 tps	7.3s	2M	$0.20	$0.50
88	48	gpt-oss-120b	1083	±7	3.5K	3.0%	0.7%	213 tps	0.5s	131K	$0.11	$0.50
89	33	Kimi K2.5	1083	±16	1.7K	3.2%	6.5%	33 tps	1.7s	262K	$0.34	$2.57
90	56	Gemini 3.1 Flash Lite Preview Thinking	1083	±32	485	3.0%	1.7%	75 tps	4.7s	1M	$0.25	$1.50
91	48	Grok 4 Fast Reasoning	1090	±11	2.1K	3.1%	2.1%	102 tps	3.1s	2M	$0.30	$0.75
92	68	Grok 4	1093	±5	5.7K	4.0%	3.9%	29 tps	11.1s	256K	$3.00	$15.00
93	95	Gemini 2.5 Flash	1098	±9	4.8K	2.7%	1.3%	2 tps	3.7s	1M	$0.30	$2.50
94	37	Kimi K2.5 Instant	1101	±28	495	1.0%	2.9%	32 tps	3.0s	262K	$0.50	$3.00
95	26	GPT-5 (High)	1110	±7	4.3K	3.1%	4.5%	81 tps	35.9s	400K	$1.25	$10.00
96	71	Qwen3.5 397B A17B	1112	±24	580	2.5%	4.3%	57 tps	1.4s	256K	$0.52	$3.00
97	29	Qwen3 VL 235B A22B Instruct	1114	±8	1.3K	2.5%	3.1%	75 tps	1.9s	129K	$0.37	$1.81
98	26	Claude Haiku 4.5 (Extended Thinking)	1115	±12	2.2K	2.7%	1.4%	115 tps	0.7s	200K	$1.00	$5.00
99	68	Qwen Plus (Aug'24)	1115	±8	1.9K	2.6%	1.4%	53 tps	1.3s	30K	$0.40	$1.20
100	40	Qwen3 235B A22B Instruct 2507	1118	±11	2.5K	2.1%	6.8%	13 tps	1.9s	262K	$0.13	$0.52
101	81	OpenAI o3-pro	1126	±10	2.3K	3.1%	5.2%	22 tps	70.8s	200K	$20.00	$80.00
102	33	Qwen3 30B A3B Instruct 2507	1127	±9	2.5K	2.9%	1.2%	55 tps	1.3s	131K	$0.13	$0.72
103	26	Grok 4.1 Fast Non-Reasoning	1130	±15	2K	4.3%	0.9%	101 tps	0.5s	2M	$0.20	$0.50
104	60	Gemini 2.5 Flash Preview 0925	1131	±10	2.1K	2.7%	1.2%	5 tps	0.9s	1M	$0.13	$0.97
105	29	Nova Experimental Chat 12-10	1135	±19	720	2.0%	2.4%	84 tps	12.9s	98K	$0	$0
106	33	Qwen3 Next 80B A3B Instruct	1142	±9	1.8K	2.5%	0.6%	84 tps	1.1s	256K	$0.20	$1.42
107	48	Claude Sonnet 4 (Thinking)	1144	±6	4.2K	3.5%	1.5%	52 tps	1.5s	200K	$3.00	$13.67
108	71	Gemini 2.5 Flash Thinking	1148	±7	2.6K	4.2%	2.2%	88 tps	6.4s	1M	$0.30	$2.50
109	37	Claude Sonnet 4.5	1156	±5	5.1K	2.8%	1.4%	41 tps	1.3s	200K	$1.80	$9.00
110	52	GPT-5	1157	±7	5.3K	2.9%	3.1%	78 tps	23.1s	400K	$1.25	$9.67
111	44	Gemini 2.5 Pro	1158	±5	7.8K	3.3%	2.3%	45 tps	2.6s	1M	$1.25	$10.00
112	13	GPT-5.3 Instant	1160	±19	1.5K	1.9%	0.9%	63 tps	0.8s	400K	$1.75	$14.00
113	42	GPT-5.2 (Extra High)	1168	±12	2.4K	1.8%	13.2%	17 tps	20.5s	400K	$1.75	$14.00
114	17	GPT-5.2 (High)	1175	±10	6.4K	1.7%	6.7%	18 tps	16.3s	400K	$1.75	$14.00
115	22	GLM 5	1184	±22	795	2.5%	3.4%	36 tps	2.7s	200K	$0.72	$2.55
116	32	Gemini 2.5 Pro High	1189	±6	4.5K	2.5%	1.5%	48 tps	2.3s	1M	$1.25	$10.00
117	17	Gemini 3 Flash Preview	1198	±14	2K	2.0%	1.3%	138 tps	1.4s	1M	$0.50	$3.00
118	14	Gemini 3 Flash Preview Thinking	1212	±8	4.2K	1.8%	1.6%	3 tps	6.2s	1M	$0.50	$3.00
119	16	GPT-5.2	1213	±12	2.7K	2.2%	4.1%	18 tps	2.7s	400K	$1.75	$14.00
120	22	GPT-5 Chat	1220	±6	10.4K	2.1%	1.3%	95 tps	0.9s	400K	$1.25	$10.00
121	17	Claude Opus 4.5	1228	±9	2.9K	1.8%	1.5%	45 tps	1.5s	200K	$5.00	$25.00
122	5	Claude Sonnet 4.6 (Thinking)	1235	±18	1.7K	2.0%	4.7%	57 tps	1.1s	200K	$3.00	$15.00
123	7	Claude Opus 4.5 (Thinking)	1248	±6	9.3K	2.3%	1.8%	49 tps	1.4s	200K	$5.00	$25.00
124	10	Claude Sonnet 4.5 (Thinking)	1260	±4	8.3K	1.8%	1.9%	44 tps	1.1s	200K	$3.00	$15.00
125	10	Gemini 3 Pro	1265	±5	12K	1.3%	2.1%	50 tps	3.6s	1M	$2.00	$12.00
126	8	GPT-5.1	1268	±6	3.3K	1.5%	2.3%	71 tps	1.4s	400K	$1.42	$11.33
127	14	Gemini 3 Pro (Low)	1270	±12	3.5K	2.4%	2.4%	51 tps	3.5s	1M	$2.00	$12.00
128	8	GPT-5.1 (High)	1274	±6	4.2K	2.5%	3.2%	76 tps	6.9s	400K	$1.25	$10.00
129	10	GPT-5.2 Instant	1274	±8	3.9K	2.2%	1.7%	52 tps	2.0s	400K	$1.75	$14.00
130	4	Claude Sonnet 4.6	1295	±16	1.8K	0.8%	1.6%	47 tps	1.2s	200K	$3.00	$15.00
131	6	Gemini 3.1 Pro	1344	±16	2.8K	2.4%	3.5%	35 tps	4.1s	1M	$2.00	$12.00
132	2	Claude Opus 4.6	1483	±11	3.2K	0.9%	2.1%	48 tps	1.7s	200K	$5.00	$25.00
133	1	Claude Opus 4.6 (Thinking)	1485	±11	2.3K	1.3%	2.5%	56 tps	1.6s	200K	$5.00	$25.00

Show Less