Cursor Composer 2.5 — décryptage PME

En bref

• Date de sortie: 18 mai 2026, modèle propriétaire Cursor basé sur Kimi K2.5 (Moonshot, open-weight).

• Performance: 79,8 % sur SWE-Bench Multilingual (Opus 4.7: 80,5 %). 63,2 % sur CursorBench v3.1 (devant Opus). 69,3 % sur Terminal-Bench 2.0 (retard de 13 points sur GPT-5.5).

Que vient-il de se passer le 18 mai ?

Cursor a publié Composer 2.5, la nouvelle génération de son agent de coding propriétaire. Le modèle est construit sur la base Kimi K2.5, le checkpoint open-source de Moonshot AI: une architecture mixture-of-experts d'environ 1 000 milliards de paramètres avec ~32 milliards actifs par inférence. Cursor n'a pas pré-entraîné un modèle de zéro: l'éditeur a dépensé 85 % de son budget compute sur le post-training — apprentissage par renforcement, pretraining continu, et une technique nouvelle de text-feedback localisé qui permet au modèle d'apprendre d'erreurs précises plutôt que d'un signal de récompense global en fin de rollout.

Les chiffres qui comptent vraiment

Performance au niveau d'Opus 4.7

Sur SWE-Bench Multilingual — le benchmark de référence pour le coding agentique, qui mesure la capacité à résoudre des issues GitHub réelles dans plusieurs langages — Composer 2.5 atteint 79,8 %. Opus 4.7 est à 80,5 %. L'écart est statistiquement négligeable. Sur CursorBench v3.1, qui teste les tâches longues et complexes en environnement d'IDE, Composer 2.5 dépasse Opus 4.7 (63,2 % vs 61,6 %), avec un saut de 11 points par rapport à la version précédente.

Le prix qui change tout

Variante Standard: 0,50 $ par million de tokens en entrée, 2,50 $ par million en sortie. Variante Fast (utilisée par défaut en interactif dans l'IDE): 3,00 $ / 15,00 $ par million de tokens. Pour comparaison, Claude Opus 4.7 est à 15,00 $ / 75,00 $ par million et GPT-5.5 à des tarifs proches.

Artificial Analysis a normalisé ces prix sur une tâche moyenne de coding agent: 0,07 $ par tâche en Composer 2.5 Standard, 0,44 $ en Fast, contre 4,10 $ pour Opus 4.7 « max » et 4,82 $ pour GPT-5.5 xhigh. L'écart va donc de 10× à 60× moins cher

Ce qui reste encore incertain

Tous ces chiffres viennent de Cursor ou d'Artificial Analysis (qui a accès anticipé au modèle). Aucune reproduction indépendante sur un scaffolding agent unifié n'a été publiée à ce jour. Les résultats directionnels sont crédibles — Moonshot a déjà montré la qualité de Kimi K2.5, et Cursor a un track record sérieux sur le post-training — mais les pourcentages exacts doivent être traités comme des estimations jusqu'à validation communautaire indépendante.

Pourquoi c'est un tournant économique pour le vibe coding

Depuis 18 mois, l'économie du vibe coding pro reposait sur une hypothèse simple: les agents les plus capables coûtent cher, et les agents pas chers ne suffisent pas pour les vraies tâches. Composer 2.5 invalide ce postulat. Trois conséquences immédiates pour le marché.

La fin du monopole frontier US sur le coding

Anthropic et OpenAI ont construit leur croissance B2B sur l'idée que leurs modèles frontier (Opus, GPT-5.5) étaient indispensables aux tâches sérieuses. Composer 2.5 prouve qu'un fine-tune open-weight, bien entraîné sur des données métier, tient la comparaison. Ce n'est pas le premier challenger, mais c'est le premier qui est livré dans un IDE utilisé par des millions de développeurs en production réelle, pas seulement un benchmark de papier.

Cursor Composer 2.5 : Opus à 1/10 du prix change l'économie du vibe coding