à la mi-2025, la ?course aux armements? de l'IA se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4. Ces deux modèles sont aux extrémités opposées de la philosophie de conception et de la plate-forme de déploiement, pourtant, ils sont comparés les uns contre les autres alors qu'ils rivalisent en tête sur des raisons de raison et des benchmarks. Alors que Grok 4 en tête des tableaux académiques, Claude 4 brise le plafond avec ses performances de codage. La question br?lante est donc - Grok 4 ou Claude 4 - Quel modèle est le meilleur?
Dans ce blog, nous testerons les performances de Grok 4 et Claude 4 sur trois taches différentes et comparer les résultats pour trouver le gagnant ultime!
Table des matières
- Qu'est-ce que Grok 4?
- Qu'est-ce que Claude 4?
- Grok 4 vs Claude 4: comparaison basée sur les performances
- Analyse globale
- Grok 4 vs Claude 4: Comparaison de référence
- Conclusion
- Questions fréquemment posées
Qu'est-ce que Grok 4?
Grok 4 est le dernier modèle multimodal de grande langue publié par XAI, accessible via le X et disponible pour utiliser via l'application / site Web Grok. Grok 4 est un LLM agentique qui a été formé avec l'utilisation d'outils nativement. Le modèle est excellent pour résoudre les questions académiques dans toutes les disciplines et dépasse presque tous les autres LLM sur différents repères. Parallèlement à cela, Grok 4 a incorporé une grande fenêtre de contexte avec une capacité de 256k jetons, une recherche Web en temps réel et un mode vocal amélioré qui interagit avec les humains avec le calme. Grok 4 est livré avec de grandes capacités de raisonnement et de pensée humaine, ce qui en fait l'un des modèles les plus puissants à ce jour.
Pour tout savoir sur Grok 4, vous pouvez lire ce blog: Grok 4 est ici, et c'est génial.
Qu'est-ce que Claude 4?
Claude 4 est le modèle de grande langue le plus avancé publié par Anthropic à ce jour. Ce LLM multimodal présente un raisonnement hybride, une réflexion avancée et une capacité de renforcement des agents. Le modèle présente des réponses de foudre pour des requêtes simples, tandis que pour les requêtes complexes, il se déplace vers un raisonnement plus profond, décomposant souvent une tache en plusieurs étapes en petites taches. Il offre des performances avec l'efficacité et enregistre les résultats stellaires pour les problèmes de codage.
Dirigez-vous vers ce blog pour lire sur Claude 4 en détail: Claude 4 est sorti, et c'est incroyable!
Grok 4 vs Claude 4: comparaison basée sur les performances
Maintenant que nous avons compris les nuances des deux modèles, examinons d'abord la comparaison des performances des deux modèles:
D'après le graphique, il est clair que Claude 4 bat Grok 4 en termes de temps de réponse et même le co?t par tache. Mais nous n'avons pas toujours à passer par des chiffres. Testons les deux modèles pour différentes taches et voyons si les statistiques ci-dessus sont vraies ou non!
Tache 1: prototype d'interface utilisateur sécurisé
Invite: ?Créez une page Web de passerelle de paiement interactive et visuellement attrayante à l'aide de HTML, CSS et JavaScript.?
Réponse par Grok 4
Réponse de Claude 4
Analyse comparative
Claude 4 fournit une interface utilisateur complète avec des éléments polis qui incluent des fonctionnalités de carte, PayPal et Apple Pay. Il prend également en charge les animations et la validation en temps réel de l'interface utilisateur. La disposition du Claude 4 modélise les applications réelles comme Stripe ou Razorpay.
Grok 4 est également d'abord mobile mais beaucoup plus dépouillé. Il ne prend en charge que l'entrée de la carte avec certaines fonctionnalités de validation de base. Il a une disposition très simple, propre et réactive.
Verdict: les deux interfaces utilisateur ont des cas d'utilisation différents, car Claude 4 est le meilleur pour les présentations et les vitrines riches. Grok 4 est le meilleur pour apprendre et construire des applications mobiles interactives rapides et interactives.
Tache 2: Problème de physique
Invite: ?Deux disques circulaires minces de masse m et 4m, ayant des rayons de a et 2a respectivement, sont fixés de manière rigide par une tige de longueur droite sans masse ? = √ (24 a) à travers leur centre. Cet assemblage est posé sur une surface ferme et plate, et se déroule sans glisser sur la surface de sorte que la vitesse angulaire de l'axe de la tige est ω. Figure).
A. L'amplitude du moment angulaire de l'assemblage autour de son centre de masse est de 17 m a2 ω / 2
B. L'amplitude du composant Z de L est de 55 m a2 ω
C. L'amplitude du moment angulaire du centre de masse de l'assemblage autour du point O est de 81 m a2 ω
D. Le centre de masse de l'assemblage tourne autour de l'axe Z avec une vitesse angulaire de ω / 5 ”
Réponse par Grok 4
Grok 4 considère le problème avec deux disques de couleurs M et 4M attachés par une tige de longueur √24a. Il trouve le centre de masse, l'angle d'inclinaison pour le roulement, et utilise des sources fiables, Vedantu et Fiitjee pour vérifier la question de Jee Advanced 2016. Groove déduit les bonnes réponses pour être A et D, en utilisant une déduction logique et une confirmation valide à partir de sources virtuelles dans le contexte réel-du monde réel
Réponse de Claude 4
Claude 4 utilise un guide d'analyse basé sur la physique à travers un processus de réflexion par étapes. Il développe le centre de la masse, propose comment ils rouleraient, évalue le moment d'inertie à l'aide du théorème de l'axe parallèle, fournit plus de détails et d'explication, est meilleur à des fins éducatives à un égard, et théoriquement qu'une solution seule. Claude conclut que toutes les options AD sont correctes, ce qui est incorrect, car Claude dépasse la conclusion, puis arrive à la précision dans sa réponse.
Analyse comparative
Verdict: Si vous recherchez une précision et une efficacité sur l'itération, Grok est meilleur en raison de son raisonnement et de la réalité de savoir s'il peut utiliser une meilleure logique que ceux qui cherchent à se référer uniquement à des réponses soutenues par la littérature. Claude offre une théorie légèrement meilleure dans la clarté conceptuelle, mais échoue finalement dans la précision finale.
Tache 3: Connexions critiques dans un réseau
Invite: ?Il y a n serveurs numérotés de 0 à N - 1 connectés par des connexions de serveur à serveur non dirigées formant un réseau où les connexions [i] = [AI, BI] représentent une connexion entre les serveurs AI et BI. Tout serveur peut atteindre d'autres serveurs directement ou indirectement via le réseau.
Une connexion critique est une connexion qui, si elle est supprimée, rendra certains serveurs incapables d'atteindre un autre serveur.
Renvoyez toutes les connexions critiques du réseau dans n'importe quel ordre.
Entrée: n = 4, connexions = [[0,1], [1,2], [2,0], [1,3]]
Sortie: [[1,3]]
Explication: [[3,1]] est également accepté.
Exemple 2: Entrée: n = 2, connexions = [[0,1]] Sortie: [[0,1]] ?
Réponse par Grok 4
#inclure<bits .h> Utilisation de Namespace Std; Solution de classe { publique: vecteur <vector> > CriticalConnections (int n, vecteur <vector> > & Connexions) { vecteur <vector> > adj (n); pour (Auto & Conn: Connexions) { adj [conn [0]]. push_back (conn [1]); adj [conn [1]]. push_back (conn [0]); } vecteur<int> disque (n, -1), bas (n, -1), parent (n, -1); vecteur <vector> > ponts; int time = 0; fonction<void> dfs = [&] (int u) { disque [u] = bas [u] = temps; pour (int v: adj [u]) { if (disque [v] == -1) {// non visité parent [v] = u; dfs (v); bas [u] = min (bas [u], bas [v]); if (bas [v]> disque [u]) { Bridges.push_back ({u, v}); } } else if (v! = parent [u]) { bas [u] = min (bas [u], disque [v]); } } }; pour (int i = 0; i <n i if dfs retour ponts><h4>Réponse de Claude 4</h4> <pre class="brush:php;toolbar:false"> Solution de classe { publique: vecteur <vector> > CriticalConnections (int n, vecteur <vector> > & Connexions) { // construire la liste d'adjacence vecteur <vector> > graphique (n); pour (Auto & Conn: Connexions) { graphique [conn [0]]. push_back (conn [1]); graphique [conn [1]]. push_back (conn [0]); } // Initialiser les tableaux pour l'algorithme de Tarjan vecteur<int> Discovery (n, -1); // temps de découverte vecteur<int> bas (n, -1); // valeur de faible liaison vecteur<int> parent (n, -1); // parent dans l'arbre DFS vecteur <vector> > ponts; // Stocker les ponts int time = 0; // Global Time Counter // Exécutez des DF pour tous les n?uds non visités pour (int i = 0; i <n i if dfs graphique d bas parent ponts temps retour priv void u vecteur> > & graphique, vecteur<int> & Discovery, vecteur<int> & bas, vecteur<int> & parent, vecteur <vector> > & ponts, int & time) { // Marquez le n?ud de courant comme visité découverte [u] = bas [u] = temps; // explore tous les sommets adjacents for (int v: graph [u]) { if (découverte [v] == -1) {// si v n'est pas visité parent [v] = u; DFS (V, graphique, découverte, bas, parent, ponts, temps); // Mette à jour la valeur de faible liaison bas [u] = min (bas [u], bas [v]); // Vérifiez si Edge UV est un pont if (bas [v]> découverte [u]) { Bridges.push_back ({u, v}); } } else if (v! = parent [u]) {// back edge (pas parent) bas [u] = min (bas [u], découverte [v]); }}}}; int main () { Solution Sol; int n = 5; vecteur <vector> > connexions = { {0, 1}, {1, 2}, {2, 0}, {1, 3}, {3, 4} }; vecteur <vector> > result = Sol.CriticalConnections (n, connexions); cout <h3> Analyse comparative</h3> <p> Grok 4 et Claude 4 mettent en ?uvre l'algorithme Tarjan Trunk-Queery en C, mais dans différentes modes. Claude 4 a utilisé une approche orientée objet standard. Il a en outre séparé la logique DFS en une deuxième méthode d'assistance, ce qui a aidé à la modularisation et a finalement rendu un peu plus facile à suivre. Ce style est excellent à des fins d'enseignement ou lors du débogage ou de l'extension de solutions à d'autres problèmes de graphique.</p> <p> Grok 4 a utilisé une fonction lambda pour l'exploration, à l'intérieur de la méthode principale. C'est le style le plus concis et le plus moderne. Il est particulièrement bien adapté à une programmation compétitive ou à de petits outils. Il maintient la logique portée et minimise les effets secondaires mondiaux, mais il peut être un peu plus difficile à lire, en particulier pour les nouveaux en programmation.</p> <p> <strong>Verdict final:</strong> vous pouvez compter sur Claude 4 lorsque vous essayez d'écrire du code qui sera lisible et maintenable. Vous pouviez, en revanche, compter sur Grok 4 lorsque la priorité était de le faire plus rapidement et avec un code plus court.</p> <h2> Analyse globale</h2> <p> Grok 4 se concentre sur la précision, la vitesse et la fonctionnalité dans les trois taches. Il est également très compétent dans l'applicabilité du monde réel, que ce soit en résolvant avec succès des problèmes. Quant à Claude 4, ses forces résident dans sa profondeur théorique, sa fermeture et sa structure, ce qui le rend mieux adapté à une conception éducative ou maintenable. Cela dit, Claude peut parfois exagérer dans l'analyse, ce qui peut également affecter le niveau de précision.</p> <table> <thead><tr> <td> <strong>Aspect</strong> </td> <td> <strong>Grok 4</strong> </td> <td> <strong>Claude 4</strong> </td> </tr></thead> <tbody> <tr> <td> <strong>Conception d'interface utilisateur</strong> </td> <td> Propre, d'abord mobile, minimal; Idéal pour l'apprentissage et les MVP</td> <td> UI riche, animé, multi-option; Idéal pour les démos et le vernis</td> </tr> <tr> <td> <strong>Problème de physique</strong> </td> <td> Précis, logique, vérifiée par source; Réponses A&D correctement</td> <td> Conceptuellement fort mais incorrect (tous a - d marqué)</td> </tr> <tr> <td> <strong>Algorithme de graphique</strong> </td> <td> Code concis basé sur Lambda; Meilleur pour les scénarios de codage rapide</td> <td> Code modulaire et lisible; Mieux pour l'éducation / le débogage</td> </tr> <tr> <td> <strong>Précision</strong> </td> <td> Haut</td> <td> Modéré (en raison de la génération sur la génération)</td> </tr> <tr> <td> <strong>Clarté de code</strong> </td> <td> Modérément efficace mais dense</td> <td> Très facile à lire et à étendre</td> </tr> <tr> <td> <strong>Utilisation du monde réel</strong> </td> <td> Excellent (CP, outils rapides, réponses précises)</td> <td> Bon (mais plus lent et sujette à une sur-analyse)</td> </tr> <tr> <td> <strong>Mieux pour</strong> </td> <td> Vitesse, précision, logique compacte</td> <td> éducation, lisibilité et extensibilité</td> </tr> </tbody> </table> <h2> Grok 4 vs Claude 4: Comparaison de référence</h2> <p> Dans cette section, nous comparerons Grok 4 et Claude 4 sur certains principaux benchmarks publics disponibles. Le tableau ci-dessous illustre leurs différences et certaines mesures de performance importantes. Y compris le raisonnement, le codage, la latence et la taille des fenêtres de contexte. Cela nous permet d'évaluer quel modèle fonctionne supérieur dans des taches spécifiques telles que la résolution technique de problèmes, le développement de logiciels et l'interaction en temps réel.</p> <table> <thead><tr> <td> <strong>Métrique / fonctionnalité</strong> </td> <td> <strong>Grok 4 (xai)</strong> </td> <td> <strong>Claude 4 (Sonnet 4 & Opus 4)</strong> </td> </tr></thead> <tbody> <tr> <td> <strong>Libérer</strong> </td> <td> Juillet 2025</td> <td> Mai 2025 (Sonnet 4 et Opus 4)</td> </tr> <tr> <td> <strong>Modalités d'E / S</strong> </td> <td> Texte, code, voix, images</td> <td> Texte, code, images (vision); pas de voix intégrée</td> </tr> <tr> <td> <strong>Hle (dernier examen de l'humanité)</strong> </td> <td> <em>Avec des outils:</em> 50,7% (nouvel enregistrement) <em>Aucun outil:</em> 26,9%</td> <td> <em>Pas d'outils:</em> ~15–22% (plage typique pour GPT-4, Gemini, Claude Opus comme indiqué) <em>avec des outils:</em> (non signalé)</td> </tr> <tr> <td> <strong>MMLU</strong> </td> <td> 86,6%</td> <td> Sonnet: 83,7%; Opus: 86,0%</td> </tr> <tr> <td> <strong>Swe-Bench (codage)</strong> </td> <td> 72–75% (passer @ 1)</td> <td> Sonnet: 72,7%; Opus: 72,5%</td> </tr> <tr> <td> <strong>Autres universitaires</strong> </td> <td> AIME (mathématiques): 100%; GPQA (physique): 87%</td> <td> Benchmarks comparables non publiés publiquement; Claude 4 se concentre sur les taches de codage / agent</td> </tr> <tr> <td> <strong>Latence et vitesse</strong> </td> <td> 75.3 Tok / s; ~ 5,7 s au premier jeton</td> <td> Sonnet: 85,3 tok / s, 1,68 s ttft; opus: 64.9 tok / s, 2,58 s ttft</td> </tr> <tr> <td> <strong>Prix</strong> </td> <td> 30 $ / mois (standard); 300 $ / mois (lourd)</td> <td> Sonnet: 3 $ / 15 $ par jetons 1 m (entrée / sortie) (niveau gratuit disponible pour Sonnet 4); Opus: 15 $ / 75 $ par 1 m</td> </tr> <tr> <td> <strong>API et plateformes</strong> </td> <td> API XAI accessible via les applications x.com/grok</td> <td> API anthropique; Aussi sur AWS Boudrock et Google Vertex AI</td> </tr> </tbody> </table> <h2> Conclusion</h2> <p> En comparant Grok 4 à Claude 4, je vois deux modèles qui ont été construits pour différentes valeurs. Grok 4 est rapide, précis et aligné sur les cas d'utilisation du monde réel. Ainsi, idéal pour la programmation technique, le prototypage rapide et la résolution de problèmes qui valent l'exactitude et la vitesse de valeur. Il offre toujours des réponses claires, concises et très efficaces dans des domaines tels que la conception de l'interface utilisateur, les problèmes d'ingénierie et la création d'algorithmes basés sur la programmation fonctionnelle.</p> <p> En revanche, Claude 4 offre une force de clarté, de structure et de profondeur. Son style de codage axé sur l'éducation et con?u pour la redabilité le rend plus adapté aux projets maintenables. Pour aider à transmettre une compréhension conceptuelle et à des fins d'enseignement et de débogage. Néanmoins, je vois que Claude peut parfois aller trop loin dans l'analyse, affectant la qualité de la réponse à la question.</p> <p> Par conséquent, si votre priorité est les performances brutes et l'application du monde réel, alors Grok 4 est le meilleur choix. Si votre priorité est l'architecture propre, la clarté conceptuelle et / ou l'enseignement et l'apprentissage, alors Claude 4 est votre meilleur pari.</p> <h2> Questions fréquemment posées</h2> <strong>Q1. Quel modèle est globalement plus précis?</strong><p> A. Grok 4 a les meilleures réponses finales entre les taches effectuées, en particulier dans la résolution technique ou les problèmes de physique du monde réel.</p> <strong>Q2. Quel est le meilleur pour l'interface utilisateur ou le codage frontal?</strong><p> A. Claude 4 fournit une sortie d'interface utilisateur beaucoup plus riche et poli avec l'animation et plusieurs méthodes. Grok 4 est meilleur pour les prototypes mobiles et rapides.</p> <strong>Q3. Qui devrait utiliser Grok 4?</strong><p> A. Développeurs, chercheurs ou étudiants ayant un intérêt ou un besoin pour la vitesse, la brièveté et l'exactitude dans des taches telles que la programmation compétitive, les mathématiques ou les outils d'utilité rapide.</p> <strong>Q4. Quel modèle fonctionne mieux pour coder les références?</strong><p> A. Les deux modèles fonctionnent de manière similaire sur SWE-Bench (~ 72-75%) et Grok 4 a été avancé (marginalement) sur certains repères de raisonnement, et la cohérence à travers l'achèvement des taches, à l'exception des bo?tes de dessin.</p> <strong>Q5. Les deux modèles peuvent-ils être utilisés via l'API?</strong><p> A. Oui, Grok 4 est disponible via les applications API et GROK de Xai. Claude 4 est disponible via l'API d'Anthropic.</p></vector></vector></vector></int></int></int></n></vector></int></int></int></vector></vector></vector>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Notebooklm de Google est un outil de prise de notes SMART IA propulsé par Gemini 2.5, qui excelle à résumer les documents. Cependant, il a toujours des limites dans l'utilisation des outils, comme les bouchons de source, la dépendance au nuage et la fonction récentes ?Discover?

Mais ce qui est en jeu ici n'est pas seulement des dommages rétroactifs ou des remboursements de redevances. Selon Yelena Ambartsumian, un avocat de la gouvernance et de l'IP et fondatrice de l'IP et fondatrice d'Ambart Law PLLC, la vraie préoccupation est tournée vers l'avant. "Je pense que MA de Disney et Universal

L'utilisation d'IA n'est pas la même chose que de bien l'utiliser. De nombreux fondateurs l'ont découvert par l'expérience. Ce qui commence comme une expérience d'économie de temps finit souvent par créer plus de travail. Les équipes finissent par passer des heures à réviser le contenu généré par l'IA ou à vérifier les sorties

Voici dix tendances convaincantes qui remodèlent le paysage de l'IA de l'entreprise. L'engagement financier de la lancement envers les organisations LLMS augmente considérablement leurs investissements dans les LLM, 72% s'attendant à ce que leurs dépenses augmentent cette année. Actuellement, près de 40% A

La société spatiale Voyager Technologies a levé près de 383 millions de dollars lors de son introduction en bourse mercredi, avec des actions offertes à 31 $. L'entreprise fournit une gamme de services liés à l'espace aux clients gouvernementaux et commerciaux, y compris des activités à bord

Je suis bien s?r suivi de près de Boston Dynamics, qui est situé à proximité. Cependant, sur la scène mondiale, une autre entreprise de robotique augmente en tant que présence formidable. Leurs robots à quatre pattes sont déjà déployés dans le monde réel, et

Ajoutez à cette réalité le fait que l'IA reste en grande partie une bo?te noire et que les ingénieurs ont toujours du mal à expliquer pourquoi les modèles se comportent imprévisible

NVIDIA a renommé Lepton AI sous le nom de DGX Cloud Lepton et l'a réintroduit en juin 2025. Comme indiqué par NVIDIA, le service propose une plate-forme d'IA unifiée et calcule le marché qui relie les développeurs à des dizaines de milliers de GPU à partir d'un réseau mondial de CLO
