GPT-4o vs GPT-4 : Comparaison des Capacités et Performances

GPT-4o d’OpenAI repose sur les bases établies par les modèles précédents de l’entreprise avec des mises à jour significatives, y compris des capacités multimodales améliorées et des performances plus rapides.

Depuis le lancement de ChatGPT par OpenAI fin 2022, l’interface chatbot et ses modèles sous-jacents ont déjà subi plusieurs modifications majeures. GPT-4o a été publié en mai 2024 en tant que successeur de GPT-4, lancé en mars 2023, et a été suivi par GPT-4o mini en juillet 2024.

GPT-4 et GPT-4o — c’est la lettre o, pour omni — sont des modèles avancés d’IA générative développés par OpenAI pour une utilisation au sein de l’interface ChatGPT. Les deux modèles sont entraînés pour générer du texte naturel en réponse aux invites des utilisateurs, et ils peuvent s’engager dans des conversations interactives, retenant la mémoire et le contexte pour informer les réponses futures.

Comparaison des Produits :
TechTarget Editorial a comparé ces produits en testant les modèles au sein de ChatGPT, en lisant des documents d’information et de documentation technique d’OpenAI, et en analysant les avis des utilisateurs sur Reddit, les blogs technologiques et le forum des développeurs d’OpenAI.

Différences entre GPT-4o et GPT-4

À bien des égards, GPT-4o et GPT-4 sont similaires. Tous deux sont des modèles avancés d’OpenAI dotés de capacités de vision et d’audio, ainsi que de la capacité de se souvenir d’informations et d’analyser des documents téléchargés. Chacun dispose d’une fenêtre de contexte de 128 000 tokens et d’une date de cut-off des connaissances à la fin de 2023 (octobre pour GPT-4o, décembre pour GPT-4).

Mais GPT-4o et GPT-4 diffèrent également de manière significative dans plusieurs domaines : capacités multimodales, performance et efficacité, tarification, et support linguistique.

Où se Situe GPT-4o mini ?

Le 18 juillet 2024, OpenAI a lancé GPT-4o mini, un modèle plus petit et plus économique de la série GPT.

GPT-4o mini est conçu pour remplacer GPT-3.5, OpenAI affirmant qu’il surpasse ce modèle tout en coûtant moins cher que toutes les autres options de l’entreprise. Destiné aux développeurs souhaitant créer des applications d’IA sans supporter les coûts de calcul associés aux modèles plus grands comme GPT-4, ce nouveau modèle se positionne comme un concurrent d’autres petits modèles de langage, tels que Haiku de Claude.

Tous les utilisateurs des plans ChatGPT Free, Plus et Team ont eu accès à GPT-4o mini dès son lancement, les utilisateurs de ChatGPT Enterprise devant y avoir accès peu de temps après. Le nouveau modèle prend en charge le texte et la vision, et bien qu’OpenAI ait déclaré qu’il prendra éventuellement en charge d’autres types d’entrées multimodales, telles que la vidéo et l’audio, il n’y a pas encore de calendrier précis pour cela.

Multimodalité

Les modèles d’IA multimodaux sont capables de traiter plusieurs types de données, tels que le texte, les images et l’audio. Dans un certain sens, GPT-4 et GPT-4o sont tous deux multimodaux : dans l’interface ChatGPT, les utilisateurs peuvent créer et télécharger des images et utiliser le chat vocal, qu’ils utilisent GPT-4 ou GPT-4o. Cependant, la manière dont les deux modèles abordent la multimodalité est très différente — c’est l’un des plus grands différenciateurs entre GPT-4o et GPT-4.

GPT-4 est un modèle de langage étendu (LLM) principalement conçu pour le traitement du texte, ce qui signifie qu’il ne prend pas en charge nativement le traitement des images, de l’audio et de la vidéo. Dans l’interface web de ChatGPT, GPT-4 doit faire appel à d’autres modèles d’OpenAI, tels que le générateur d’images Dall-E ou le modèle de reconnaissance vocale Whisper, pour traiter les entrées non textuelles.

GPT-4o, en revanche, a été conçu pour la multimodalité dès le départ, d’où le nom « omni ». « Nous avons entraîné un nouveau modèle unique de bout en bout à travers le texte, la vision et l’audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal », ont écrit les représentants d’OpenAI dans un billet de blog annonçant le lancement.

Cette multimodalité native rend GPT-4o plus rapide que GPT-4 pour les tâches impliquant plusieurs types de données, telles que l’analyse d’images. Lors de la démonstration de GPT-4o par OpenAI le 13 mai 2024, par exemple, les dirigeants de l’entreprise ont utilisé GPT-4o pour analyser une vidéo en direct d’un utilisateur résolvant un problème de mathématiques et fournir un retour vocal en temps réel.

Controverse sur les Capacités Vocales de GPT-4o

La démonstration lors du lancement en direct de GPT-4o par OpenAI a présenté une voix appelée Sky, que les auditeurs et Scarlett Johansson ont noté comme ressemblant étrangement au personnage assistant AI de Johansson dans le film Her. Le PDG d’OpenAI, Sam Altman, a lui-même tweeté le seul mot « her » pendant la démonstration.

Subséquemment, Johansson a déclaré qu’elle avait engagé un avocat et révélé qu’Altman avait auparavant demandé à utiliser sa voix dans ChatGPT, une demande qu’elle avait refusée. En réponse, OpenAI a suspendu l’utilisation de la voix de Sky, bien qu’Altman ait déclaré dans un communiqué que Sky n’était jamais censé ressembler à Johansson.

L’incident souligne les préoccupations croissantes concernant l’utilisation éthique des similitudes vocales et les droits des artistes à l’ère de l’IA générative. La représentante Nancy Mace, présidente du Sous-comité de la Chambre sur la cybersécurité, les technologies de l’information et l’innovation gouvernementale, a récemment invité Johansson à témoigner devant le comité sur la voix de Sky et la question plus large des deepfakes.

Performance et Efficacité

GPT-4o est également conçu pour être plus rapide et plus efficace en termes de calcul que GPT-4 dans l’ensemble, pas seulement pour les requêtes multimodales. Selon OpenAI, GPT-4o est deux fois plus rapide que la version la plus récente de GPT-4.

Lorsque TechTarget Editorial a chronométré les deux modèles lors des tests, les réponses de GPT-4o étaient en effet généralement plus rapides que celles de GPT-4 — bien que pas tout à fait deux fois plus rapides — et similaires en qualité. Le tableau suivant compare les temps de réponse de GPT-4o et GPT-4 à cinq invites d’exemple utilisant l’application web ChatGPT.

Invite	GPT-4o	GPT-4
Générer un essai de 500 mots sur la façon dont l’informatique quantique pourrait changer l’industrie IT.	23 secondes	33 secondes
Développer un itinéraire pour un voyage de trois jours à Traverse City, Michigan.	28 secondes	48 secondes
Imprimer « hello world » en C.	4 secondes	7 secondes
Écrire un texte alternatif pour l’image jointe [une photo d’un oriole].	2 secondes	3 secondes
Résumer le document joint [un article de journal de neurosciences de 22 pages] en cinq points clés.	16 secondes	19 secondes

Les tests d’OpenAI indiquent que GPT-4o surpasse GPT-4 sur les principaux benchmarks, y compris les mathématiques simples, la compréhension du langage et la compréhension visuelle. OpenAI a également déclaré que GPT-4o a une compréhension contextuelle plus forte que GPT-4, lui permettant de mieux saisir les idiomes, métaphores et références culturelles.

Ce que disent les utilisateurs réels varie. Au moment de la publication, GPT-4o est le modèle le mieux noté sur la plateforme d’évaluation LLM LMSYS Chatbot Arena, à la fois globalement et dans des catégories spécifiques telles que le codage et les réponses aux requêtes difficiles. Mais d’autres utilisateurs qualifient GPT-4o de « surfait », rapportant qu’il fonctionne moins bien que GPT-4 sur des tâches telles que le codage, la classification et le raisonnement.

Malheureusement, chaque type de preuve — benchmarks auto-déclarés des développeurs de modèles, évaluations humaines participatives et anecdotes non vérifiées — a ses propres limites. Pour les développeurs construisant des applications LLM et les utilisateurs intégrant l’IA générative dans leurs workflows, décider quel modèle est le mieux adapté pourrait finalement nécessiter d’expérimenter les deux au fil du temps et dans divers contextes. Certains développeurs, par exemple, disent qu’ils passent de l’un à l’autre entre GPT-4 et GPT-4o en fonction de la tâche à accomplir.

Tarification

Un avantage de l’amélioration de l’efficacité calculatoire de GPT-4o est son prix plus bas. Pour les développeurs utilisant l’API d’OpenAI, GPT-4o est de loin l’option la plus rentable. Il est disponible à un tarif de 5 $ par million de tokens d’entrée et 15 $ par million de tokens de sortie, tandis que GPT-4 coûte 30 $ par million de tokens d’entrée et 60 $ par million de tokens de sortie. GPT-4o mini est encore moins cher, à 15 cents par million de tokens d’entrée et 60 cents par million de tokens de sortie.

Pour les utilisateurs de l’application web, la différence est encore plus significative. À l’avenir, GPT-4o alimentera la version gratuite de ChatGPT, avec GPT-4o et GPT-4o mini remplaçant GPT-3.5. Cela donne aux utilisateurs gratuits l’accès à la multimodalité, à des réponses textuelles de meilleure qualité, au chat vocal et aux GPTs personnalisés — une option sans code pour créer des chatbots personnalisés — qui étaient auparavant réservés aux clients payants. GPT-4 restera disponible uniquement pour ceux disposant d’un plan payant, y compris ChatGPT Plus, Team et Enterprise, qui commencent à 20 $ par mois.

Cependant, ce déploiement est toujours en cours, et certains utilisateurs pourraient ne pas encore avoir accès à GPT-4o ou GPT-4o mini. Lors d’un test le 23 juillet 2024, GPT-3.5 était toujours le modèle par défaut pour les utilisateurs gratuits sans compte ChatGPT.

De plus, les utilisateurs gratuits et payants auront différents niveaux d’accès à chaque modèle. Les utilisateurs gratuits seront confrontés à des limites de messages pour GPT-4o, et après avoir atteint ces plafonds, ils seront basculés vers GPT-4o mini. Les utilisateurs de ChatGPT Plus auront des limites de messages plus élevées que les utilisateurs gratuits, et ceux sur un plan Team et Enterprise auront encore moins de restrictions.

Support Linguistique

GPT-4o offre également un support nettement meilleur pour les langues non anglaises par rapport à GPT-4. En particulier, OpenAI a amélioré la tokenization pour les langues n’utilisant pas un alphabet occidental, telles que l’hindi, le chinois et le coréen. Le nouveau tokenizer compresse plus efficacement le texte non anglais, avec pour objectif de traiter les prompts dans ces langues de manière plus économique et plus rapide.

Ce changement répond à un problème de longue date dans le traitement du langage naturel, dans lequel les modèles ont historiquement été optimisés pour les langues occidentales au détriment des langues parlées dans d’autres régions. Gérer plus de langues avec une plus grande précision et fluidité rend GPT-4o plus efficace pour les applications mondiales et ouvre l’accès à des groupes qui n’avaient peut-être pas pu interagir pleinement avec les modèles auparavant.

Mais le support linguistique amélioré n’est pas sans défis. Quelques jours après la sortie de GPT-4o par OpenAI, des chercheurs ont remarqué que de nombreux tokens chinois incluaient des phrases inappropriées liées à la pornographie et au jeu. Les développeurs de modèles pourraient avoir inclus ces tokens problématiques en raison d’un nettoyage de données insuffisant, risquant de dégrader la compréhension du modèle et de provoquer des violations de sécurité et des hallucinations.

GPT-4o est-il Meilleur que GPT-4 ?

Dans la plupart des cas, GPT-4o est en effet meilleur que GPT-4. OpenAI décrit désormais GPT-4o comme son modèle phare, et sa vitesse améliorée, ses coûts inférieurs et ses capacités multimodales seront attrayants pour de nombreux utilisateurs.

Cela dit, certains utilisateurs pourraient encore préférer GPT-4, en particulier dans les contextes commerciaux. Comme GPT-4 est disponible depuis plus d’un an maintenant, il est bien testé et déjà familier à de nombreux développeurs et entreprises. Ce type de stabilité peut être crucial pour les applications critiques et largement utilisées, où la fiabilité pourrait être une priorité plus élevée que les coûts les plus bas ou les dernières fonctionnalités.

De plus, bien que GPT-4o soit généralement plus rentable pour les nouveaux déploiements, les équipes informatiques cherchant à gérer des configurations existantes pourraient trouver plus économique de continuer à utiliser GPT-4. La transition vers un nouveau modèle entraîne ses propres coûts, en particulier pour les systèmes étroitement intégrés à GPT-4 où le changement de modèle pourrait impliquer des modifications importantes de l’infrastructure ou des workflows.

En outre, les capacités multimodales de GPT-4o pourraient différer pour les utilisateurs de l’API par rapport aux utilisateurs web, du moins pour l’instant. Dans un billet de mai 2024 sur le OpenAI Developer Forum, un chef de produit OpenAI a expliqué que GPT-4o ne prend pas encore en charge la génération d’images ou l’audio via l’API. Par conséquent, les entreprises utilisant principalement les API d’OpenAI pourraient ne pas trouver GPT-4o suffisamment attrayant pour effectuer la transition jusqu’à ce que ses capacités multimodales deviennent généralement disponibles via l’API.

Que Signifie l’Introduction de GPT-4o pour les Utilisateurs de ChatGPT ?

L’introduction de GPT-4o comme nouvelle version par défaut de ChatGPT entraînera des changements majeurs pour les utilisateurs. L’une des mises à jour les plus significatives est la disponibilité des capacités multimodales, comme mentionné précédemment. À l’avenir, tous les utilisateurs pourront interagir avec ChatGPT en utilisant du texte, des images, de l’audio et de la vidéo, et créer des GPTs personnalisés — des fonctionnalités qui étaient auparavant limitées ou indisponibles.

Ces avancées pourraient rendre l’abonnement Plus moins attrayant pour certains utilisateurs, car de nombreuses fonctionnalités auparavant premium sont désormais accessibles dans le niveau gratuit. Cela dit, les plans payants offrent toujours des avantages tels que des plafonds d’utilisation plus élevés et des temps de réponse plus rapides, ce qui pourrait être un facteur décisif pour les utilisateurs intensifs ou les entreprises ayant besoin de fiabilité dans les interactions régulières à haut volume.

Même en pleine effervescence autour de GPT-4o, beaucoup dans la communauté de l’IA regardent déjà vers GPT-5, attendu plus tard cet été. Les clients d’entreprise ont reçu des démonstrations du nouveau modèle ce printemps, ont rapporté des sources à Business Insider, et OpenAI a teasé des capacités à venir telles que les agents autonomes d’IA.

GPT-4o vs GPT-4 : Comparaison des Capacités et Performances

Différences entre GPT-4o et GPT-4