

Tokenformer?: repenser les transformateurs en traitant les paramètres comme des jetons
Nov 04, 2024 am 12:36 AMLes Transformers ont transformé l'intelligence artificielle, offrant des performances inégalées en matière de PNL, de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grace à leurs mécanismes d’attention, ce qui les rend idéaux pour les taches complexes. Cependant, la mise à l'échelle rapide des modèles de transformateurs doit être améliorée en raison du co?t de calcul élevé associé à leur structure traditionnelle.
Les Transformers ont révolutionné l'intelligence artificielle, offrant des performances inégalées en matière de traitement du langage naturel (NLP), de vision par ordinateur et d'intégration de données multimodales. Ces modèles excellent dans l’identification de modèles au sein des données grace à leurs mécanismes d’attention, ce qui les rend idéaux pour les taches complexes. Cependant, la mise à l’échelle rapide des modèles de transformateurs doit être améliorée en raison du co?t de calcul élevé associé à leur structure traditionnelle. à mesure que ces modèles se développent, ils nécessitent des ressources matérielles et un temps de formation importants, qui augmentent de fa?on exponentielle avec la taille du modèle.
Le principal obstacle à la mise à l'échelle des transformateurs réside dans les paramètres fixes dans leurs couches de projection linéaire. Cette structure statique limite la capacité du modèle à se développer sans être entièrement recyclé, ce qui devient exponentiellement plus co?teux à mesure que la taille des modèles augmente. Ces modèles traditionnels exigent généralement un recyclage complet lorsque des modifications architecturales se produisent, telles que l'augmentation des dimensions des canaux.
Par conséquent, le co?t de calcul de ces extensions devient peu pratique et l'approche manque de flexibilité. L'incapacité d'ajouter de nouveaux paramètres de manière dynamique étouffe la croissance, rendant ces modèles moins adaptables à l'évolution des applications d'IA et plus co?teux en termes de temps et de ressources.
Historiquement, les approches de gestion de l'évolutivité des modèles incluaient la duplication des pondérations ou la restructuration des modèles à l'aide de méthodes telles que Net2Net, où la duplication des neurones étend les couches. Cependant, ces approches perturbent souvent l'équilibre des modèles pré-entra?nés, ce qui entra?ne des taux de convergence plus lents et des complexités de formation supplémentaires.
Bien que ces méthodes aient fait des progrès progressifs, elles sont toujours confrontées à des limites dans la préservation de l'intégrité du modèle pendant la mise à l'échelle. Les transformateurs s'appuient fortement sur des projections linéaires statiques, ce qui rend l'expansion des paramètres co?teuse et peu flexible. Les modèles traditionnels comme le GPT et d'autres gros transformateurs sont souvent recyclés à partir de zéro, ce qui entra?ne des co?ts de calcul élevés à chaque nouvelle étape de mise à l'échelle.
Maintenant, des chercheurs de l'Institut Max Planck, de Google et de l'Université de Pékin ont développé une nouvelle architecture appelée Tokenformer qui réinvente fondamentalement les transformateurs en traitant les paramètres du modèle comme des jetons, permettant des interactions dynamiques entre les jetons et les paramètres.
Dans ce cadre, Tokenformer introduit un nouveau composant appelé couche d'attention aux paramètres de jeton (Pattention), qui facilite la mise à l'échelle incrémentielle. Le modèle peut ajouter de nouveaux jetons de paramètres sans recyclage, ce qui réduit considérablement les co?ts de formation.
En représentant les jetons d'entrée et les paramètres dans le même cadre, Tokenformer permet une mise à l'échelle flexible, offrant aux chercheurs une architecture de modèle plus efficace et plus soucieuse des ressources qui conserve l'évolutivité et les hautes performances.
La couche Pattention de Tokenformer utilise des jetons d'entrée comme requêtes, tandis que les paramètres du modèle servent de clés et de valeurs, ce qui diffère de l'approche de transformateur standard, qui repose uniquement sur des projections linéaires.
La mise à l'échelle du modèle est obtenue en ajoutant de nouvelles paires de paramètres clé-valeur, en gardant constantes les dimensions d'entrée et de sortie et en évitant un recyclage complet. L'architecture de Tokenformer est con?ue pour être modulaire, permettant aux chercheurs d'étendre le modèle de manière transparente en incorporant des jetons supplémentaires.
Cette capacité de mise à l'échelle incrémentielle prend en charge la réutilisation efficace des poids pré-entra?nés tout en permettant une adaptation rapide à de nouveaux ensembles de données ou à des modèles de plus grande taille sans perturber les informations apprises.
Les avantages en termes de performances de Tokenformer sont notables, car le modèle réduit considérablement les co?ts de calcul tout en conservant la précision. Par exemple, Tokenformer est passé de 124 millions à 1,4 milliard de paramètres avec seulement la moitié des co?ts de formation typiques requis par les transformateurs traditionnels.
Dans une expérience, le modèle a atteint une perplexité de test de 11,77 pour une configuration de 1,4 milliard de paramètres, correspondant presque à la perplexité de 11,63 d'un transformateur de taille similaire formé à partir de zéro.
Cette efficacité signifie que Tokenformer peut atteindre des performances élevées dans plusieurs domaines, y compris les taches de langage et de modélisation visuelle, pour une fraction de la dépense en ressources des modèles traditionnels.
Tokenformer présente de nombreux points clés pour faire progresser la recherche sur l'IA et améliorer les modèles basés sur des transformateurs. Ceux-ci incluent?:
Le traitement des paramètres comme des jetons permet une mise à l'échelle incrémentielle du modèle sans recyclage.
La couche d'attention des paramètres de jeton facilite une expansion efficace des paramètres.
L'architecture modulaire prend en charge une croissance transparente du modèle en incorporant des jetons supplémentaires.
Le modèle atteint des performances élevées dans divers domaines avec une dépense de ressources minimale.
En conclusion, Tokenformer propose une approche transformatrice pour mettre à l'échelle des modèles basés sur des transformateurs. Cette architecture de modèle atteint l'évolutivité et l'efficacité des ressources en traitant les paramètres comme des jetons, en réduisant les co?ts et en préservant les performances du modèle entre les taches.
Cette flexibilité représente une percée dans la conception des transformateurs, fournissant un modèle capable de s'adapter aux exigences des applications d'IA avancées sans recyclage. L'architecture de Tokenformer est prometteuse pour les futures recherches sur l'IA, offrant une voie permettant de développer des modèles à grande échelle de manière durable et efficace.
Consultez le document, la page GitHub et les modèles sur HuggingFace.
Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter et de rejoindre notre cha?ne Telegram et notre groupe LinkedIn. Si vous aimez notre travail, vous allez adorer notre newsletter. N'oubliez pas de rejoindre notre SubReddit 55k ML.
[Opportunité de parrainage avec nous] Faites la promotion de votre recherche/produit/webinaire auprès de 1 million de lecteurs mensuels et de 500 000 membres de la communauté
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

En tant que premier échange mondial de crypto-monnaie, OKX fournit un environnement commercial s?r et fiable et une riche variété d'actifs numériques. 1. Visitez le site officiel www.okx.com pour télécharger l'application; 2. Sélectionnez la version Android ou iOS selon l'appareil; 3. Installez l'application et complétez l'enregistrement ou la connexion; 4. Activer la vérification à deux facteurs pour assurer la sécurité du compte. La plate-forme prend en charge le trading SPOT, le commerce à effet de levier, le trading de contrats, le Defi, le marché de la gestion financière et de la NFT OKX.

Pour obtenir l'adresse correcte officielle de l'application d'échange OUYI, vous devez passer par les trois canaux officiels suivants: 1. Téléchargez le site officiel, visitez le nom de domaine officiel [adid] FE9FC289C3FF0AF142B6D3BEAD98A923 [/ aDID] et téléchargez la version du système correspondant; 2. Suivez le compte officiel de médias sociaux pour obtenir les dernières informations de téléchargement; 3. Contactez le service client officiel pour confirmer. Dans le même temps, les utilisateurs doivent être attentifs aux sites Web de phishing, vérifier les noms de domaine, installer des logiciels antivirus, activer la vérification secondaire et éviter la fuite d'informations personnelles pour garantir la sécurité du compte.

Le choix d'une plate-forme de trading de crypto-monnaie fiable est cruciale pour garantir la sécurité des transactions, réduire les co?ts et améliorer l'expérience. Les dix premiers échanges en 2025 incluent: 1. OKX, avec une technologie puissante et une variété de méthodes de trading; 2. Binance, grand volume commercial et écologie parfaite; 3. Huobi, en se concentrant sur la conformité et l'expansion des utilisateurs; 4. Coinbase, adapté aux novices; 5. Kraken, haute sécurité et frais bas; 6. BitFinex, destiné aux utilisateurs professionnels; 7. Parbit, en se concentrant sur les dérivés; 8. Kucoin, devises riche; 9. Gémeaux, supervision stricte; 10. Gate.io, fournissant des produits innovants. Lors du choix, vous devez prêter attention à la sécurité, au volume des transactions, aux frais de traitement, à la devise, à l'expérience utilisateur, au service client et à la conformité.

Gate.io est une plate-forme de trading d'actifs numériques s?re et fiable, et les utilisateurs doivent y accéder via leur adresse officielle pour éviter les risques de sécurité. Pour assurer la sécurité de votre compte, veuillez utiliser un environnement réseau sécurisé, activer la vérification à deux facteurs, modifier régulièrement votre mot de passe, méfiez-vous des sites Web de phishing et des informations frauduleuses et consultez l'adresse e-mail officielle. Gate.io fournit un large éventail de types de transactions, le trading de contrats, la gestion financière et les prêts, la première plate-forme de version de startup, la cha?ne publique de Gatechain développée indépendamment, les garanties de sécurité multiples, le support de service client de 7x24 heures et une application mobile entièrement fonctionnelle. Pour commencer à utiliser Gate.io, vous pouvez accéder à son site Web officiel pour enregistrer un compte, terminer l'authentification réelle, recharger et commencer à traduire.

Les traders de crypto-monnaie doivent choisir une plate-forme de négociation s?re et fiable et polyvalente pour garantir la sécurité des actifs et l'efficacité des échanges. 1. OKX: une plate-forme de premier plan mondiale, fournissant une variété de méthodes de trading telles que Spot et Contracts, et soutenant des processus de vérification d'enregistrement et d'identité pratiques; 2. Binance: est connu pour ses frais faibles et sa monnaie riche, adapté aux utilisateurs mondiaux; 3. Huobi: a une longue histoire, une haute sécurité et divers produits; 4. Coinbase: a une interface amicale et une forte conformité, adaptée aux débutants; 5. Kraken: est connu pour son professionnalisme et sa transparence; 6. Kucoin: a une monnaie riche et fournit une variété de plans de récompense; 7. BitFinex: s'adresse aux utilisateurs professionnels, en fournissant des trading à effet de levier; 8. Gate.io: produits innovants et

Le choix de la bonne plate-forme de trading de devises numériques virtuels est cruciale. Les dix principales plates-formes grand public recommandées incluent OKX, Binance, Huobi, Coinbase, Kraken, BitFinex, Gate.io, Kucoin, Bybit et Mexc. 1. OKX fournit une large gamme de produits de trading et de produits financiers; 2. Binance est connue pour ses frais bas et son fort moteur de négociation; 3. Huobi prend en charge une variété de services de trading tels que Spot et Contracts; 4. Coinbase convient aux débutants; 5. Kraken est très s?r; 6. BitFinex a une bonne profondeur de trading; 7. Gate.io a une interface utilisateur amicale; 8. Kucoin soutient une variété de petites monnaies;

Lorsque vous choisissez une plate-forme de trading de crypto-monnaie fiable, vous devez donner la priorité à la sécurité, aux frais, à la devise et aux fonctions. Les dix principales plates-formes fiables en 2025 incluent OKX, Binance, Huobi, Coinbase, Kraken, Kucoin, BitFinex, Gemini, Bitstamp et Crypto.com. Ils ont chacun leurs propres caractéristiques. Par exemple, OKX fournit une variété de méthodes de transaction et se concentre sur la sécurité; La binance est connue pour ses frais de manipulation bas; Coinbase convient aux débutants; Kraken et Gémeaux mettent l'accent sur la conformité et la sécurité, etc. 2. Frais de transaction: comparez les taux de différentes plateformes et

Les dix premiers échanges en 2025 incluent: 1. OKX, menant avec une force technique et diverses méthodes de trading; 2. Binance, célèbre pour sa riche monnaie et son grand volume commercial; 3. Huobi, en se concentrant sur la conformité et en élargissant l'écosystème; 4. Coinbase, une plate-forme conviviale adaptée aux débutants; 5. Kraken, reconnu pour la sécurité et les frais faibles; 6. BitFinex, un outil avancé pour les commer?ants professionnels; 7. BIBIT, se concentrant sur les dérivés et le trading à effet de levier élevé; 8. Kucoin, offrant une large gamme d'options de devises; 9. Gemini, mettant l'accent sur la conformité réglementaire et les services institutionnels; 10. Gate.io, couvrant plusieurs transactions