


Analyse approfondie des principes de fonctionnement et des caractéristiques du modèle Vision Transformer (VIT)
Jan 23, 2024 am 08:30 AMVision Transformer (VIT) est un modèle de classification d'images basé sur Transformer proposé par Google. Contrairement aux modèles CNN traditionnels, VIT représente les images sous forme de séquences et apprend la structure de l'image en prédisant l'étiquette de classe de l'image. Pour y parvenir, VIT divise l'image d'entrée en plusieurs patchs et concatène les pixels de chaque patch via des canaux, puis effectue une projection linéaire pour obtenir les dimensions d'entrée souhaitées. Enfin, chaque patch est aplati en un seul vecteur, formant la séquence d'entrée. Grace au mécanisme d'auto-attention de Transformer, VIT est capable de capturer la relation entre les différents correctifs et d'effectuer une extraction efficace des fonctionnalités et une prédiction de classification. Cette méthode de représentation d'images sérialisées apporte de nouvelles idées et de nouveaux effets aux taches de vision par ordinateur.
Le modèle Vision Transformer est largement utilisé dans les taches de reconnaissance d'images, telles que la détection d'objets, la segmentation d'images, la classification d'images et la reconnaissance d'actions. De plus, il convient à la modélisation générative et aux taches multimodèles, notamment la fondation visuelle, la réponse visuelle aux questions et le raisonnement visuel.
Comment Vision Transformer classe-t-il les images??
Avant d'examiner le fonctionnement des Vision Transformers, nous devons comprendre les bases de l'attention et de l'attention multi-têtes dans le Transformer original.
Transformer est un modèle qui utilise un mécanisme appelé auto-attention, qui n'est ni CNN ni LSTM, il construit un modèle Transformer et surpasse considérablement ces méthodes.
Le mécanisme d'attention du modèle Transformer utilise trois variables : Q (Requête), K (Clé) et V (Valeur). En termes simples, il calcule le poids d'attention d'un jeton de requête et d'un jeton de clé, et multiplie la valeur associée à chaque clé. Autrement dit, le modèle Transformer calcule l'association (pondération d'attention) entre le jeton de requête et le jeton de clé, et multiplie la valeur associée à chaque clé.
Définissez Q, K, V à calculer comme une seule tête Dans le mécanisme d'attention multi-têtes, chaque tête a sa propre matrice de projection W_i^Q, W_i^K, W_i^V, et calcule la projection. en utilisant ces matrices respectivement.
Le mécanisme d'attention multi-têtes permet de se concentrer sur différentes parties de la séquence d'une manière différente à chaque fois. Cela signifie?:
Le modèle peut mieux capturer les informations de position car chaque tête se concentrera sur une partie différente de l'entrée. Leur combinaison fournira une représentation plus puissante.
Chaque en-tête capturera également différentes informations contextuelles via des mots associés de manière unique.
Maintenant que nous connaissons le mécanisme de fonctionnement du modèle Transformer, revenons sur le modèle Vision Transformer.
Vision Transformer est un modèle qui applique Transformer aux taches de classification d'images, proposé en octobre 2020. L'architecture du modèle est presque identique à celle du Transformer original, ce qui permet de traiter les images en entrée, tout comme le traitement du langage naturel.
Le modèle Vision Transformer utilise Transformer Encoder comme modèle de base pour extraire les caractéristiques des images et transmet ces caractéristiques traitées au modèle de tête de perceptron multicouche (MLP) pour la classification. étant donné que la charge de calcul du modèle de base Transformer est déjà très importante, Vision Transformer décompose l'image en blocs carrés en tant que mécanisme d'attention léger de ? fenêtrage ? pour résoudre de tels problèmes.
L'image est ensuite convertie en patchs carrés, qui sont aplatis et envoyés à travers une seule couche de rétroaction pour obtenir une projection de patch linéaire. Pour aider à classer les bits, en concaténant les intégrations de classes apprenables avec d'autres projections de correctifs.
En résumé, ces projections de patch et intégrations positionnelles forment une matrice plus grande qui sera bient?t transmise à travers l'encodeur Transformer. La sortie de l'encodeur Transformer est ensuite envoyée au perceptron multicouche pour la classification des images. Les fonctionnalités d'entrée capturent très bien l'essence de l'image, ce qui rend la tache de classification du responsable MLP beaucoup plus simple.
Comparaison des performances de ViT, ResNet et MobileNet
Bien que ViT montre un excellent potentiel dans l'apprentissage de fonctionnalités d'image de haute qualité, il souffre de faibles performances et de gains de précision. La légère amélioration de la précision ne justifie pas la durée d'exécution inférieure de ViT.
Connexe au modèle Vision Transformer
- Un code affiné et un modèle Vision Transformer pré-entra?né sont disponibles sur le GitHub de Google Research.
- Le modèle Vision Transformer est pré-entra?né sur les ensembles de données ImageNet et ImageNet-21k.
- Le modèle Vision Transformer (ViT) a été introduit dans un document de recherche de la conférence intitulé ? Une image vaut 16*16 mots : transformateurs pour la reconnaissance d'images à l'échelle ? publié à l'ICLR 2021.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Ce site a rapporté le 27 juin que Jianying est un logiciel de montage vidéo développé par FaceMeng Technology, une filiale de ByteDance. Il s'appuie sur la plateforme Douyin et produit essentiellement du contenu vidéo court pour les utilisateurs de la plateforme. Il est compatible avec iOS, Android et. Windows, MacOS et autres systèmes d'exploitation. Jianying a officiellement annoncé la mise à niveau de son système d'adhésion et a lancé un nouveau SVIP, qui comprend une variété de technologies noires d'IA, telles que la traduction intelligente, la mise en évidence intelligente, l'emballage intelligent, la synthèse humaine numérique, etc. En termes de prix, les frais mensuels pour le clipping SVIP sont de 79 yuans, les frais annuels sont de 599 yuans (attention sur ce site : équivalent à 49,9 yuans par mois), l'abonnement mensuel continu est de 59 yuans par mois et l'abonnement annuel continu est de 59 yuans par mois. est de 499 yuans par an (équivalent à 41,6 yuans par mois) . En outre, le responsable de Cut a également déclaré que afin d'améliorer l'expérience utilisateur, ceux qui se sont abonnés au VIP d'origine

Améliorez la productivité, l’efficacité et la précision des développeurs en intégrant une génération et une mémoire sémantique améliorées par la récupération dans les assistants de codage IA. Traduit de EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, auteur JanakiramMSV. Bien que les assistants de programmation d'IA de base soient naturellement utiles, ils ne parviennent souvent pas à fournir les suggestions de code les plus pertinentes et les plus correctes, car ils s'appuient sur une compréhension générale du langage logiciel et des modèles d'écriture de logiciels les plus courants. Le code généré par ces assistants de codage est adapté à la résolution des problèmes qu’ils sont chargés de résoudre, mais n’est souvent pas conforme aux normes, conventions et styles de codage des équipes individuelles. Cela aboutit souvent à des suggestions qui doivent être modifiées ou affinées pour que le code soit accepté dans l'application.

Les grands modèles linguistiques (LLM) sont formés sur d'énormes bases de données textuelles, où ils acquièrent de grandes quantités de connaissances du monde réel. Ces connaissances sont intégrées à leurs paramètres et peuvent ensuite être utilisées en cas de besoin. La connaissance de ces modèles est ? réifiée ? en fin de formation. à la fin de la pré-formation, le modèle arrête effectivement d’apprendre. Alignez ou affinez le modèle pour apprendre à exploiter ces connaissances et répondre plus naturellement aux questions des utilisateurs. Mais parfois, la connaissance du modèle ne suffit pas, et bien que le modèle puisse accéder à du contenu externe via RAG, il est considéré comme bénéfique de l'adapter à de nouveaux domaines grace à un réglage fin. Ce réglage fin est effectué à l'aide de la contribution d'annotateurs humains ou d'autres créations LLM, où le modèle rencontre des connaissances supplémentaires du monde réel et les intègre.

L'ensemble de données ScienceAI Question Answering (QA) joue un r?le essentiel dans la promotion de la recherche sur le traitement du langage naturel (NLP). Des ensembles de données d'assurance qualité de haute qualité peuvent non seulement être utilisés pour affiner les modèles, mais également évaluer efficacement les capacités des grands modèles linguistiques (LLM), en particulier la capacité à comprendre et à raisonner sur les connaissances scientifiques. Bien qu’il existe actuellement de nombreux ensembles de données scientifiques d’assurance qualité couvrant la médecine, la chimie, la biologie et d’autres domaines, ces ensembles de données présentent encore certaines lacunes. Premièrement, le formulaire de données est relativement simple, et la plupart sont des questions à choix multiples. Elles sont faciles à évaluer, mais limitent la plage de sélection des réponses du modèle et ne peuvent pas tester pleinement la capacité du modèle à répondre aux questions scientifiques. En revanche, les questions et réponses ouvertes

Dans le monde du développement front-end, VSCode est devenu l'outil de choix pour d'innombrables développeurs grace à ses fonctions puissantes et son riche écosystème de plug-ins. Ces dernières années, avec le développement rapide de la technologie de l'intelligence artificielle, des assistants de code IA sur VSCode ont vu le jour, améliorant considérablement l'efficacité du codage des développeurs. Les assistants de code IA sur VSCode ont poussé comme des champignons après la pluie, améliorant considérablement l'efficacité du codage des développeurs. Il utilise la technologie de l'intelligence artificielle pour analyser intelligemment le code et fournir une complétion précise du code, une correction automatique des erreurs, une vérification grammaticale et d'autres fonctions, ce qui réduit considérablement les erreurs des développeurs et le travail manuel fastidieux pendant le processus de codage. Aujourd'hui, je recommanderai 12 assistants de code d'IA de développement frontal VSCode pour vous aider dans votre parcours de programmation.

Selon les informations de ce site le 1er ao?t, SK Hynix a publié un article de blog aujourd'hui (1er ao?t), annon?ant sa participation au Global Semiconductor Memory Summit FMS2024 qui se tiendra à Santa Clara, Californie, états-Unis, du 6 au 8 ao?t, présentant de nombreuses nouvelles technologies de produit. Introduction au Future Memory and Storage Summit (FutureMemoryandStorage), anciennement Flash Memory Summit (FlashMemorySummit) principalement destiné aux fournisseurs de NAND, dans le contexte de l'attention croissante portée à la technologie de l'intelligence artificielle, cette année a été rebaptisée Future Memory and Storage Summit (FutureMemoryandStorage) pour invitez les fournisseurs de DRAM et de stockage et bien d’autres joueurs. Nouveau produit SK hynix lancé l'année dernière

Editeur | KX Dans le domaine de la recherche et du développement de médicaments, il est crucial de prédire avec précision et efficacité l'affinité de liaison des protéines et des ligands pour le criblage et l'optimisation des médicaments. Cependant, les études actuelles ne prennent pas en compte le r?le important des informations sur la surface moléculaire dans les interactions protéine-ligand. Sur cette base, des chercheurs de l'Université de Xiamen ont proposé un nouveau cadre d'extraction de caractéristiques multimodales (MFE), qui combine pour la première fois des informations sur la surface des protéines, la structure et la séquence 3D, et utilise un mécanisme d'attention croisée pour comparer différentes modalités. alignement. Les résultats expérimentaux démontrent que cette méthode atteint des performances de pointe dans la prédiction des affinités de liaison protéine-ligand. De plus, les études d’ablation démontrent l’efficacité et la nécessité des informations sur la surface des protéines et de l’alignement des caractéristiques multimodales dans ce cadre. Les recherches connexes commencent par "S

A tout moment, la concentration est une vertu. Auteur | Editeur Tang Yitao | Jing Yu La résurgence de l'intelligence artificielle a donné naissance à une nouvelle vague d'innovation matérielle. L’AIPin le plus populaire a rencontré des critiques négatives sans précédent. Marques Brownlee (MKBHD) l'a qualifié de pire produit qu'il ait jamais examiné?; David Pierce, rédacteur en chef de The Verge, a déclaré qu'il ne recommanderait à personne d'acheter cet appareil. Son concurrent, le RabbitR1, n'est guère mieux. Le plus grand doute à propos de cet appareil d'IA est qu'il ne s'agit évidemment que d'une application, mais Rabbit a construit un matériel de 200 $. De nombreuses personnes voient l’innovation matérielle en matière d’IA comme une opportunité de renverser l’ère des smartphones et de s’y consacrer.
