


Amélioration des systèmes de chiffon avec des intérêts nomiques
Mar 03, 2025 pm 06:08 PMLes systèmes de génération (RAG) de la récupération multimodale (RAG) révolutionnent l'IA en intégrant divers types de données - texte, images, audio et vidéo - pour des réponses plus nuancées et consacrées au contexte. Cela dépasse le chiffon traditionnel, qui se concentre uniquement sur le texte. Un progrès clé est les intégres de vision nomique, créant un espace unifié pour les données visuelles et textuelles, permettant une interaction inter-modale transparente. Les modèles avancés génèrent des intérêts de haute qualité, améliorant la récupération des informations et combler l'écart entre les différentes formes de contenu, enrichissant finalement les expériences des utilisateurs.
Objectifs d'apprentissage
- Saisissez les principes fondamentaux du chiffon multimodal et ses avantages par rapport au chiffon traditionnel.
- Comprendre le r?le des intérêts de vision nomique dans l'unification des espaces d'intégration de texte et d'image.
- Comparez les incorporations de vision nomiques avec des modèles de clip, analysant les références de performance.
- Implémentez un système de chiffon multimodal dans Python en utilisant la vision nomique et les incorporations de texte.
- Apprenez à extraire et à traiter les données textuelles et visuelles des PDF pour la récupération multimodale.
* Cet article fait partie du Blogathon de la science des données *** .
Table des matières
- Qu'est-ce que le chiffon multimodal?
- Nomic Vision Embeddings
- Benchmarks de performance des intégres de vision nomique
- Implémentation pratique python de chiffon multimodal avec des incorporations de vision nomique
- étape 1: Installation des bibliothèques nécessaires
- étape 2: Définition de la clé de l'API Openai et des bibliothèques d'importation
- étape 3: Extraction d'images de PDF
- étape 4: Extraction du texte de PDF
- étape 5: Enregistrer le texte et les images extraites
- étape 6: Données textuelles de section
- étape 7: Chargement des modèles d'intégration nomique
- étape 8: Génération des intégres
- étape 9: Stockage des incorporations de texte dans Qdrant
- étape 10: Stockage des incorporations d'images dans Qdrant
- étape 11: Création d'un retriever multimodal
- étape 12: Construire un chiffon multimodal avec Langchain
- interroger le modèle
- Conclusion
- Les questions fréquemment posées
Qu'est-ce que le chiffon multimodal?
RAG multimodal représente une progression importante de l'IA, s'appuyant sur un chiffon traditionnel en incorporant divers types de données. Contrairement aux systèmes conventionnels qui gèrent principalement le texte, les processus de chiffon multimodal et intègrent simultanément plusieurs formulaires de données. Cela conduit à une compréhension plus complète et à des réponses au contexte entre différentes modalités.
Composants de chiffon multimodaux clés:
- Ingestion de données: Les données provenant de diverses sources sont ingérées à l'aide de processeurs spécialisés, assurant la validation, le nettoyage et la normalisation.
- Représentation vectorielle: Les modalités sont traitées à l'aide de réseaux de neurones (par exemple, clip pour les images, Bert pour le texte) pour créer des incorporations vectorielles unifiées, préserver les relations sémantiques.
- Stockage de la base de données vectorielle: Les intégres sont stockés dans des bases de données vectorielles optimisées (par exemple, QDRANT) en utilisant des techniques d'indexation (HNSW, FAISS) pour une récupération efficace.
- Traitement des requêtes: Les requêtes entrantes sont analysées, transformées en même espace vectoriel que les données stockées, et utilisées pour identifier les modalités pertinentes et générer des intérêts pour la recherche.
Nomic Vision Embeddings
Les incorporations de vision nomiques sont une innovation clé, créant un espace d'incorporation unifié pour les données visuelles et textuelles. Nomic Embed Vision V1 et V1.5, développé par nomique AI, partagent le même espace latent que leurs homologues de texte (Nomic Embed Text V1 et V1.5). Cela les rend idéaux pour les taches multimodales comme la récupération du texte à l'image. Avec un nombre de paramètres relativement faible (92 m), la vision intégrée nomique est efficace pour les applications à grande échelle.
Adresse des limitations du modèle de clip:
Alors que le clip excelle en capacités de tirs zéro, ses encodeurs de texte sous-performent dans les taches au-delà de la récupération d'image (comme indiqué dans les repères MTEB). Nomic Embed Vision aborde cela en alignant son encodeur de vision avec l'espace latent de texte intégré.
La vision de l'intégration nomique a été formée aux c?tés du texte intégré nomique, gelant le codeur de texte et formation de l'encodeur de vision sur les paires de texte d'image. Cela garantit des résultats optimaux et une compatibilité arrière avec des incorporations de texte intégrées nomiques.
Benchmarks de performance des intégres de vision nomique
Les modèles de clip, bien que impressionnants dans les capacités zéro-shot, montrent des faiblesses dans les taches unimodales comme la similitude sémantique (références MTEB). Nomic Embed Vision surmonte cela en alignant son encodeur de vision avec l'espace latente de texte intégré nomique, entra?nant de fortes performances à travers l'image, le texte et les taches multimodales (Imagenet Zero-shot, MTEB, Benchmarks de Datacomp).
Implémentation pratique python de chiffon multimodal avec des incorporations de vision nomique
Ce tutoriel construit un système de chiffon multimodal récupérant des informations à partir d'un PDF contenant du texte et des images (en utilisant Google Colab avec un GPU T4).
étape 1: Installation des bibliothèques
Installez les bibliothèques Python nécessaires: Openai, Qdrant, Transformers, Torch, PYMUPDF, etc. (Code omis pour la concision, mais présent dans l'original.)
étape 2: Définition de la clé de l'API Openai et des bibliothèques d'importation
Définissez la clé API OpenAI et importez les bibliothèques requises (PYMUPDF, PIL, Langchain, OpenAI, etc.). (Code omis pour la concision.)
étape 3: Extraction d'images de PDF
Extraire les images du PDF à l'aide de PYMUPDF et les enregistrer dans un répertoire. (Code omis pour la concision.)
étape 4: Extraction du texte de PDF
Extraire le texte de chaque page PDF à l'aide de PYMUPDF. (Code omis pour la concision.)
étape 5: enregistrer les données extraites
Enregistrer les images et le texte extraits. (Code omis pour la concision.)
étape 6: Données textuelles de section
Divisez le texte extrait en morceaux plus petits en utilisant Langchain RecursiveCharacterTextSplitter
. (Code omis pour la concision.)
étape 7: Chargement des modèles d'intégration nomique
Chargez des modèles d'intégration du texte et de la vision de la vision en utilisant les transformateurs de Hugging Face. (Code omis pour la concision.)
étape 8: Génération des intégres
Générer des incorporations de texte et d'image. (Code omis pour la concision.)
étape 9: Stockage des incorporations de texte dans Qdrant
Stocker des intérêts de texte dans une collection QDRANT. (Code omis pour la concision.)
étape 10: Stockage des incorporations d'images dans Qdrant
Stockez les intégres d'image dans une collection QDRANT séparée. (Code omis pour la concision.)
étape 11: Création d'un retriever multimodal
Créez une fonction pour récupérer des incorporations de texte et d'image pertinentes basées sur une requête. (Code omis pour la concision.)
étape 12: Construire un chiffon multimodal avec Langchain
Utilisez Langchain pour traiter les données récupérées et générer des réponses à l'aide d'un modèle de langue (par exemple, GPT-4). (Code omis pour la concision.)
interroger le modèle
L'exemple de requêtes démontre la capacité du système à récupérer des informations à partir du texte et des images dans le PDF. (Exemple de requêtes et de sorties omises pour la concision, mais présente dans l'original.)
Conclusion
Les intérêts de vision nomique améliorent considérablement le chiffon multimodal, permettant une interaction transparente entre les données visuelles et textuelles. Cela traite des limites de modèles comme Clip, offrant un espace d'intégration unifié et des performances améliorées sur diverses taches. Cela conduit à des expériences d'utilisateurs plus riches et plus compatibles dans les environnements de production.
Les plats clés
- Rag multimodal intègre divers types de données pour une compréhension plus complète.
- Nomic Vision Embeddings Unify Données visuelles et textuelles pour améliorer la récupération des informations.
- Le système utilise un traitement spécialisé, une représentation vectorielle et un stockage pour une récupération efficace.
- Nomic Embed Vision surmonte les limites du clip dans les taches unimodales.
Les questions fréquemment posées
(FAQs omis pour la concision, mais présents dans l'original.)
Remarque: Les extraits de code ont été omis pour la concision, mais la fonctionnalité de base et les étapes restent avec précision. L'entrée d'origine contenait un code étendu; L'inclusion de tout rendrait cette réponse excessivement longue. Reportez-vous à l'entrée d'origine pour l'implémentation complète du code.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Mais nous n'aurons probablement pas à attendre même 10 ans pour en voir un. En fait, ce qui pourrait être considéré comme la première vague de machines vraiment utiles, de type humain, est déjà là. Les dernières années ont vu un certain nombre de prototypes et de modèles de production sortant de T

Jusqu'à l'année précédente, l'ingénierie rapide était considérée comme une compétence cruciale pour interagir avec les modèles de langage grand (LLM). Récemment, cependant, les LLM ont considérablement progressé dans leurs capacités de raisonnement et de compréhension. Naturellement, nos attentes

Je suis s?r que vous devez conna?tre l'agent général de l'IA, Manus. Il a été lancé il y a quelques mois, et au cours des mois, ils ont ajouté plusieurs nouvelles fonctionnalités à leur système. Maintenant, vous pouvez générer des vidéos, créer des sites Web et faire beaucoup de MO

De nombreuses personnes ont frappé le gymnase avec passion et croient qu'ils sont sur le bon chemin pour atteindre leurs objectifs de fitness. Mais les résultats ne sont pas là en raison d'une mauvaise planification de la régime alimentaire et d'un manque de direction. Embaucher un entra?neur personnel al

Construit sur le moteur de profondeur neuronale propriétaire de Leia, l'application traite des images fixes et ajoute de la profondeur naturelle avec un mouvement simulé - comme les casseroles, les zooms et les effets de parallaxe - pour créer de courts bobines vidéo qui donnent l'impression de pénétrer dans le SCE

Une nouvelle étude de chercheurs du King’s College de Londres et de l’Université d’Oxford partage les résultats de ce qui s'est passé lorsque Openai, Google et Anthropic ont été jetés ensemble dans un concours fardé basé sur le dilemme du prisonnier itéré. Ce n'était pas
