


Smoldocling peut-il rendre l'analyse des documents plus efficace?
Apr 23, 2025 am 09:41 AMSmoldocling: un modèle léger en langue visuelle pour la conversion de documents de haute précision
Les documents numériques présentent un défi important: convertir avec précision leur riche structure en formats lisibles par machine. Les solutions existantes, qu'elles soient des pipelines complexes ou des modèles massifs, compromettent souvent la précision de l'efficacité. Smoldocling propose une alternative révolutionnaire - un modèle de vision de la vision de 256 mètres compact remarquablement compact, offrant une conversion précise de documents de bout en bout précise.
Table des matières:
- L'obstacle de conversion de document
- Présentation de Smoldocling: une nouvelle approche
- Comprendre les doctags: un langage de balisage universel
- Dive profonde: données de formation et architecture modèle
- Comparaison des performances: Smoldocling vs d'autres modèles
- Exemple de code et visualisation de sortie
- Conclusion et développements futurs
L'obstacle de conversion de document
La conversion de diverses dispositions de documents (des rapports d'entreprise aux articles académiques) en données structurées reste une tache complexe. Les principaux défis incluent:
- Variabilité de disposition: les documents présentent une vaste gamme de styles et de formats.
- Formats opaques: des formats comme le PDF accordent une priorité à l'impression, entrave l'analyse sémantique.
- Gentillement des ressources: les méthodes traditionnelles exigent des ressources de calcul substantielles et un réglage complexe.
Présentation de Smoldocling: une nouvelle approche
Smoldocling relève ces défis avec une approche unifiée de bout en bout:
- Traitement complet des pages: il traite simultanément des pages de documents entières, éliminant le besoin de plusieurs modèles spécialisés.
- Conception compacte, résultats puissants: ses paramètres de 256 m atteignent des performances comparables aux modèles plusieurs fois plus importants.
- Capacités multimodales polyvalentes: il gère parfaitement les éléments de document divers: code, tableaux, équations, graphiques, etc.
Central to Smoldocling se trouve son langage de balisage innovant, Doctags, une norme universelle capturant le contenu, la structure et le contexte spatial.
Comprendre les doctags: un langage de balisage universel
Doctags redéfinit la représentation des éléments de document:
- Vocabulaire structuré: en utilisant des balises de style XML (inspirées par OTSL), il distingue clairement du texte, des images, des tables, du code, etc.
- Contexte spatial: les coordonnées précises de la bo?te de délimitation préservent les informations de mise en page.
- Représentation unifiée: Formatage cohérent pour les pages complètes ou les éléments individuels améliore l'apprentissage et la généralisation.
Les doctags clés comprennent: <img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174537247742337.jpg" class="lazy" alt="Smoldocling peut-il rendre l'analyse des documents plus efficace?">
Comparaison des performances: Smoldocling vs d'autres modèles
Smoldocling surpasse considérablement les modèles plus grands dans la reconnaissance de texte et le formatage des documents:
Méthode | Taille du modèle | Modifier la distance ↓ | F1-score ↑ | Précision ↑ | Rappel ↑ | Bleu ↑ | Météore ↑ |
---|---|---|---|---|---|---|---|
Qwen2.5 VL | 7b | 0,56 | 0,72 | 0,80 | 0,70 | 0,46 | 0,57 |
A OBTENU | 580m | 0,61 | 0,69 | 0,71 | 0,73 | 0,48 | 0,59 |
Nougat (base) | 350m | 0,62 | 0,66 | 0,72 | 0,67 | 0,44 | 0,54 |
Smoldocling (le n?tre) | 256m | 0,48 | 0,80 | 0,89 | 0,79 | 0,58 | 0,67 |
Smoldocling excelle également dans des taches spécialisées, atteignant des scores F1 élevés et une précision dans la liste des code et la reconnaissance des équations.
Exemple de code et visualisation de sortie
[Les exemples de code et les visualisations sont omis ici en raison de contraintes de longueur. L'entrée d'origine a fourni ces sections.]
Conclusion et développements futurs
Smoldocling démontre que les modèles plus petits peuvent atteindre des performances de pointe dans la conversion de documents. Son architecture efficace, son format innovant Doctags et sa stratégie de formation complète établissent une nouvelle référence. Tout en démontrant des performances solides sur les re?us et les résultats acceptables sur d'autres documents, des limitations existent en raison de sa conception économe en mémoire. Les travaux futurs se concentreront sur l'amélioration de la localisation des éléments et de la compréhension multimodale. La publication publique des ensembles de données facilitera les recherches et la collaboration supplémentaires.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Mais nous n'aurons probablement pas à attendre même 10 ans pour en voir un. En fait, ce qui pourrait être considéré comme la première vague de machines vraiment utiles, de type humain, est déjà là. Les dernières années ont vu un certain nombre de prototypes et de modèles de production sortant de T

Jusqu'à l'année précédente, l'ingénierie rapide était considérée comme une compétence cruciale pour interagir avec les modèles de langage grand (LLM). Récemment, cependant, les LLM ont considérablement progressé dans leurs capacités de raisonnement et de compréhension. Naturellement, nos attentes

Construit sur le moteur de profondeur neuronale propriétaire de Leia, l'application traite des images fixes et ajoute de la profondeur naturelle avec un mouvement simulé - comme les casseroles, les zooms et les effets de parallaxe - pour créer de courts bobines vidéo qui donnent l'impression de pénétrer dans le SCE

Imaginez quelque chose de sophistiqué, comme un moteur d'IA prêt à donner des commentaires détaillés sur une nouvelle collection de vêtements de Milan, ou une analyse de marché automatique pour une entreprise opérant dans le monde entier, ou des systèmes intelligents gérant une grande flotte de véhicules.

Une nouvelle étude de chercheurs du King’s College de Londres et de l’Université d’Oxford partage les résultats de ce qui s'est passé lorsque Openai, Google et Anthropic ont été jetés ensemble dans un concours fardé basé sur le dilemme du prisonnier itéré. Ce n'était pas

Les scientifiques ont découvert une méthode intelligente mais alarmante pour contourner le système. Juillet 2025 a marqué la découverte d'une stratégie élaborée où les chercheurs ont inséré des instructions invisibles dans leurs soumissions académiques - ces directives secrètes étaient la queue
