av色综合久久天堂av色综合在,成人黄色网址

Maison

Périphériques technologiques

Smoldocling peut-il rendre l'analyse des documents plus efficace?

Lisa Kudrow

Apr 23, 2025 am 09:41 AM

Smoldocling: un modèle léger en langue visuelle pour la conversion de documents de haute précision

Les documents numériques présentent un défi important: convertir avec précision leur riche structure en formats lisibles par machine. Les solutions existantes, qu'elles soient des pipelines complexes ou des modèles massifs, compromettent souvent la précision de l'efficacité. Smoldocling propose une alternative révolutionnaire - un modèle de vision de la vision de 256 mètres compact remarquablement compact, offrant une conversion précise de documents de bout en bout précise.

Table des matières:

L'obstacle de conversion de document
Présentation de Smoldocling: une nouvelle approche
Comprendre les doctags: un langage de balisage universel
Dive profonde: données de formation et architecture modèle
Comparaison des performances: Smoldocling vs d'autres modèles
Exemple de code et visualisation de sortie
Conclusion et développements futurs

L'obstacle de conversion de document

La conversion de diverses dispositions de documents (des rapports d'entreprise aux articles académiques) en données structurées reste une tache complexe. Les principaux défis incluent:

Variabilité de disposition: les documents présentent une vaste gamme de styles et de formats.
Formats opaques: des formats comme le PDF accordent une priorité à l'impression, entrave l'analyse sémantique.
Gentillement des ressources: les méthodes traditionnelles exigent des ressources de calcul substantielles et un réglage complexe.

Présentation de Smoldocling: une nouvelle approche

Smoldocling relève ces défis avec une approche unifiée de bout en bout:

Traitement complet des pages: il traite simultanément des pages de documents entières, éliminant le besoin de plusieurs modèles spécialisés.
Conception compacte, résultats puissants: ses paramètres de 256 m atteignent des performances comparables aux modèles plusieurs fois plus importants.
Capacités multimodales polyvalentes: il gère parfaitement les éléments de document divers: code, tableaux, équations, graphiques, etc.

Central to Smoldocling se trouve son langage de balisage innovant, Doctags, une norme universelle capturant le contenu, la structure et le contexte spatial.

Comprendre les doctags: un langage de balisage universel

Doctags redéfinit la représentation des éléments de document:

Vocabulaire structuré: en utilisant des balises de style XML (inspirées par OTSL), il distingue clairement du texte, des images, des tables, du code, etc.
Contexte spatial: les coordonnées précises de la bo?te de délimitation préservent les informations de mise en page.
Représentation unifiée: Formatage cohérent pour les pages complètes ou les éléments individuels améliore l'apprentissage et la généralisation.

Smoldocling peut-il rendre l'analyse des documents plus efficace?

Les doctags clés comprennent: <img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174537247742337.jpg" class="lazy" alt="Smoldocling peut-il rendre l'analyse des documents plus efficace?">

Comparaison des performances: Smoldocling vs d'autres modèles

Smoldocling surpasse considérablement les modèles plus grands dans la reconnaissance de texte et le formatage des documents:

Méthode	Taille du modèle	Modifier la distance ↓	F1-score ↑	Précision ↑	Rappel ↑	Bleu ↑	Météore ↑
Qwen2.5 VL	7b	0,56	0,72	0,80	0,70	0,46	0,57
A OBTENU	580m	0,61	0,69	0,71	0,73	0,48	0,59
Nougat (base)	350m	0,62	0,66	0,72	0,67	0,44	0,54
Smoldocling (le n?tre)	256m	0,48	0,80	0,89	0,79	0,58	0,67

Smoldocling excelle également dans des taches spécialisées, atteignant des scores F1 élevés et une précision dans la liste des code et la reconnaissance des équations.

Exemple de code et visualisation de sortie

[Les exemples de code et les visualisations sont omis ici en raison de contraintes de longueur. L'entrée d'origine a fourni ces sections.]

Conclusion et développements futurs

Smoldocling démontre que les modèles plus petits peuvent atteindre des performances de pointe dans la conversion de documents. Son architecture efficace, son format innovant Doctags et sa stratégie de formation complète établissent une nouvelle référence. Tout en démontrant des performances solides sur les re?us et les résultats acceptables sur d'autres documents, des limitations existent en raison de sa conception économe en mémoire. Les travaux futurs se concentreront sur l'amélioration de la localisation des éléments et de la compréhension multimodale. La publication publique des ensembles de données facilitera les recherches et la collaboration supplémentaires.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Afficher plus

Article chaud

Guide de construction de Grass Wonder | Uma musume joli derby

1 Il y a quelques mois By Jack chen

<??>: 99 nuits dans la forêt - tous les badges et comment les déverrouiller

1 Il y a quelques mois By DDD

Guide de température de Rimworld Odyssey pour les navires et Gravtech

3 Il y a quelques semaines By Jack chen

Guide de construction Mejiro Ryan | Uma musume joli derby

4 Il y a quelques semaines By Jack chen

Rimworld Odyssey Comment pêcher

3 Il y a quelques semaines By Jack chen

Afficher plus

Outils chauds

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Laravel

1601

Tutoriel PHP

1502

276

Afficher plus

Related knowledge

Kimi K2: le modèle agentique open source le plus puissant Jul 12, 2025 am 09:16 AM

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Grok 4 vs Claude 4: Quel est le meilleur? Jul 12, 2025 am 09:37 AM

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

10 robots humano?des incroyables qui marchent déjà parmi nous aujourd'hui Jul 16, 2025 am 11:12 AM

Mais nous n'aurons probablement pas à attendre même 10 ans pour en voir un. En fait, ce qui pourrait être considéré comme la première vague de machines vraiment utiles, de type humain, est déjà là. Les dernières années ont vu un certain nombre de prototypes et de modèles de production sortant de T

L'ingénierie contextuelle est la & # 039; New & # 039; Ingénierie rapide Jul 12, 2025 am 09:33 AM

Jusqu'à l'année précédente, l'ingénierie rapide était considérée comme une compétence cruciale pour interagir avec les modèles de langage grand (LLM). Récemment, cependant, les LLM ont considérablement progressé dans leurs capacités de raisonnement et de compréhension. Naturellement, nos attentes

L'application mobile d'immersité de Leia apporte une profondeur 3D aux photos de tous les jours Jul 09, 2025 am 11:17 AM

Construit sur le moteur de profondeur neuronale propriétaire de Leia, l'application traite des images fixes et ajoute de la profondeur naturelle avec un mouvement simulé - comme les casseroles, les zooms et les effets de parallaxe - pour créer de courts bobines vidéo qui donnent l'impression de pénétrer dans le SCE

Quels sont les 7 types d'agents d'IA? Jul 11, 2025 am 11:08 AM

Imaginez quelque chose de sophistiqué, comme un moteur d'IA prêt à donner des commentaires détaillés sur une nouvelle collection de vêtements de Milan, ou une analyse de marché automatique pour une entreprise opérant dans le monde entier, ou des systèmes intelligents gérant une grande flotte de véhicules.

Ces modèles d'IA n'ont pas appris la langue, ils ont appris la stratégie Jul 09, 2025 am 11:16 AM

Une nouvelle étude de chercheurs du King’s College de Londres et de l’Université d’Oxford partage les résultats de ce qui s'est passé lorsque Openai, Google et Anthropic ont été jetés ensemble dans un concours fardé basé sur le dilemme du prisonnier itéré. Ce n'était pas

Crise de commandement dissimulé: les chercheurs jeu aiment être publiés Jul 13, 2025 am 11:08 AM

Les scientifiques ont découvert une méthode intelligente mais alarmante pour contourner le système. Juillet 2025 a marqué la découverte d'une stratégie élaborée où les chercheurs ont inséré des instructions invisibles dans leurs soumissions académiques - ces directives secrètes étaient la queue

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Smoldocling peut-il rendre l'analyse des documents plus efficace?

Outils d'IA chauds

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds