free性欧美hd另类,成年性生交大片免费看

Heim

Backend-Entwicklung

Python-Tutorial

Praktische Ans?tze zur Schlüsselinformationsextraktion (Teil 2)

Linda Hamilton

Jan 16, 2025 pm 08:13 PM

Echtzeit-Schlüsselinformationsextraktion (Teil 2): ??Verfeinerung der Open-Source-LLM-Leistung

In Fortsetzung von Teil 1 untersucht dieser Leitfaden die Verwendung von Open-Source-LLMs (Large Language Models) – Qwen2 2B und LLaMA 3.1 – für die Extraktion von Rechnungsinformationen, wobei der Schwerpunkt auf der überwindung von Datenschutzbedenken und Hardwareeinschr?nkungen (RTX 3060 mit 12 GB VRAM) liegt.

Warum Qwen2 2B und LLaMA 3.1?

Die Wahl dieser Modelle wurde durch Ressourcenbeschr?nkungen bestimmt. Qwen2-VL-2B-Instruct wurde aufgrund seiner effizienten Gr??e gegenüber gr??eren 7B-Modellen bevorzugt. LLaMA 3.1 (8B), auf das über Ollama zugegriffen wird, wurde aufgrund seines optimierten Langkontextverst?ndnisses ausgew?hlt. Andere Modelle wie Qwen2 in Ollama (fehlende Bildunterstützung) und LLaVA (unzureichende Mehrsprachigkeit) wurden als ungeeignet erachtet.

Diese Zwei-Modell-Strategie nutzt die St?rke von Qwen2 bei der allgemeinen Schlüsselinformationsextraktion und die überlegene Langkontextverarbeitung und JSON-Ausgabekonsistenz von LLaMA 3.1, insbesondere für mehrsprachige Dokumente. Qwen2 extrahiert zun?chst Rohinformationen, die LLaMA 3.1 dann verfeinert und in ein standardisiertes JSON-Format strukturiert. PaddleOCR verbessert wie in Teil 1 die Sehf?higkeiten für Qwen2.

Ein japanisches Rechnungsbeispiel

Als Testfall wurde eine japanische Rechnung verwendet. Der anf?ngliche OCR-Prozess (einschlie?lich Spracherkennung und PaddleOCR) ergab den folgenden erkannten Text:

<code>Recognized Text: 
{'ori_text': '根岸 東急ストア TEL 045-752-6131 領(lǐng)収証 [TOP2C!UbO J3カード」 クレヅッ 卜でのお支払なら 200円で3ボイン卜 お得なカード! 是非こ入會(huì)下さい。 2013年09月02日(月) レジNO. 0102 NOO07さ と う 001131 スダフエウ卜チーネ 23 単198 1396 003271 オインイ年 ユウ10 4238 000805 ソマ一ク スモー一クサーモン 1298 003276 タカナン ナマクリーム35 1298 001093 ヌテラ スフレクト 1398 000335 バナサ 138 000112 アボト 2つ 単158 1316 A000191 タマネキ 429 合計(jì) 2,111 (內(nèi)消費(fèi)稅等 100 現(xiàn)金 10001 お預(yù)り合計(jì) 110 001 お釣り 7 890', 
'ori_language': 'ja', 
'text': 'Negishi Tokyu Store TEL 045-752-6131 Receipt [TOP2C!UbO J3 Card] If you pay with a credit card, you can get 3 points for 200 yen.A great value card!Please join us. Monday, September 2, 2013 Cashier No. 0102 NOO07 Satou 001131 Sudafue Bucine 23 Single 198 1396 003271 Oinyen Yu 10 4238 000805 Soma Iku Smo Iku Salmon 1298 003276 Takanan Nama Cream 35 1 298 001093 Nutella Sprect 1398 000335 Banasa 138 000112 Aboto 2 AA 158 1316 A000191 Eggplant 429 Total 2,111 (including consumption tax, etc. 100 Cash 10001 Total deposited 110 001 Change 7 890', 
'language': 'en',}</code>

Practical Approaches to Key Information Extraction (Part 2)

Dies wurde mit einer ChatGPT-Basislinie verglichen, was die überlegene Leistung von ChatGPT in diesem ersten Test demonstrierte.

Qwen2 2B-Ergebnisse (Standalone)

Die unabh?ngige Verwendung von Qwen2 zeigte seine Grenzen. Die JSON-Ausgabe war in mehreren Bereichen unvollst?ndig und ungenau, was die Schwierigkeiten mit der konsistenten JSON-Formatierung und der Verarbeitung langer Kontexte verdeutlicht.

Kombinierter Qwen2- und LLaMA 3.1-Ansatz

Der Einsatz von LLaMA 3.1 als Postprozessor zur Verfeinerung der Ausgabe von Qwen2 führte zu verbesserten, aber immer noch unvollst?ndigen Ergebnissen. W?hrend einige Schlüsselfelder korrekt extrahiert wurden, blieben detaillierte Artikelinformationen problematisch.

Zukünftige Verbesserungen: Feinabstimmung von Qwen2VL

Im n?chsten Teil wird die Feinabstimmung des Qwen2VL-Modells mithilfe eines Datensatzes von Empfangsdaten detailliert beschrieben, mit dem Ziel, sowohl die Genauigkeit als auch die Verarbeitungsgeschwindigkeit für diese spezielle Aufgabe deutlich zu verbessern.

Fazit

Dieses Experiment zeigt das Potenzial und die Grenzen von Open-Source-LLMs für die Extraktion wichtiger Informationen in der Praxis. W?hrend ein kombinierter Ansatz Verbesserungen gegenüber der Verwendung eines einzelnen Modells bietet, ist eine weitere Verfeinerung, insbesondere durch Feinabstimmung des Modells, erforderlich, um eine optimale Leistung zu erzielen. Der Fokus auf Datenschutz und effiziente Ressourcennutzung bleibt ein wesentlicher Vorteil dieses Open-Source-Ansatzes.

Das obige ist der detaillierte Inhalt vonPraktische Ans?tze zur Schlüsselinformationsextraktion (Teil 2). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erkl?rung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Hei?e KI -Werkzeuge

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Gras Wonder Build Guide | Uma Musume hübsches Derby

4 Wochen vor By Jack chen

<??>: 99 N?chte im Wald - alle Abzeichen und wie man sie freischalt

4 Wochen vor By DDD

Uma Musume Pretty Derby Banner Zeitplan (Juli 2025)

1 Monate vor By Jack chen

Rimworld Odyssey -Temperaturführer für Schiffe und Gravtech

3 Wochen vor By Jack chen

Windows Security ist leer oder keine Optionen angezeigt

1 Monate vor By 下次還敢

Hei?e Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen

Laravel-Tutorial

1597

PHP-Tutorial

1488

Related knowledge

Wie man mit der API -Authentifizierung in Python umgeht Jul 13, 2025 am 02:22 AM

Der Schlüssel zum Umgang mit der API -Authentifizierung besteht darin, die Authentifizierungsmethode korrekt zu verstehen und zu verwenden. 1. Apikey ist die einfachste Authentifizierungsmethode, die normalerweise in den Anforderungsheader- oder URL -Parametern platziert ist. 2. BasicAuth verwendet Benutzername und Kennwort für die Basis64 -Codierungsübertragung, die für interne Systeme geeignet ist. 3.. OAuth2 muss das Token zuerst über Client_id und Client_secret erhalten und dann das BearerToken in den Anforderungsheader bringen. V. Kurz gesagt, die Auswahl der entsprechenden Methode gem?? dem Dokument und das sichere Speichern der Schlüsselinformationen ist der Schlüssel.

Erkl?ren Sie Python -Behauptungen. Jul 07, 2025 am 12:14 AM

Assert ist ein Inssertion -Tool, das in Python zum Debuggen verwendet wird, und wirft einen Assertionerror aus, wenn der Zustand nicht erfüllt ist. Die Syntax ist eine geltende Bedingung sowie optionale Fehlerinformationen, die für die interne Logiküberprüfung geeignet sind, z. B. Parameterprüfung, Statusbest?tigung usw., k?nnen jedoch nicht für die Sicherheits- oder Benutzereingabeprüfung verwendet werden und sollten in Verbindung mit klaren Eingabeaufforderungen verwendet werden. Es ist nur zum Hilfsdebuggen in der Entwicklungsphase verfügbar, anstatt die Ausnahmebehandlung zu ersetzen.

Was sind Python -Iteratoren? Jul 08, 2025 am 02:56 AM

INPYTHON, ITERATORATORSAROBJECTSHATALWOULOUPING ThroughCollections Byimplementing__iter __ () und __Next __ (). 1) IteratorsworkviATheiterProtocol, verwendete __iter __ () toreturn thiteratorand__Next __ () torethentexteemtemuntemuntilstoperationSaised.2) und

Was sind Python -Typ -Hinweise? Jul 07, 2025 am 02:55 AM

TypHintsinpythonsolvetheProblemofAmbiguityAndpotentialbugsindynamicalpedCodeByAllowingDevelopstospecifyexpectypes

Wie man über zwei Listen gleichzeitig python iteriert Jul 09, 2025 am 01:13 AM

Eine gemeinsame Methode, um zwei Listen gleichzeitig in Python zu durchqueren, besteht darin, die Funktion ZIP () zu verwenden, die mehrere Listen in der Reihenfolge und die kürzeste ist. Wenn die Listenl?nge inkonsistent ist, k?nnen Sie iTertools.zip_longest () verwenden, um die l?ngste zu sein und die fehlenden Werte auszufüllen. In Kombination mit Enumerate () k?nnen Sie den Index gleichzeitig erhalten. 1.zip () ist pr?gnant und praktisch, geeignet für die Iteration gepaarte Daten; 2.zip_longest () kann den Standardwert beim Umgang mit inkonsistenten L?ngen einfüllen. 3.Enumerate (ZIP ()) kann w?hrend des Durchlaufens Indizes erhalten und die Bedürfnisse einer Vielzahl komplexer Szenarien erfüllen.

Python Fastapi Tutorial Jul 12, 2025 am 02:42 AM

Um moderne und effiziente APIs mit Python zu schaffen, wird Fastapi empfohlen. Es basiert auf Eingabeaufforderungen an Standardpython -Typ und kann automatisch Dokumente mit ausgezeichneter Leistung generieren. Nach der Installation von Fastapi und ASGI Server Uvicorn k?nnen Sie Schnittstellencode schreiben. Durch das Definieren von Routen, das Schreiben von Verarbeitungsfunktionen und die Rückgabe von Daten kann schnell APIs erstellt werden. Fastapi unterstützt eine Vielzahl von HTTP -Methoden und bietet automatisch generierte Swaggerui- und Redoc -Dokumentationssysteme. URL -Parameter k?nnen durch Pfaddefinition erfasst werden, w?hrend Abfrageparameter durch Einstellen von Standardwerten für Funktionsparameter implementiert werden k?nnen. Der rationale Einsatz pydantischer Modelle kann dazu beitragen, die Entwicklungseffizienz und Genauigkeit zu verbessern.

Wie man eine API mit Python testet Jul 12, 2025 am 02:47 AM

Um die API zu testen, müssen Sie Pythons Anfragebibliothek verwenden. In den Schritten werden die Bibliothek installiert, Anfragen gesendet, Antworten überprüfen, Zeitüberschreitungen festlegen und erneut werden. Installieren Sie zun?chst die Bibliothek über PipinstallRequests. Verwenden Sie dann Requests.get () oder Requests.Post () und andere Methoden zum Senden von GET- oder Post -Anfragen. überprüfen Sie dann die Antwort. Fügen Sie schlie?lich Zeitüberschreitungsparameter hinzu, um die Zeitüberschreitungszeit festzulegen, und kombinieren Sie die Wiederholungsbibliothek, um eine automatische Wiederholung zu erreichen, um die Stabilit?t zu verbessern.

Einrichten und Verwenden von virtuellen Python -Umgebungen Jul 06, 2025 am 02:56 AM

Eine virtuelle Umgebung kann die Abh?ngigkeiten verschiedener Projekte isolieren. Der Befehl ist mit Pythons eigenem Venvidenmodul erstellt und ist Python-Mvenvenv. Aktivierungsmethode: Windows verwendet Env \ scripts \ aktivieren, macOS/Linux verwendet SourceEnv/bin/aktivieren; Das Installationspaket verwendet PipInstall, verwenden Sie Pipfreeze> Anforderungen.txt, um Anforderungsdateien zu generieren, und verwenden Sie Pipinstall-Rrequirements.txt, um die Umgebung wiederherzustellen. Zu den Vorsichtsma?nahmen geh?ren nicht das Senden von Git, reaktivieren Sie jedes Mal, wenn das neue Terminal ge?ffnet wird, und die automatische Identifizierung und Umschaltung kann von IDE verwendet werden.

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Praktische Ans?tze zur Schlüsselinformationsextraktion (Teil 2)

Hei?e KI -Werkzeuge

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1

SublimeText3 chinesische Version

Senden Sie Studio 13.0.1

Dreamweaver CS6

SublimeText3 Mac-Version

Hei?e Themen