


Praktische Ans?tze zur Schlüsselinformationsextraktion (Teil 2)
Jan 16, 2025 pm 08:13 PMEchtzeit-Schlüsselinformationsextraktion (Teil 2): ??Verfeinerung der Open-Source-LLM-Leistung
In Fortsetzung von Teil 1 untersucht dieser Leitfaden die Verwendung von Open-Source-LLMs (Large Language Models) – Qwen2 2B und LLaMA 3.1 – für die Extraktion von Rechnungsinformationen, wobei der Schwerpunkt auf der überwindung von Datenschutzbedenken und Hardwareeinschr?nkungen (RTX 3060 mit 12 GB VRAM) liegt.
Warum Qwen2 2B und LLaMA 3.1?
Die Wahl dieser Modelle wurde durch Ressourcenbeschr?nkungen bestimmt. Qwen2-VL-2B-Instruct wurde aufgrund seiner effizienten Gr??e gegenüber gr??eren 7B-Modellen bevorzugt. LLaMA 3.1 (8B), auf das über Ollama zugegriffen wird, wurde aufgrund seines optimierten Langkontextverst?ndnisses ausgew?hlt. Andere Modelle wie Qwen2 in Ollama (fehlende Bildunterstützung) und LLaVA (unzureichende Mehrsprachigkeit) wurden als ungeeignet erachtet.
Diese Zwei-Modell-Strategie nutzt die St?rke von Qwen2 bei der allgemeinen Schlüsselinformationsextraktion und die überlegene Langkontextverarbeitung und JSON-Ausgabekonsistenz von LLaMA 3.1, insbesondere für mehrsprachige Dokumente. Qwen2 extrahiert zun?chst Rohinformationen, die LLaMA 3.1 dann verfeinert und in ein standardisiertes JSON-Format strukturiert. PaddleOCR verbessert wie in Teil 1 die Sehf?higkeiten für Qwen2.
Ein japanisches Rechnungsbeispiel
Als Testfall wurde eine japanische Rechnung verwendet. Der anf?ngliche OCR-Prozess (einschlie?lich Spracherkennung und PaddleOCR) ergab den folgenden erkannten Text:
<code>Recognized Text: {'ori_text': '根岸 東急ストア TEL 045-752-6131 領(lǐng)収証 [TOP2C!UbO J3カード」 クレヅッ 卜でのお支払なら 200円で3ボイン卜 お得なカード! 是非こ入會(huì)下さい。 2013年09月02日(月) レジNO. 0102 NOO07さ と う 001131 スダフエウ卜チーネ 23 単198 1396 003271 オインイ年 ユウ10 4238 000805 ソマ一ク スモー一クサーモン 1298 003276 タカナン ナマクリーム35 1298 001093 ヌテラ スフレクト 1398 000335 バナサ 138 000112 アボト 2つ 単158 1316 A000191 タマネキ 429 合計(jì) 2,111 (內(nèi)消費(fèi)稅等 100 現(xiàn)金 10001 お預(yù)り合計(jì) 110 001 お釣り 7 890', 'ori_language': 'ja', 'text': 'Negishi Tokyu Store TEL 045-752-6131 Receipt [TOP2C!UbO J3 Card] If you pay with a credit card, you can get 3 points for 200 yen.A great value card!Please join us. Monday, September 2, 2013 Cashier No. 0102 NOO07 Satou 001131 Sudafue Bucine 23 Single 198 1396 003271 Oinyen Yu 10 4238 000805 Soma Iku Smo Iku Salmon 1298 003276 Takanan Nama Cream 35 1 298 001093 Nutella Sprect 1398 000335 Banasa 138 000112 Aboto 2 AA 158 1316 A000191 Eggplant 429 Total 2,111 (including consumption tax, etc. 100 Cash 10001 Total deposited 110 001 Change 7 890', 'language': 'en',}</code>
Dies wurde mit einer ChatGPT-Basislinie verglichen, was die überlegene Leistung von ChatGPT in diesem ersten Test demonstrierte.
Qwen2 2B-Ergebnisse (Standalone)
Die unabh?ngige Verwendung von Qwen2 zeigte seine Grenzen. Die JSON-Ausgabe war in mehreren Bereichen unvollst?ndig und ungenau, was die Schwierigkeiten mit der konsistenten JSON-Formatierung und der Verarbeitung langer Kontexte verdeutlicht.
Kombinierter Qwen2- und LLaMA 3.1-Ansatz
Der Einsatz von LLaMA 3.1 als Postprozessor zur Verfeinerung der Ausgabe von Qwen2 führte zu verbesserten, aber immer noch unvollst?ndigen Ergebnissen. W?hrend einige Schlüsselfelder korrekt extrahiert wurden, blieben detaillierte Artikelinformationen problematisch.
Zukünftige Verbesserungen: Feinabstimmung von Qwen2VL
Im n?chsten Teil wird die Feinabstimmung des Qwen2VL-Modells mithilfe eines Datensatzes von Empfangsdaten detailliert beschrieben, mit dem Ziel, sowohl die Genauigkeit als auch die Verarbeitungsgeschwindigkeit für diese spezielle Aufgabe deutlich zu verbessern.
Fazit
Dieses Experiment zeigt das Potenzial und die Grenzen von Open-Source-LLMs für die Extraktion wichtiger Informationen in der Praxis. W?hrend ein kombinierter Ansatz Verbesserungen gegenüber der Verwendung eines einzelnen Modells bietet, ist eine weitere Verfeinerung, insbesondere durch Feinabstimmung des Modells, erforderlich, um eine optimale Leistung zu erzielen. Der Fokus auf Datenschutz und effiziente Ressourcennutzung bleibt ein wesentlicher Vorteil dieses Open-Source-Ansatzes.
Das obige ist der detaillierte Inhalt vonPraktische Ans?tze zur Schlüsselinformationsextraktion (Teil 2). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hei?e KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Der Schlüssel zum Umgang mit der API -Authentifizierung besteht darin, die Authentifizierungsmethode korrekt zu verstehen und zu verwenden. 1. Apikey ist die einfachste Authentifizierungsmethode, die normalerweise in den Anforderungsheader- oder URL -Parametern platziert ist. 2. BasicAuth verwendet Benutzername und Kennwort für die Basis64 -Codierungsübertragung, die für interne Systeme geeignet ist. 3.. OAuth2 muss das Token zuerst über Client_id und Client_secret erhalten und dann das BearerToken in den Anforderungsheader bringen. V. Kurz gesagt, die Auswahl der entsprechenden Methode gem?? dem Dokument und das sichere Speichern der Schlüsselinformationen ist der Schlüssel.

Assert ist ein Inssertion -Tool, das in Python zum Debuggen verwendet wird, und wirft einen Assertionerror aus, wenn der Zustand nicht erfüllt ist. Die Syntax ist eine geltende Bedingung sowie optionale Fehlerinformationen, die für die interne Logiküberprüfung geeignet sind, z. B. Parameterprüfung, Statusbest?tigung usw., k?nnen jedoch nicht für die Sicherheits- oder Benutzereingabeprüfung verwendet werden und sollten in Verbindung mit klaren Eingabeaufforderungen verwendet werden. Es ist nur zum Hilfsdebuggen in der Entwicklungsphase verfügbar, anstatt die Ausnahmebehandlung zu ersetzen.

INPYTHON, ITERATORATORSAROBJECTSHATALWOULOUPING ThroughCollections Byimplementing__iter __ () und __Next __ (). 1) IteratorsworkviATheiterProtocol, verwendete __iter __ () toreturn thiteratorand__Next __ () torethentexteemtemuntemuntilstoperationSaised.2) und

TypHintsinpythonsolvetheProblemofAmbiguityAndpotentialbugsindynamicalpedCodeByAllowingDevelopstospecifyexpectypes

Eine gemeinsame Methode, um zwei Listen gleichzeitig in Python zu durchqueren, besteht darin, die Funktion ZIP () zu verwenden, die mehrere Listen in der Reihenfolge und die kürzeste ist. Wenn die Listenl?nge inkonsistent ist, k?nnen Sie iTertools.zip_longest () verwenden, um die l?ngste zu sein und die fehlenden Werte auszufüllen. In Kombination mit Enumerate () k?nnen Sie den Index gleichzeitig erhalten. 1.zip () ist pr?gnant und praktisch, geeignet für die Iteration gepaarte Daten; 2.zip_longest () kann den Standardwert beim Umgang mit inkonsistenten L?ngen einfüllen. 3.Enumerate (ZIP ()) kann w?hrend des Durchlaufens Indizes erhalten und die Bedürfnisse einer Vielzahl komplexer Szenarien erfüllen.

Um moderne und effiziente APIs mit Python zu schaffen, wird Fastapi empfohlen. Es basiert auf Eingabeaufforderungen an Standardpython -Typ und kann automatisch Dokumente mit ausgezeichneter Leistung generieren. Nach der Installation von Fastapi und ASGI Server Uvicorn k?nnen Sie Schnittstellencode schreiben. Durch das Definieren von Routen, das Schreiben von Verarbeitungsfunktionen und die Rückgabe von Daten kann schnell APIs erstellt werden. Fastapi unterstützt eine Vielzahl von HTTP -Methoden und bietet automatisch generierte Swaggerui- und Redoc -Dokumentationssysteme. URL -Parameter k?nnen durch Pfaddefinition erfasst werden, w?hrend Abfrageparameter durch Einstellen von Standardwerten für Funktionsparameter implementiert werden k?nnen. Der rationale Einsatz pydantischer Modelle kann dazu beitragen, die Entwicklungseffizienz und Genauigkeit zu verbessern.

Um die API zu testen, müssen Sie Pythons Anfragebibliothek verwenden. In den Schritten werden die Bibliothek installiert, Anfragen gesendet, Antworten überprüfen, Zeitüberschreitungen festlegen und erneut werden. Installieren Sie zun?chst die Bibliothek über PipinstallRequests. Verwenden Sie dann Requests.get () oder Requests.Post () und andere Methoden zum Senden von GET- oder Post -Anfragen. überprüfen Sie dann die Antwort. Fügen Sie schlie?lich Zeitüberschreitungsparameter hinzu, um die Zeitüberschreitungszeit festzulegen, und kombinieren Sie die Wiederholungsbibliothek, um eine automatische Wiederholung zu erreichen, um die Stabilit?t zu verbessern.

Eine virtuelle Umgebung kann die Abh?ngigkeiten verschiedener Projekte isolieren. Der Befehl ist mit Pythons eigenem Venvidenmodul erstellt und ist Python-Mvenvenv. Aktivierungsmethode: Windows verwendet Env \ scripts \ aktivieren, macOS/Linux verwendet SourceEnv/bin/aktivieren; Das Installationspaket verwendet PipInstall, verwenden Sie Pipfreeze> Anforderungen.txt, um Anforderungsdateien zu generieren, und verwenden Sie Pipinstall-Rrequirements.txt, um die Umgebung wiederherzustellen. Zu den Vorsichtsma?nahmen geh?ren nicht das Senden von Git, reaktivieren Sie jedes Mal, wenn das neue Terminal ge?ffnet wird, und die automatische Identifizierung und Umschaltung kann von IDE verwendet werden.
