999国内精品永久免费视频,隔壁人妻偷人bd中字

Heim

Backend-Entwicklung

Python-Tutorial

Semantischer Abgleich von Textbezeichnern mithilfe von LASER-Einbettungen in Python

Linda Hamilton

Nov 25, 2024 am 05:33 AM

Semantic Matching of Text Identifiers Using LASER Embeddings in Python

Beim Einsatz von OCR zur Digitalisierung von Finanzberichten sto?en Sie m?glicherweise auf verschiedene Ans?tze zur Erkennung bestimmter Kategorien in diesen Berichten. Herk?mmliche Methoden wie der Levenshtein-Algorithmus k?nnen beispielsweise für den String-Abgleich basierend auf der Bearbeitungsentfernung verwendet werden, was ihn effektiv für die Behandlung von nahezu übereinstimmungen macht, wie z. B. die Korrektur von Tippfehlern oder kleinen Abweichungen im Text.

Die Herausforderung wird jedoch komplexer, wenn Sie mehrere Kategorien in einer einzelnen Zeile eines Berichts erkennen müssen, insbesondere wenn diese Kategorien m?glicherweise nicht genau wie erwartet angezeigt werden oder sich semantisch überschneiden k?nnten.

In diesem Beitrag analysieren wir einen semantischen Matching-Ansatz unter Verwendung der LASER-Einbettungen (Language-Agnostic SEntence Representations) von Facebook und zeigen, wie er diese Aufgabe effektiv bew?ltigen kann.

Problem

Das Ziel besteht darin, bestimmte Finanzbegriffe (Kategorien) in einer bestimmten Textzeile zu identifizieren. Nehmen wir an, wir haben einen festen Satz vordefinierter Kategorien, die alle m?glichen Begriffe von Interesse darstellen, wie zum Beispiel:

["Umsatz", "Betriebsaufwand", "Betriebsgewinn", "Abschreibung", "Zinsen", "Nettogewinn", "Steuer", "Gewinn nach Steuern", "Metrik 1"]

Angenommen eine Eingabezeile wie:

?Betriebsgewinn, Nettogewinn und Gewinn nach Steuern“

Wir wollen herausfinden, welche Bezeichner in dieser Zeile vorkommen.

Semantisches Matching mit LASER

Anstatt uns auf exakte oder unscharfe Textübereinstimmungen zu verlassen, verwenden wir semantische ?hnlichkeit. Dieser Ansatz nutzt LASER-Einbettungen, um die semantische Bedeutung von Text zu erfassen und ihn mithilfe der Kosinus?hnlichkeit zu vergleichen.

Durchführung

Vorverarbeitung des Textes

Vor dem Einbetten wird der Text vorverarbeitet, indem er in Kleinbuchstaben umgewandelt und zus?tzliche Leerzeichen entfernt wird. Dies sorgt für Einheitlichkeit.

def preprocess(text):
    return text.lower().strip()

Einbetten von Bezeichnern und Eingabezeilen

Der LASER-Encoder generiert normalisierte Einbettungen sowohl für die Liste der Identifikatoren als auch für die Eingabe-/OCR-Zeile.

identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True)
ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]

Rangfolge der Identifikatoren nach Spezifit?t

L?ngere Bezeichner werden priorisiert, indem sie nach der Wortanzahl sortiert werden. Dies hilft bei der Handhabung verschachtelter übereinstimmungen, bei denen l?ngere Bezeichner m?glicherweise kürzere Bezeichner subsumieren (z. B. ?Gewinn nach Steuern“ subsumiert ?Gewinn“).

ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True)
ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)

?hnlichkeit berechnen

Mithilfe der Kosinus?hnlichkeit messen wir, wie semantisch jeder Bezeichner der Eingabezeile ?hnelt. Bezeichner mit einer ?hnlichkeit über einem bestimmten Schwellenwert gelten als übereinstimmungen.

matches = []
threshold = 0.6

for idx, identifier_embedding in enumerate(ranked_embeddings):
    similarity = cosine_similarity([identifier_embedding], [ocr_line_embedding])[0][0]
    if similarity >= threshold:
        matches.append((ranked_identifiers[idx], similarity))

Verschachtelte übereinstimmungen aufl?sen

Um mit überlappenden Bezeichnern umzugehen, werden l?ngere übereinstimmungen priorisiert, um sicherzustellen, dass kürzere übereinstimmungen darin ausgeschlossen werden.

def preprocess(text):
    return text.lower().strip()

Ergebnisse

Wenn der Code ausgeführt wird, liefert die Ausgabe eine Liste der erkannten übereinstimmungen zusammen mit ihren ?hnlichkeitswerten. Für die Beispieleingabe:

identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True)
ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]

überlegungen zu l?ngeren und komplexen Eingaben

Diese Methode funktioniert gut in strukturierten Finanzberichten mit mehreren Kategorien in einer einzigen Zeile, vorausgesetzt, es gibt nicht zu viele Kategorien oder viel nicht zusammenh?ngenden Text. Allerdings kann sich die Genauigkeit bei l?ngeren, komplexen Eingaben oder unstrukturiertem benutzergeneriertem Text verschlechtern, da die Einbettungen m?glicherweise Schwierigkeiten haben, sich auf relevante Kategorien zu konzentrieren. Bei verrauschten oder unvorhersehbaren Eingaben ist es weniger zuverl?ssig.

Abschluss

Dieser Beitrag zeigt, wie LASER-Einbettungen ein nützliches Werkzeug zur Erkennung mehrerer Kategorien im Text sein k?nnen. Ist es die beste Option? Vielleicht nicht, aber es ist sicherlich eine der Optionen, die es wert sind, in Betracht gezogen zu werden, insbesondere wenn es um komplexe Szenarien geht, bei denen herk?mmliche Matching-Techniken m?glicherweise nicht ausreichen.

Vollst?ndiger Code

ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True)
ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)

Das obige ist der detaillierte Inhalt vonSemantischer Abgleich von Textbezeichnern mithilfe von LASER-Einbettungen in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erkl?rung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Hei?e KI -Werkzeuge

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Agnes Tachyon Build Guide | Ein hübsches Derby -Musume

1 Monate vor By Jack chen

Gras Wonder Build Guide | Uma Musume hübsches Derby

3 Wochen vor By Jack chen

<??>: 99 N?chte im Wald - alle Abzeichen und wie man sie freischalt

3 Wochen vor By DDD

Uma Musume Pretty Derby Banner Zeitplan (Juli 2025)

3 Wochen vor By Jack chen

NYT 'Connections' Hinweise für Mittwoch, 2. Juli: Hinweise und Antworten für das heutige Spiel

1 Monate vor By DDD

Hei?e Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen

Laravel-Tutorial

1597

PHP-Tutorial

1488

NYT Mini Kreuzwortr?tsel Antworten

268

587

NYT -Verbindungen Hinweise und Antworten

130

836

Related knowledge

Polymorphismus in Pythonklassen Jul 05, 2025 am 02:58 AM

Der Polymorphismus ist ein Kernkonzept in der objektorientierten Programmierung von Python-Objekte und bezieht sich auf "eine Schnittstelle, mehrere Implementierungen" und erm?glicht eine einheitliche Verarbeitung verschiedener Arten von Objekten. 1. Polymorphismus wird durch Umschreiben durch Methode implementiert. Unterklassen k?nnen übergeordnete Klassenmethoden neu definieren. Zum Beispiel hat die Spoke () -Methode der Tierklasse unterschiedliche Implementierungen in Hunde- und Katzenunterklassen. 2. Die praktischen Verwendungen des Polymorphismus umfassen die Vereinfachung der Codestruktur und die Verbesserung der Skalierbarkeit, z. 3. Die Python -Implementierungspolymorphismus muss erfüllen: Die übergeordnete Klasse definiert eine Methode, und die untergeordnete Klasse überschreibt die Methode, erfordert jedoch keine Vererbung derselben übergeordneten Klasse. Solange das Objekt dieselbe Methode implementiert, wird dies als "Ententyp" bezeichnet. 4. Zu beachten ist die Wartung

Python -Funktionsargumente und Parameter Jul 04, 2025 am 03:26 AM

Parameter sind Platzhalter beim Definieren einer Funktion, w?hrend Argumente spezifische Werte sind, die beim Aufrufen übergeben wurden. 1. Die Positionsparameter müssen in der Reihenfolge übergeben werden, und eine falsche Reihenfolge führt zu Fehlern im Ergebnis. 2. Die Schlüsselwortparameter werden durch Parameternamen angegeben, die die Reihenfolge ?ndern und die Lesbarkeit verbessern k?nnen. 3. Die Standardparameterwerte werden zugewiesen, wenn sie definiert sind, um einen doppelten Code zu vermeiden. Variable Objekte sollten jedoch als Standardwerte vermieden werden. 4. Argumente und *KWARGs k?nnen die unsichere Anzahl von Parametern bew?ltigen und sind für allgemeine Schnittstellen oder Dekorateure geeignet, sollten jedoch mit Vorsicht verwendet werden, um die Lesbarkeit aufrechtzuerhalten.

Erkl?ren Sie Python -Generatoren und Iteratoren. Jul 05, 2025 am 02:55 AM

Iteratoren sind Objekte, die __iter __ () und __next __ () Methoden implementieren. Der Generator ist eine vereinfachte Version von Iteratoren, die diese Methoden automatisch über das Keyword für Rendite implementiert. 1. Der Iterator gibt jedes Mal, wenn er als n?chstes anruft, ein Element zurück und wirft eine Ausnahme in der Stopperation aus, wenn es keine Elemente mehr gibt. 2. Der Generator verwendet Funktionsdefinition, um Daten auf Bedarf zu generieren, Speicher zu speichern und unendliche Sequenzen zu unterstützen. 3. Verwenden Sie Iteratoren, wenn Sie vorhandene S?tze verarbeiten, und verwenden Sie einen Generator, wenn Sie dynamisch Big Data oder faule Bewertung generieren, z. B. das Laden von Zeilen nach Zeile beim Lesen gro?er Dateien. Hinweis: Iterbare Objekte wie Listen sind keine Iteratoren. Sie müssen nach dem Erreichen des Iterators nach seinem Ende nachgebaut werden, und der Generator kann ihn nur einmal durchqueren.

Python `@classMethod` Dekorateur erkl?rte Jul 04, 2025 am 03:26 AM

Eine Klassenmethode ist eine Methode, die in Python über den @ClassMethod Decorator definiert ist. Sein erster Parameter ist die Klasse selbst (CLS), mit der auf den Klassenzustand zugreifen oder diese ?ndern wird. Es kann durch eine Klasse oder Instanz aufgerufen werden, die die gesamte Klasse und nicht auf eine bestimmte Instanz betrifft. In der Personklasse z?hlt beispielsweise die Methode show_count () die Anzahl der erstellten Objekte. Wenn Sie eine Klassenmethode definieren, müssen Sie den @classMethod Decorator verwenden und die ersten Parameter -CLS wie die Methode Change_var (new_value) benennen, um Klassenvariablen zu ?ndern. Die Klassenmethode unterscheidet sich von der Instanzmethode (Selbstparameter) und der statischen Methode (keine automatischen Parameter) und eignet sich für Fabrikmethoden, alternative Konstruktoren und die Verwaltung von Klassenvariablen. Gemeinsame Verwendungen umfassen:

Wie man mit der API -Authentifizierung in Python umgeht Jul 13, 2025 am 02:22 AM

Der Schlüssel zum Umgang mit der API -Authentifizierung besteht darin, die Authentifizierungsmethode korrekt zu verstehen und zu verwenden. 1. Apikey ist die einfachste Authentifizierungsmethode, die normalerweise in den Anforderungsheader- oder URL -Parametern platziert ist. 2. BasicAuth verwendet Benutzername und Kennwort für die Basis64 -Codierungsübertragung, die für interne Systeme geeignet ist. 3.. OAuth2 muss das Token zuerst über Client_id und Client_secret erhalten und dann das BearerToken in den Anforderungsheader bringen. V. Kurz gesagt, die Auswahl der entsprechenden Methode gem?? dem Dokument und das sichere Speichern der Schlüsselinformationen ist der Schlüssel.

Was sind Python Magic -Methoden oder Dunder -Methoden? Jul 04, 2025 am 03:20 AM

Pythons MagicMethods (oder Dunder -Methoden) sind spezielle Methoden, um das Verhalten von Objekten zu definieren, die mit einem doppelten Unterstrich beginnen und enden. 1. Sie erm?glichen es Objekten, auf integrierte Operationen wie Addition, Vergleich, String-Darstellung usw. Zu reagieren; 2. Die gemeinsamen Anwendungsf?lle umfassen Objektinitialisierung und Darstellung (__init__, __Rep__, __str__), arithmetische Operationen (__add__, __sub__, __mul__) und Vergleichsoperationen (__EQ__, ___LT__); 3. Wenn Sie es verwenden, stellen Sie sicher, dass ihr Verhalten den Erwartungen entspricht. Zum Beispiel sollte __Rep__ Ausdrücke refitueller Objekte zurückgeben, und arithmetische Methoden sollten neue Instanzen zurückgeben. 4.. überbeanspruchte oder verwirrende Dinge sollten vermieden werden.

Wie funktioniert das Python Memory Management? Jul 04, 2025 am 03:26 AM

PythonmanageMeMoryautomaticaticuseReferenceCountingandAGARBAGECollector

Beschreiben Sie die Python -Müllsammlung in Python. Jul 03, 2025 am 02:07 AM

Pythons Müllsammlungsmechanismus verwaltet das Speicher automatisch durch Referenzz?hlung und periodische Müllsammlung. Die Kernmethode ist die Referenzz?hlung, die den Speicher sofort freigibt, wenn die Anzahl der Referenzen eines Objekts Null ist. Es kann jedoch keine kreisf?rmigen Referenzen verarbeiten, daher wird ein Müllsammlungsmodul (GC) eingeführt, um die Schleife zu erkennen und zu reinigen. Die Müllsammlung wird normalerweise ausgel?st, wenn die Referenzzahl w?hrend des Programmbetriebs abnimmt, die Allokations- und Freisetzungsdifferenz überschreitet den Schwellenwert oder wenn gc.collect () manuell bezeichnet wird. Benutzer k?nnen das automatische Recycling durch gc.disable () deaktivieren, gc.collect () manuell ausführen und Schwellenwerte anpassen, um die Kontrolle über GC.Set_Threshold () zu erreichen. Nicht alle Objekte nehmen am Loop -Recycling teil. Wenn Objekte, die keine Referenzen enthalten, durch Referenzz?hlung verarbeitet werden, ist es integriert

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

Semantischer Abgleich von Textbezeichnern mithilfe von LASER-Einbettungen in Python

Problem

Semantisches Matching mit LASER

Durchführung

Vorverarbeitung des Textes

Einbetten von Bezeichnern und Eingabezeilen

Rangfolge der Identifikatoren nach Spezifit?t

?hnlichkeit berechnen

Verschachtelte übereinstimmungen aufl?sen

Ergebnisse

überlegungen zu l?ngeren und komplexen Eingaben

Abschluss

Vollst?ndiger Code

Hei?e KI -Werkzeuge

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1

SublimeText3 chinesische Version

Senden Sie Studio 13.0.1

Dreamweaver CS6

SublimeText3 Mac-Version

Hei?e Themen