国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
在沒(méi)有外部庫(kù)的情況下計(jì)算兩個(gè)句子字串之間的餘弦相似度
首頁(yè) 後端開(kāi)發(fā) Python教學(xué) 在沒(méi)有外部函式庫(kù)的情況下,如何計(jì)算兩個(gè)句子之間的餘弦相似度?

在沒(méi)有外部函式庫(kù)的情況下,如何計(jì)算兩個(gè)句子之間的餘弦相似度?

Nov 01, 2024 pm 01:14 PM

How Can You Calculate Cosine Similarity Between Two Sentences Without External Libraries?

在沒(méi)有外部庫(kù)的情況下計(jì)算兩個(gè)句子字串之間的餘弦相似度

在自然語(yǔ)言處理的背景下,計(jì)算餘弦相似度對(duì)於測(cè)量文件之間的文字相似度至關(guān)重要。雖然 tf-idf-cosine 等外部函式庫(kù)可以促進(jìn)此任務(wù),但也可以在不依賴(lài)此類(lèi)依賴(lài)項(xiàng)的情況下手動(dòng)計(jì)算餘弦相似度。

餘弦相似度概述

餘弦相似性量化了表示文本的兩個(gè)向量之間的角度。餘弦相似度越高,角度越小,表示文字之間的相似度越大。它是使用歸一化向量除以其振幅的點(diǎn)積來(lái)計(jì)算的。

手動(dòng)實(shí)現(xiàn)餘弦相似度

要手動(dòng)計(jì)算餘弦相似度,我們定義以下步驟:

  1. 標(biāo)記化
  2. 標(biāo)記化:將句子分割成單獨(dú)的單字。
  3. 向量化:為每個(gè)句子中的每個(gè)單字建立一個(gè)計(jì)數(shù)器,它代表它的頻率(術(shù)語(yǔ)頻率)。
  4. 歸一化:將每個(gè)元素除以其元素平方和的平方根(L2 範(fàn)數(shù))來(lái)歸一化向量。

餘弦計(jì)算:計(jì)算歸一化向量的點(diǎn)積並除以它們的大小。

代碼實(shí)現(xiàn)
<code class="python">import math
import re
from collections import Counter

WORD = re.compile(r"\w+")

def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])
    
    sum1 = sum([vec1[x] ** 2 for x in vec1])
    sum2 = sum([vec2[x] ** 2 for x in vec2])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)
    
    if not denominator:
        return 0.0
    else:
        return numerator / denominator

def text_to_vector(text):
    words = WORD.findall(text)
    return Counter(words)

text1 = "This is a foo bar sentence ."
text2 = "This sentence is similar to a foo bar sentence ."

vector1 = text_to_vector(text1)
vector2 = text_to_vector(text2)

cosine = get_cosine(vector1, vector2)

print("Cosine:", cosine)</code>

下面是手動(dòng)餘弦相似度計(jì)算的Python 實(shí)現(xiàn):

結(jié)果
Cosine: 0.861640436855

此程式碼執(zhí)行如下:

此值表示兩個(gè)句子之間的高餘弦相似度,確認(rèn)它們?cè)谖淖稚舷嗨啤?

進(jìn)一步的考慮因素
  • 雖然此手動(dòng)方法提供了基本的實(shí)現(xiàn),但可以通過(guò)以下方式增強(qiáng): :
  • 結(jié)合詞幹或詞形還原以改進(jìn)單字規(guī)範(fàn)化。
實(shí)現(xiàn)更複雜的標(biāo)記化方案。 加入 TF-IDF 等權(quán)重以實(shí)現(xiàn)更準(zhǔn)確的相似性計(jì)算。

以上是在沒(méi)有外部函式庫(kù)的情況下,如何計(jì)算兩個(gè)句子之間的餘弦相似度?的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

Laravel 教程
1601
29
PHP教程
1502
276
如何處理Python中的API身份驗(yàn)證 如何處理Python中的API身份驗(yàn)證 Jul 13, 2025 am 02:22 AM

處理API認(rèn)證的關(guān)鍵在於理解並正確使用認(rèn)證方式。 1.APIKey是最簡(jiǎn)單的認(rèn)證方式,通常放在請(qǐng)求頭或URL參數(shù)中;2.BasicAuth使用用戶(hù)名和密碼進(jìn)行Base64編碼傳輸,適合內(nèi)部系統(tǒng);3.OAuth2需先通過(guò)client_id和client_secret獲取Token,再在請(qǐng)求頭中帶上BearerToken;4.為應(yīng)對(duì)Token過(guò)期,可封裝Token管理類(lèi)自動(dòng)刷新Token;總之,根據(jù)文檔選擇合適方式,並安全存儲(chǔ)密鑰信息是關(guān)鍵。

解釋Python斷言。 解釋Python斷言。 Jul 07, 2025 am 12:14 AM

Assert是Python用於調(diào)試的斷言工具,當(dāng)條件不滿足時(shí)拋出AssertionError。其語(yǔ)法為assert條件加可選錯(cuò)誤信息,適用於內(nèi)部邏輯驗(yàn)證如參數(shù)檢查、狀態(tài)確認(rèn)等,但不能用於安全或用戶(hù)輸入檢查,且應(yīng)配合清晰提示信息使用,僅限開(kāi)發(fā)階段輔助調(diào)試而非替代異常處理。

如何一次迭代兩個(gè)列表 如何一次迭代兩個(gè)列表 Jul 09, 2025 am 01:13 AM

在Python中同時(shí)遍歷兩個(gè)列表的常用方法是使用zip()函數(shù),它會(huì)按順序配對(duì)多個(gè)列表並以最短為準(zhǔn);若列表長(zhǎng)度不一致,可使用itertools.zip_longest()以最長(zhǎng)為準(zhǔn)並填充缺失值;結(jié)合enumerate()可同時(shí)獲取索引。 1.zip()簡(jiǎn)潔實(shí)用,適合成對(duì)數(shù)據(jù)迭代;2.zip_longest()處理不一致長(zhǎng)度時(shí)可填充默認(rèn)值;3.enumerate(zip())可在遍歷時(shí)獲取索引,滿足多種複雜場(chǎng)景需求。

什麼是Python型提示? 什麼是Python型提示? Jul 07, 2025 am 02:55 AM

typeHintsInpyThonsolverbromblemboyofambiguityandPotentialBugSindyNamalytyCodeByallowingDevelopsosteSpecefectifyExpectedTypes.theyenhancereadability,enablellybugdetection,andimprovetool.typehintsupport.typehintsareadsareadsareadsareadsareadsareadsareadsareadsareaddedusidocolon(

什麼是Python迭代器? 什麼是Python迭代器? Jul 08, 2025 am 02:56 AM

Inpython,IteratorSareObjectSthallowloopingThroughCollectionsByImplementing_iter __()和__next __()。 1)iteratorsWiaTheIteratorProtocol,使用__ITER __()toreTurnterateratoratoranteratoratoranteratoratorAnterAnteratoratorant antheittheext__()

Python Fastapi教程 Python Fastapi教程 Jul 12, 2025 am 02:42 AM

要使用Python創(chuàng)建現(xiàn)代高效的API,推薦使用FastAPI;其基於標(biāo)準(zhǔn)Python類(lèi)型提示,可自動(dòng)生成文檔,性能優(yōu)越。安裝FastAPI和ASGI服務(wù)器uvicorn後,即可編寫(xiě)接口代碼。通過(guò)定義路由、編寫(xiě)處理函數(shù)並返回?cái)?shù)據(jù),可以快速構(gòu)建API。 FastAPI支持多種HTTP方法,並提供自動(dòng)生成的SwaggerUI和ReDoc文檔系統(tǒng)。 URL參數(shù)可通過(guò)路徑定義捕獲,查詢(xún)參數(shù)則通過(guò)函數(shù)參數(shù)設(shè)置默認(rèn)值實(shí)現(xiàn)。合理使用Pydantic模型有助於提升開(kāi)發(fā)效率和準(zhǔn)確性。

如何用Python測(cè)試API 如何用Python測(cè)試API Jul 12, 2025 am 02:47 AM

要測(cè)試API需使用Python的Requests庫(kù),步驟為安裝庫(kù)、發(fā)送請(qǐng)求、驗(yàn)證響應(yīng)、設(shè)置超時(shí)與重試。首先通過(guò)pipinstallrequests安裝庫(kù);接著用requests.get()或requests.post()等方法發(fā)送GET或POST請(qǐng)求;然後檢查response.status_code和response.json()確保返回結(jié)果符合預(yù)期;最後可添加timeout參數(shù)設(shè)置超時(shí)時(shí)間,並結(jié)合retrying庫(kù)實(shí)現(xiàn)自動(dòng)重試以增強(qiáng)穩(wěn)定性。

Python函數(shù)可變範(fàn)圍 Python函數(shù)可變範(fàn)圍 Jul 12, 2025 am 02:49 AM

在Python中,函數(shù)內(nèi)部定義的變量是局部變量,僅在函數(shù)內(nèi)有效;外部定義的是全局變量,可在任何地方讀取。 1.局部變量隨函數(shù)執(zhí)行結(jié)束被銷(xiāo)毀;2.函數(shù)可訪問(wèn)全局變量但不能直接修改,需用global關(guān)鍵字;3.嵌套函數(shù)中若要修改外層函數(shù)變量,需使用nonlocal關(guān)鍵字;4.同名變量在不同作用域互不影響;5.修改全局變量時(shí)必須聲明global,否則會(huì)引發(fā)UnboundLocalError錯(cuò)誤。理解這些規(guī)則有助於避免bug並寫(xiě)出更可靠的函數(shù)。

See all articles