国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
1. 如何在Python中使用嵌入式字典構(gòu)建知識圖譜?
2. 當數(shù)據(jù)包含1億個關(guān)鍵字時,如何進行分層聚類?
3. 如何抓取像Wikipedia這樣的大型存儲庫,以檢索底層結(jié)構(gòu),而不僅僅是單獨的條目?
4. 如何用上下文令牌增強LLM embeddings?
5. 如何實現(xiàn)自校正(self-tuning)以消除與模型評估和訓練相關(guān)的許多問題?
6. 如何將矢量搜索的速度提高幾個數(shù)量級?
7. 從你的模型中獲得最佳結(jié)果的理想損失函數(shù)是什么?
首頁 科技周邊 人工智能 七個很酷的GenAI & LLM技術(shù)性面試問題

七個很酷的GenAI & LLM技術(shù)性面試問題

Jun 07, 2024 am 10:06 AM
人工智能 llm 大語言模型

七個很酷的GenAI & LLM技術(shù)性面試問題

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

https://www.51cto.com/aigc/

譯者 | 晶顏

審校 | 重樓

不同于互聯(lián)網(wǎng)上隨處可見的傳統(tǒng)問題庫,這些問題需要跳出常規(guī)思維。

大語言模型(LLM)在數(shù)據(jù)科學、生成式人工智能(GenAI)和人工智能領(lǐng)域越來越重要。這些復雜的算法提升了人類的技能,并在諸多行業(yè)中推動了效率和創(chuàng)新性的提升,成為企業(yè)保持競爭力的關(guān)鍵。 LLM的應用范圍非常廣泛,它可以用于自然語言處理、文本生成、語音識別和推薦系統(tǒng)等領(lǐng)域。通過學習大量的數(shù)據(jù),LLM能夠生成文本和回答問題,與人類進行對話,并提供準確和有價值的信息。 GenAI依賴于LLM的算法和模型,可以生成各種具有創(chuàng)造

然而,盡管GenAI和LLM越來越常見,但我們依然缺少能深入理解其復雜性的詳細資源。職場新人在進行GenAI和LLM功能以及實際應用的面試時,往往會覺得自己像是陷入了未知領(lǐng)域。

為此,我們編寫了這份指導手冊,記錄了有關(guān)GenAI & LLM的技術(shù)性面試問題。這份指南配有深入的答案,旨在幫助您更好地迎接面試,以充足的信心來應對挑戰(zhàn),并更深層次地理解GenAI & LLM在塑造人工智能和數(shù)據(jù)科學未來方面的影響和潛力。

1. 如何在Python中使用嵌入式字典構(gòu)建知識圖譜?

一種方法是使用哈希(Python中的字典,也稱為鍵-值表),其中鍵(key)是單詞、令牌、概念或類別,例如“數(shù)學”(mathematics)。每個鍵(key)對應一個值(value),這個值本身就是一個哈希:嵌套哈希(nested hash)。嵌套哈希中的鍵也是一個與父哈希中的父鍵相關(guān)的單詞,例如“微積分”(calculus)之類的單詞。該值是一個權(quán)重:“微積分”的值高,因為“微積分”和“數(shù)學”是相關(guān)的,并且經(jīng)常出現(xiàn)在一起;相反地,“餐館”(restaurants)的值低,因為“餐館”和“數(shù)學”很少出現(xiàn)在一起。

在LLM中,嵌套哈希可能是embedding(一種將高維數(shù)據(jù)映射到低維空間的方法,通常用于將離散的、非連續(xù)的數(shù)據(jù)轉(zhuǎn)換為連續(xù)的向量表示,以便于計算機進行處理)。由于嵌套哈希沒有固定數(shù)量的元素,因此它處理離散圖譜的效果遠遠好于矢量數(shù)據(jù)庫或矩陣。它帶來了更快的算法,且只需要很少的內(nèi)存。

2. 當數(shù)據(jù)包含1億個關(guān)鍵字時,如何進行分層聚類?

如果想要聚類關(guān)鍵字,那么對于每一對關(guān)鍵字{A, B},你可以計算A和B之間的相似度,獲悉這兩個詞有多相似。目標是生成相似關(guān)鍵字的集群。

Sklearn等標準Python庫提供凝聚聚類(agglomerative clustering),也稱為分層聚類(hierarchical clustering)。然而,在這個例子中,它們通常需要一個1億x 1億的距離矩陣。這顯然行不通。在實踐中,隨機單詞A和B很少同時出現(xiàn),因此距離矩陣是非常離散的。解決方案包括使用適合離散圖譜的方法,例如使用問題1中討論的嵌套哈希。其中一種方法是基于檢測底層圖中的連接組件的聚類。

3. 如何抓取像Wikipedia這樣的大型存儲庫,以檢索底層結(jié)構(gòu),而不僅僅是單獨的條目?

這些存儲庫都將結(jié)構(gòu)化元素嵌入到網(wǎng)頁中,使內(nèi)容比乍一看更加結(jié)構(gòu)化。有些結(jié)構(gòu)元素是肉眼看不見的,比如元數(shù)據(jù)。有些是可見的,并且也出現(xiàn)在抓取的數(shù)據(jù)中,例如索引、相關(guān)項、面包屑或分類。您可以單獨檢索這些元素,以構(gòu)建良好的知識圖譜或分類法。但是您可能需要從頭開始編寫自己的爬蟲程序,而不是依賴Beautiful Soup之類的工具。富含結(jié)構(gòu)信息的LLM(如xLLM)提供了更好的結(jié)果。此外,如果您的存儲庫確實缺乏任何結(jié)構(gòu),您可以使用從外部源檢索的結(jié)構(gòu)來擴展您的抓取數(shù)據(jù)。這一過程稱為“結(jié)構(gòu)增強”(structure augmentation)。

4. 如何用上下文令牌增強LLM embeddings?

Embeddings由令牌組成;這些是您可以在任何文檔中找到的最小的文本元素。你不一定要有兩個令牌,比如“數(shù)據(jù)”和“科學”,你可以有四個令牌:“數(shù)據(jù)^科學”、“數(shù)據(jù)”、“科學”和“數(shù)據(jù)~科學”。最后一個表示發(fā)現(xiàn)了“數(shù)據(jù)科學”這個詞。第一個意思是“數(shù)據(jù)”和“科學”都被發(fā)現(xiàn)了,但是在一個給定段落的隨機位置,而不是在相鄰的位置。這樣的令牌稱為多令牌(multi-tokens)或上下文令牌。它們提供了一些很好的冗余,但如果不小心,您可能會得到巨大的embeddings。解決方案包括清除無用的令牌(保留最長的一個)和使用可變大小的embeddings。上下文內(nèi)容可以幫助減少LLM幻覺。

5. 如何實現(xiàn)自校正(self-tuning)以消除與模型評估和訓練相關(guān)的許多問題?

這適用于基于可解釋人工智能的系統(tǒng),而不是神經(jīng)網(wǎng)絡(luò)黑匣子。允許應用程序的用戶選擇超參數(shù)并標記他喜歡的那些。使用該信息查找理想的超參數(shù)并將其設(shè)置為默認值。這是基于用戶輸入的自動強化學習。它還允許用戶根據(jù)期望的結(jié)果選擇他最喜歡的套裝,使您的應用程序可定制。在LLM中,允許用戶選擇特定的子LLM(例如基于搜索類型或類別),可以進一步提高性能。為輸出結(jié)果中的每個項目添加相關(guān)性評分,也有助于微調(diào)您的系統(tǒng)。

6. 如何將矢量搜索的速度提高幾個數(shù)量級?

在LLM中,使用可變長度(variable-length)embeddings極大地減少了embeddings的大小。因此,它可以加速搜索,以查找與前端提示符中捕獲到的相似的后端embeddings。但是,它可能需要不同類型的數(shù)據(jù)庫,例如鍵-值表(key-value tables)。減少令牌的大小和embeddings表是另一個解決方案:在一個萬億令牌系統(tǒng)中,95%的令牌永遠不會被提取來回答提示。它們只是噪音,因此可以擺脫它們。使用上下文令牌(參見問題4)是另一種以更緊湊的方式存儲信息的方法。最后,在壓縮embeddings上使用近似最近鄰搜索(approximate nearest neighbor,ANN)來進行搜索。概率版本(pANN)可以運行得快得多,見下圖。最后,使用緩存機制來存儲訪問最頻繁的embeddings 或查詢,以獲得更好的實時性能。

七個很酷的GenAI & LLM技術(shù)性面試問題

概率近似最近鄰搜索(pANN)

根據(jù)經(jīng)驗來看,將訓練集的大小減少50%會得到更好的結(jié)果,過度擬合效果也會大打折扣。在LLM中,選擇幾個好的輸入源比搜索整個互聯(lián)網(wǎng)要好。對于每個頂級類別都有一個專門的LLM,而不是一刀切,這進一步減少了embeddings的數(shù)量:每個提示針對特定的子LLM,而非整個數(shù)據(jù)庫。

7. 從你的模型中獲得最佳結(jié)果的理想損失函數(shù)是什么?

最好的解決方案是使用模型評估指標作為損失函數(shù)。之所以很少這樣做,是因為您需要一個損失函數(shù),它可以在神經(jīng)網(wǎng)絡(luò)中每次神經(jīng)元被激活時非??斓馗隆T谏窠?jīng)網(wǎng)絡(luò)環(huán)境下,另一種解決方案是在每個epoch之后計算評估指標,并保持在具有最佳評估分數(shù)的epoch生成解決方案上,而不是在具有最小損失的epoch生成解決方案上。

我目前正在研究一個系統(tǒng),其中的評價指標和損失函數(shù)是相同的。不是基于神經(jīng)網(wǎng)絡(luò)的。最初,我的評估指標是多元Kolmogorov-Smirnov距離(KS)。但如果沒有大量的計算,在大數(shù)據(jù)上對KS進行原子更新(atomic update)是極其困難的。這使得KS不適合作為損失函數(shù),因為你需要數(shù)十億次原子更新。但是通過將累積分布函數(shù)(cumulative distribution)改變?yōu)榫哂袛?shù)百萬個bins參數(shù)的概率密度函數(shù)(probability density function),我能夠想出一個很好的評估指標,它也可以作為損失函數(shù)。

原文標題:7 Cool Technical GenAI & LLM Job Interview Questions,作者:Vincent Granville

鏈接:https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

https://www.51cto.com/aigc/

以上是七個很酷的GenAI & LLM技術(shù)性面試問題的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

字節(jié)跳動剪映推出 SVIP 超級會員:連續(xù)包年 499 元,提供多種 AI 功能 字節(jié)跳動剪映推出 SVIP 超級會員:連續(xù)包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日消息,剪映是由字節(jié)跳動旗下臉萌科技開發(fā)的一款視頻剪輯軟件,依托于抖音平臺且基本面向該平臺用戶制作短視頻內(nèi)容,并兼容iOS、安卓、Windows、MacOS等操作系統(tǒng)。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智能翻譯、智能劃重點、智能包裝、數(shù)字人合成等。價格方面,剪映SVIP月費79元,年費599元(本站注:折合每月49.9元),連續(xù)包月則為59元每月,連續(xù)包年為499元每年(折合每月41.6元)。此外,剪映官方還表示,為提升用戶體驗,向已訂閱了原版VIP

本地使用Groq Llama 3 70B的逐步指南 本地使用Groq Llama 3 70B的逐步指南 Jun 10, 2024 am 09:16 AM

譯者|布加迪審校|重樓本文介紹了如何使用GroqLPU推理引擎在JanAI和VSCode中生成超快速響應。每個人都致力于構(gòu)建更好的大語言模型(LLM),例如Groq專注于AI的基礎(chǔ)設(shè)施方面。這些大模型的快速響應是確保這些大模型更快捷地響應的關(guān)鍵。本教程將介紹GroqLPU解析引擎以及如何在筆記本電腦上使用API和JanAI本地訪問它。本文還將把它整合到VSCode中,以幫助我們生成代碼、重構(gòu)代碼、輸入文檔并生成測試單元。本文將免費創(chuàng)建我們自己的人工智能編程助手。GroqLPU推理引擎簡介Groq

使用Rag和Sem-Rag提供上下文增強AI編碼助手 使用Rag和Sem-Rag提供上下文增強AI編碼助手 Jun 10, 2024 am 11:08 AM

通過將檢索增強生成和語義記憶納入AI編碼助手,提升開發(fā)人員的生產(chǎn)力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI編程助手自然有幫助,但由于依賴對軟件語言和編寫軟件最常見模式的總體理解,因此常常無法提供最相關(guān)和正確的代碼建議。這些編碼助手生成的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將代碼接受到應

七個很酷的GenAI & LLM技術(shù)性面試問題 七個很酷的GenAI & LLM技術(shù)性面試問題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內(nèi)容,請訪問:51CTOAI.x社區(qū)https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同于互聯(lián)網(wǎng)上隨處可見的傳統(tǒng)問題庫,這些問題需要跳出常規(guī)思維。大語言模型(LLM)在數(shù)據(jù)科學、生成式人工智能(GenAI)和人工智能領(lǐng)域越來越重要。這些復雜的算法提升了人類的技能,并在諸多行業(yè)中推動了效率和創(chuàng)新性的提升,成為企業(yè)保持競爭力的關(guān)鍵。LLM的應用范圍非常廣泛,它可以用于自然語言處理、文本生成、語音識別和推薦系統(tǒng)等領(lǐng)域。通過學習大量的數(shù)據(jù),LLM能夠生成文本

微調(diào)真的能讓LLM學到新東西嗎:引入新知識可能讓模型產(chǎn)生更多的幻覺 微調(diào)真的能讓LLM學到新東西嗎:引入新知識可能讓模型產(chǎn)生更多的幻覺 Jun 11, 2024 pm 03:57 PM

大型語言模型(LLM)是在巨大的文本數(shù)據(jù)庫上訓練的,在那里它們獲得了大量的實際知識。這些知識嵌入到它們的參數(shù)中,然后可以在需要時使用。這些模型的知識在訓練結(jié)束時被“具體化”。在預訓練結(jié)束時,模型實際上停止學習。對模型進行對齊或進行指令調(diào)優(yōu),讓模型學習如何充分利用這些知識,以及如何更自然地響應用戶的問題。但是有時模型知識是不夠的,盡管模型可以通過RAG訪問外部內(nèi)容,但通過微調(diào)使用模型適應新的領(lǐng)域被認為是有益的。這種微調(diào)是使用人工標注者或其他llm創(chuàng)建的輸入進行的,模型會遇到額外的實際知識并將其整合

知識圖譜檢索增強的GraphRAG(基于Neo4j代碼實現(xiàn)) 知識圖譜檢索增強的GraphRAG(基于Neo4j代碼實現(xiàn)) Jun 12, 2024 am 10:32 AM

圖檢索增強生成(GraphRAG)正逐漸流行起來,成為傳統(tǒng)向量搜索方法的有力補充。這種方法利用圖數(shù)據(jù)庫的結(jié)構(gòu)化特性,將數(shù)據(jù)以節(jié)點和關(guān)系的形式組織起來,從而增強檢索信息的深度和上下文關(guān)聯(lián)性。圖在表示和存儲多樣化且相互關(guān)聯(lián)的信息方面具有天然優(yōu)勢,能夠輕松捕捉不同數(shù)據(jù)類型間的復雜關(guān)系和屬性。而向量數(shù)據(jù)庫則處理這類結(jié)構(gòu)化信息時則顯得力不從心,它們更專注于處理高維向量表示的非結(jié)構(gòu)化數(shù)據(jù)。在RAG應用中,結(jié)合結(jié)構(gòu)化化的圖數(shù)據(jù)和非結(jié)構(gòu)化的文本向量搜索,可以讓我們同時享受兩者的優(yōu)勢,這也是本文將要探討的內(nèi)容。構(gòu)

Plaud 推出 NotePin AI 可穿戴錄音機,售價 169 美元 Plaud 推出 NotePin AI 可穿戴錄音機,售價 169 美元 Aug 29, 2024 pm 02:37 PM

Plaud Note AI 錄音機(亞馬遜有售,售價 159 美元)背后的公司 Plaud 宣布推出一款新產(chǎn)品。該設(shè)備被稱為 NotePin,被描述為人工智能記憶膠囊,與 Humane AI Pin 一樣,它是可穿戴的。 NotePin 是

Google AI 為開發(fā)者發(fā)布 Gemini 1.5 Pro 和 Gemma 2 Google AI 為開發(fā)者發(fā)布 Gemini 1.5 Pro 和 Gemma 2 Jul 01, 2024 am 07:22 AM

從 Gemini 1.5 Pro 大語言模型 (LLM) 開始,Google AI 已開始為開發(fā)人員提供擴展上下文窗口和節(jié)省成本的功能。以前可通過等候名單獲得完整的 200 萬個代幣上下文窗口

See all articles