国产98在线 | 日韩,成人欧美一区二区三区黑人

埃隆·馬斯克（Elon Musk）和他的格羅克（Grok）團(tuán)隊(duì)迄今為止以最新和最佳的模式回來了：Grok 4。僅3個(gè)月前，這支專家團(tuán)隊(duì)推出了Grok 3，該車型仍與OpenAI，Gemini和Anthropic的巨人競(jìng)爭(zhēng)。但是有了Grok 4，Elon Musk正在為這些公司賺錢。 Grok 4具有超人級(jí)別的思維和推理能力。借助工具和代理商，它可以更好地了解個(gè)人和專業(yè)的世界。在此博客中，我們將探討有關(guān)Grok 4的所有內(nèi)容：它的功能，功能，基準(zhǔn)，最後，我們將對(duì)其進(jìn)行測(cè)試。

讓我們吧！

什麼是Grok 4？
關(guān)鍵功能
可用性
如何訪問Grok 4？
Grok 4在行動(dòng)中
- 任務(wù)1：解決博士級(jí)問題
- 任務(wù)2：進(jìn)行多步研究
- 任務(wù)3：用上下文進(jìn)行編碼
Grok 4基準(zhǔn)
Arc-Agi
自動(dòng)攤板
Grok 4的應(yīng)用
grok 3與Grok 4
結(jié)論

什麼是Grok 4？

Grok 4是Elon Musk公司X.AI的最新多模式大型語言模型（LLM）。它的培訓(xùn)數(shù)據(jù)比Grok 2（X.AI的第一個(gè)公共模型）高100倍，增強(qiáng)學(xué)習(xí)計(jì)算的10倍是任何其他可用模型。 Grok 4具有256K上下文窗口，實(shí)時(shí)數(shù)據(jù)搜索，高級(jí)語音功能，代理能力和智能，它們緊密模仿了人類行為。

Grok 4有兩個(gè)版本：

普通版本：這是Grok 4 llm的單一代理版本。它具有代理行為，其中一個(gè)代理可以解決您的問題。該模型對(duì)於涉及語言，搜索，編碼等的日常任務(wù)很有用。它可以在X.AI和通過API提供的開發(fā)人員提供的超級(jí)Grok計(jì)劃中提供。
Grok 4重：這是Grok 4的多代理版本。當(dāng)提示時(shí)，多個(gè)代理商會(huì)進(jìn)行協(xié)作，比較結(jié)果並產(chǎn)生最佳結(jié)果。它是複雜推理，深入分析和研究的理想選擇。它僅在X.AI的Super Grok重型計(jì)劃下可用。

關(guān)鍵功能

這是一種學(xué)術(shù)狂熱： Grok 4閃耀著人類的最後考試（HLE）基準(zhǔn)。在跨越數(shù)學(xué)，物理，化學(xué)，人文科學(xué)和計(jì)算機(jī)科學(xué)的2500個(gè)問題中，它在一半的角度得分了！當(dāng)前大多數(shù)模型僅管理低單位數(shù)字，這表明Grok 4可以解決跨學(xué)科的博士學(xué)位問題。
工具使用： Grok 4已接受了工具使用的本地培訓(xùn)，表現(xiàn)優(yōu)於Grok 3的研究工具。通過廣泛的縮放和計(jì)算，它甚至可以解決最嚴(yán)重的基於文本的問題。
它的設(shè)計(jì)是代理：Grok 4型號(hào)是代理。借助單身和多個(gè)代理在幕後工作，這些模型可以迅速執(zhí)行多個(gè)任務(wù)。
它增強(qiáng)的語音功能： Grok 4型號(hào)具有高級(jí)語音模式，與Open AI和Gemini的其他模型相比，它聽起來更個(gè)人化和平靜。它帶有一個(gè)新的聲音“夏娃” - 英國發(fā)言人，可以迅速從唱歌轉(zhuǎn)變?yōu)楦`竊私語，模仿人類的情感。隨之而來的是，與以前的版本相比，其最新語音模式的延遲減少了一半。
它可以經(jīng)營一家業(yè)務(wù)：Grok 4型號(hào)可以像人類一樣推理，並採取決定性的決策，策略和計(jì)劃，以使他們能夠經(jīng)營業(yè)務(wù)。實(shí)際上，它們可能也可以幫助您獲利。

當(dāng)涉及到多模式功能，尤其是圖像分析和發(fā)電的功能時(shí)，Grok 4模型目前的性能比O3，Gemini 2.4 Pro，Claude 4等的頂級(jí)模型較差。儘管在未來幾天（或幾週）中，這可能會(huì)大大改善。

可用性

Grok 4在這裡，真是太好了！ - 分析Vidhya

Super Grok：包括Grok 4和Grok 3。具有128K令牌窗口，語音和視覺功能。價(jià)格為$ 30/月或每年300美元。
Super Grok Heavy：包括Grok 4 Heavy和Grok 4。提供了增強(qiáng)的上下文窗口，並儘早訪問新功能。該高級(jí)計(jì)劃的價(jià)格為每月300美元或每年3,000美元，與OpenAI和Google的高級(jí)層相當(dāng)。

如何訪問Grok 4？

在聊天中訪問Grok 4 ：

前往gro k 。
登錄到您的超級(jí)Grok帳戶。
在屏幕中間的聊天框中，單擊聊天框角落的小型模型下拉菜單。
選擇“ Grok 4”模型

Grok 4在這裡，真是太好了！ - 分析Vidhya

完成後，您可以開始。

在API上訪問Grok 4 ：

轉(zhuǎn)到https://x.ai/api，然後單擊API控制臺(tái)登錄。
單擊API鍵。
單擊“創(chuàng)建API鍵”，然後為您的API鍵提供一個(gè)名稱，然後單擊“保存”以生成Grok API鍵。
現(xiàn)在，要使用API端點(diǎn)訪問GROK 4，請(qǐng)?jiān)L問https://docs.x.ai/docs/models/grok-4-0709 ，並使用以下代碼片段訪問它。

來自xai_sdk導(dǎo)入客戶端

來自XAI_SDK.CHAT導(dǎo)入用戶，系統(tǒng)

客戶端=客戶端（

api_host =“ api.x.ai”，

api_key =”<your_xai_api_key_here> “

）
chat = client.chat.create（model ='grok-4-0709'，溫度= 0）

chat.append（系統(tǒng)（“您是博士學(xué)位級(jí)數(shù)學(xué)家?！保?
chat.append（用戶（“什麼是2 2？”））

響應(yīng)= chat.sample（）

打?。憫?yīng)。包含）</your_xai_api_key_here>

Grok 4在行動(dòng)中

現(xiàn)在，我們已經(jīng)閱讀了有關(guān)Grok 4的所有內(nèi)容，現(xiàn)在該看看它是否會(huì)引起拳頭。為此，我們將在以下任務(wù)上測(cè)試Grok 4：

博士級(jí)問題以測(cè)試他們的推理能力
多步研究以檢查其代理功能
用上下文編碼以測(cè)試其實(shí)際使用功能

讓我們開始。

任務(wù)1：解決博士級(jí)問題

Grok 4在這裡，真是太好了！ - 分析Vidhya

結(jié)果：

分析：

Grok 4逐步解決了問題，並按順序解決了每個(gè)問題。它正確解釋了提示，通過解決方案進(jìn)行了推理，甚至在詢問圖形時(shí)甚至生成了代碼?？梢暬菧?zhǔn)確的，並與解釋保持一致。

任務(wù)2：進(jìn)行多步研究

提示： “告訴我有關(guān)Analytics Vidhya在X上的最新帖子的信息，並在其網(wǎng)站上找到最新的博客 - 總結(jié)它們的信息，每條5行。 ”

結(jié)果：

分析：

它的執(zhí)行比我想像的要好。任務(wù)本身並不困難，但是我看到如此眾多的模型在日期掙扎以準(zhǔn)確獲取最新信息。 Grok 4只花了幾秒鐘。它瀏覽了網(wǎng)站和Twitter頁面，找到了最新信息，然後將其推理給了我每個(gè)上的5條混凝土線。

您可以在我們的博客頁面或X頁面上自己檢查。

任務(wù)3：用上下文進(jìn)行編碼

提示：“合併所有這些PDF並創(chuàng)建一個(gè)JSON文件。”

文件

結(jié)果：

Grok 4在這裡，真是太好了！ - 分析Vidhya

分析：

它可以很好地從幾個(gè)文件中列出內(nèi)容，然後開始幻覺。我在結(jié)果中得到的只是＃流。所以這令人失望。

提示2：“將以下代碼轉(zhuǎn)換為python並反應(yīng)”

代碼文件

結(jié)果：

分析：

Grok 4既快速又非常有效，它很快就在Python中生成了代碼，並且實(shí)際上在我的提示中使用了“ React”單詞理解這一點(diǎn)。我期待看到應(yīng)用程序前端的代碼。然後，它還介紹了每個(gè)部分的代碼，使我可以簡單地將所需的部分複制在需要時(shí)。

Grok 4基準(zhǔn)

Grok 4幾乎符合我們通?？吹乃谢鶞?zhǔn)。這是一個(gè)摘要：

Grok 4在這裡，真是太好了！ - 分析Vidhya

GPQA（研究生級(jí)物理問題檔案庫） ：這款基準(zhǔn)測(cè)試專家專家級(jí)科學(xué)知識(shí)。在這個(gè)基準(zhǔn)測(cè)試中，Grok 4以87-88％的成績，領(lǐng)先的競(jìng)爭(zhēng)對(duì)手，例如GPT-4O和Claude 3.5十四行詩。
AIME（美國邀請(qǐng)賽數(shù)學(xué)考試）2025 ：該基準(zhǔn)比較數(shù)學(xué)能力。 Grok 4分95％，一些報(bào)告聲稱高達(dá)100％的優(yōu)勢(shì)。這超過了先前的SOTA模型。
SWE-Bench（軟件工程基準(zhǔn)）：它評(píng)估編碼和現(xiàn)實(shí)軟件問題解決方案（Grok 4 Code variant）。得分範(fàn)圍為72-75％，明顯領(lǐng)先於O3-Mini（高）和Claude 3.5十四行詩。
其他數(shù)學(xué)和推理基準(zhǔn)： Grok 4主導(dǎo)了我們數(shù)學(xué)奧林匹克運(yùn)動(dòng)會(huì)和哈佛大學(xué) - 米特?cái)?shù)學(xué)錦標(biāo)賽，並進(jìn)行了類似的測(cè)試，對(duì)先前的SOTA進(jìn)行了巨大的收益。它還在一般推理和博士學(xué)位跨領(lǐng)域的任務(wù)中表現(xiàn)出色。

這些是測(cè)試任何最新LLM的通常基準(zhǔn)。 Grok 4還帶有其記分卡上的兩個(gè)新基準(zhǔn)：Arc-Agi和自動(dòng)售貨機(jī)。

Arc-Agi

該基準(zhǔn)測(cè)試可以檢查模型與實(shí)現(xiàn)AGI或人工通用情報(bào)的距離。這是通過在不同的ARC風(fēng)格任務(wù)上得分的，這是一系列具有挑戰(zhàn)性的難題。

Grok 4在這裡，真是太好了！ - 分析Vidhya

Grok 4佔(zhàn)據(jù)了第一名，打破了10％的障礙，這意味著該模型已採取了第一步。 Claude Opus 4型號(hào)接下來，然後出現(xiàn)O3（高），O4-Mini（高）等！看來，Grok 4基本上比其他同齡人更接近AGI。

自動(dòng)攤板

該基準(zhǔn)測(cè)試了代理AI系統(tǒng)，以測(cè)量這些代理可以與真實(shí)的電子商務(wù)網(wǎng)站互動(dòng)以完成複雜任務(wù)的能力。它旨在強(qiáng)調(diào)測(cè)試現(xiàn)實(shí)世界的決策，計(jì)劃和UI相互作用。

Grok 4在這方面也很出色，擊敗了一些人，Claude 4，Opus和Gemini 2.5 Pro和O3。

Grok 4在這裡，真是太好了！ - 分析Vidhya

實(shí)際上，對(duì)Grok 4進(jìn)行了測(cè)試，以運(yùn)行實(shí)際的自動(dòng)售貨機(jī)來測(cè)試這一點(diǎn)，並在此過程中產(chǎn)生了巨額利潤。 Anthropic幾天前就發(fā)布了有關(guān)Claude運(yùn)行自動(dòng)售貨機(jī)的類似的東西，在那兒，他們提到該機(jī)器損失了！

Grok 4的應(yīng)用

Grok 4具有一系列功能和性能基準(zhǔn)，以此為基礎(chǔ)：

實(shí)時(shí)社交媒體互動(dòng)：它直接集成到X（以前為Twitter）中，作為聊天機(jī)器人。它可用於生成模因，帖子，民意調(diào)查，摘要或情感分析。
高級(jí)研究：它可以解決博士學(xué)位級(jí)問題，從而表明它可以真正有助於數(shù)學(xué)，物理和工程學(xué)的先進(jìn)研究。
業(yè)務(wù)計(jì)劃：它可以幫助制定策略並執(zhí)行高級(jí)業(yè)務(wù)分析，以幫助您獲得可行的見解。
編碼和寫作：Grok 4具有出色的SWE基準(zhǔn)和代理功能，因此它可以承擔(dān)許多編碼任務(wù)並執(zhí)行效果很好。

grok 3與Grok 4

儘管Grok 3因種族主義評(píng)論而引起了人們的關(guān)注，但Grok 4，該團(tuán)隊(duì)不僅要進(jìn)行損害控制。 Grok 4從一開始就集成了工具使用，Grok團(tuán)隊(duì)計(jì)劃將其升級(jí)到“商業(yè)等級(jí)”功能，從而幫助您解決實(shí)際的現(xiàn)實(shí)世界中的問題。除此之外，我們可以期望Grok 4很快能夠掌握視頻和圖像分析和一代，這使我們更接近體驗(yàn)可玩的AI生成的視頻遊戲和完全AI生成的節(jié)目。

結(jié)論

Grok 4很重要嗎？確實(shí)。在一個(gè)感覺越來越飽和的市場(chǎng)中，它是新鮮空氣的呼吸，為前輩提供了真正的改進(jìn)。隨著實(shí)際用例的出現(xiàn)，似乎有望幫助解決許多日常問題。標(biāo)準(zhǔn)和重型變體都是代理，快速且在推理方面明顯更好。雖然有些人認(rèn)為它是為AGI建造的，但我相信仍然有時(shí)間和增長空間。 Grok 3也以巨大的希望推出，但後來脫離了軌道。有了這個(gè)新版本，這僅僅是開始，仍然需要進(jìn)行許多測(cè)試才能了解其真正的潛力。

以上是Grok 4在這裡，它簡直太棒了！ - 分析Vidhya的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn