国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技周邊 人工智能 為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

Jul 25, 2024 am 06:42 AM
人工智能 數(shù)據(jù)集 語(yǔ)言模型 大模型 理論

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

Herausgeber |. ScienceAI

Frage- und Antwortdatens?tze (QA) spielen eine wichtige Rolle bei der F?rderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datens?tze k?nnen nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die F?higkeiten gro?er Sprachmodelle (LLMs) bewerten, insbesondere die F?higkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen.

Obwohl es derzeit viele wissenschaftliche QS-Datens?tze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datens?tze immer noch einige M?ngel auf.

Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schr?nken jedoch den Antwortauswahlbereich des Modells ein und k?nnen die F?higkeit des Modells, wissenschaftliche Fragen zu beantworten, nicht vollst?ndig testen. Im Gegensatz dazu kann die offene Fragebeantwortung (openQA) die F?higkeiten des Modells umfassender bewerten, es fehlen jedoch geeignete Bewertungsmetriken.

Zweitens stammen viele Inhalte bestehender Datens?tze aus Lehrbüchern auf Universit?tsniveau und darunter, was es schwierig macht, die hochgradigen Wissensspeicherf?higkeiten von LLM in tats?chlichen akademischen Forschungs- oder Produktionsumgebungen zu bewerten.

Drittens basiert die Erstellung dieser Benchmark-Datens?tze auf menschlichen Expertenkommentaren.

Die Bew?ltigung dieser Herausforderungen ist für den Aufbau eines umfassenderen QA-Datensatzes von entscheidender Bedeutung und tr?gt auch zu einer genaueren Bewertung des wissenschaftlichen LLM bei.

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

Abbildung: SciQAG-Framework zur Generierung hochwertiger wissenschaftlicher Frage- und Antwortpaare aus wissenschaftlicher Literatur.

Zu diesem Zweck haben das Argonne National Laboratory in den Vereinigten Staaten, das Team von Professor Ian Foster von der University of Chicago (Gordon-Bell-Preistr?ger 2002), das UNSW AI4Science-Team von Professor Bram Hoex von der University of New South Wales, Australien, das AI4Science-Unternehmen GreenDynamics und das Team von Professor Jie Chunyu von der City University of Hong Kong schlugen gemeinsam SciQAG vor, das erste neuartige Framework, das automatisch hochwertige wissenschaftliche offene Frage- und Antwortpaare aus gro?en wissenschaftlichen Literaturkorpora auf der Grundlage gro?er Sprachmodelle generiert (LLM).

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

Papierlink:https://arxiv.org/abs/2405.09939

Github-Link:https://github.com/MasterAI-EAM/SciQAG

Basierend auf SciQAG haben die Forscher erstellt SciQAG-24D, ein umfangreicher, hochwertiger, offener wissenschaftlicher QA-Datensatz, enth?lt 188.042 QA-Paare, die aus 22.743 wissenschaftlichen Arbeiten in 24 wissenschaftlichen Bereichen extrahiert wurden, und soll der Feinabstimmung von LLM und der Bewertung wissenschaftlicher Probleme dienen. L?sungsf?higkeiten.

Experimente zeigen, dass die Feinabstimmung von LLMs am SciQAG-24D-Datensatz ihre Leistung bei der Beantwortung offener Fragen und bei wissenschaftlichen Aufgaben erheblich verbessern kann.

Der Datensatz, das Modell und der Evaluierungscode wurden als Open Source bereitgestellt (https://github.com/MasterAI-EAM/SciQAG), um die gemeinsame Entwicklung offener wissenschaftlicher Fragen und Antworten durch die AI for Science-Community zu f?rdern.

SciQAG-Framework mit SciQAG-24D-Benchmark-Datensatz

SciQAG besteht aus einem QA-Generator und einem QA-Evaluator mit dem Ziel, schnell verschiedene offene Frage- und Antwortpaare auf der Grundlage wissenschaftlicher Literatur in gro?em Ma?stab zu generieren. Zun?chst wandelt der Generator wissenschaftliche Arbeiten in Frage-Antwort-Paare um, anschlie?end filtert der Bewerter die Frage-Antwort-Paare heraus, die nicht den Qualit?tsstandards entsprechen, und erh?lt so einen qualitativ hochwertigen wissenschaftlichen Frage-Antwort-Datensatz.

QA-Generator

Die Forscher entwarfen durch vergleichende Experimente eine zweistufige Eingabeaufforderung (Prompt), die es LLM erm?glichte, zun?chst Schlüsselw?rter zu extrahieren und dann Frage- und Antwortpaare basierend auf den Schlüsselw?rtern zu generieren.

Da der generierte Frage- und Antwortdatensatz den ?geschlossenen Buch“-Modus annimmt, wird das Originalpapier nicht bereitgestellt und konzentriert sich nur auf das extrahierte wissenschaftliche Wissen selbst. Die Eingabeaufforderung erfordert, dass die generierten Frage- und Antwortpaare nicht darauf angewiesen sind auf oder verweisen Sie auf die eindeutigen Informationen in der Originalarbeit (z. B. ist keine moderne Nomenklatur zul?ssig, wie ?diese/diese Arbeit“, ?diese/diese Forschung“ usw.) oder stellen Sie Fragen zu den Tabellen/Bildern in der Artikel).

Um Leistung und Kosten in Einklang zu bringen, entschieden sich die Forscher für die Feinabstimmung eines Open-Source-LLM als Generator. SciQAG-Benutzer k?nnen je nach ihren eigenen Umst?nden ein beliebiges Open-Source- oder Closed-Source-LLM als Generator w?hlen, indem sie entweder Feinabstimmung oder Prompt-Word-Engineering nutzen.

QA-Evaluator

Der Evaluator wird verwendet, um zwei Zwecke zu erfüllen: (1) Bewerten der Qualit?t generierter Frage- und Antwortpaare; (2) Verwerfen von Frage- und Antwortpaaren geringer Qualit?t basierend auf festgelegten Kriterien.

Forscher haben einen umfassenden Bewertungsindex RACAR entwickelt, der aus fünf Dimensionen besteht: Relevanz, Agnostizismus, Vollst?ndigkeit, Genauigkeit und Angemessenheit.

In dieser Studie verwendeten die Forscher GPT-4 direkt als QA-Evaluator, um die generierten QA-Paare gem?? RACAR mit einer Bewertungsstufe von 1–5 zu bewerten (1 bedeutet inakzeptabel, 5 bedeutet v?llig akzeptabel).

Wie in der Abbildung gezeigt, verwendeten zwei Dom?nenexperten zur Messung der Konsistenz zwischen GPT-4 und manueller Bewertung die RACAR-Metrik, um eine manuelle Bewertung für 10 Artikel (insgesamt 100 Frage- und Antwortpaare) durchzuführen. Benutzer k?nnen je nach Bedarf jedes Open-Source- oder Closed-Source-LLM als Evaluator w?hlen.

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

圖示:GPT-4 分配分?jǐn)?shù)與專(zhuān)家標(biāo)注分?jǐn)?shù)之間的 Spearman 和 Pearson 相關(guān)性。

SciQAG 框架的運(yùn)用

該研究從Web of Science (WoS)核心合集數(shù)據(jù)庫(kù)中獲取了24類(lèi)高引用論文共計(jì)22,743篇,來(lái)自材料科學(xué)、化學(xué)、物理、能源等領(lǐng)域,旨在構(gòu)建一個(gè)可靠、豐富、平衡且具有代表性的科學(xué)知識(shí)來(lái)源。

為了微調(diào)開(kāi)源LLM以形成QA生成器,研究人員從論文集合中隨機(jī)選擇426篇論文作為輸入,通過(guò)提示GPT-4生成4260個(gè)種子QA對(duì)。

然后,研究人員在這些種子數(shù)據(jù)上微調(diào)了Vicuna-7b模型,生成提示被轉(zhuǎn)換為指令,論文內(nèi)容填充輸入字段,輸出為生成的QA對(duì)

,以標(biāo)準(zhǔn)監(jiān)督的方式訓(xùn)練模型生成實(shí)例輸出。

使用經(jīng)過(guò)訓(xùn)練的QA生成器在剩余論文上進(jìn)行推理,共生成227,430個(gè)QA對(duì)(包括種子QA對(duì))。從每個(gè)類(lèi)別中抽取50篇論文(共1,200篇),使用GPT-4計(jì)算每個(gè)生成的QA對(duì)的RACAR分?jǐn)?shù),過(guò)濾掉任一維分?jǐn)?shù)低于3的QA對(duì)作為測(cè)試集。

對(duì)于余下的QA對(duì),則使用基于規(guī)則的方法過(guò)濾掉所有包含論文特有信息的問(wèn)答對(duì)以形成訓(xùn)練集。

SciQAG-24D 基準(zhǔn)數(shù)據(jù)集

基于以上,研究人員建立了開(kāi)放式科學(xué) QA 基準(zhǔn)數(shù)據(jù)集 SciQAG-24D,篩選后的訓(xùn)練集包括 21,529 篇論文和 179,511 個(gè) QA 對(duì),而篩選后的測(cè)試集包含 1,199 篇論文和 8,531 個(gè) QA 對(duì)。

統(tǒng)計(jì)顯示,99.15%回答中的數(shù)據(jù)來(lái)自原論文,87.29%的問(wèn)題相似度在0.3以下,且回答對(duì)原文內(nèi)容的覆蓋度達(dá)到78.26%。

該數(shù)據(jù)集應(yīng)用廣泛:訓(xùn)練集可用于微調(diào) LLM,為其注入科學(xué)知識(shí);測(cè)試集可?于評(píng)估LLM在某特定或整體科學(xué)領(lǐng)域中的開(kāi)放式QA任務(wù)表現(xiàn)。由于測(cè)試集較大,因此它也可以作為高質(zhì)量數(shù)據(jù)用于微調(diào)。

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

圖示:SciQAG-24D數(shù)據(jù)集訓(xùn)練和測(cè)試中不同類(lèi)別的文章比例。

實(shí)驗(yàn)結(jié)果

研究人員進(jìn)行了全面的實(shí)驗(yàn)以對(duì)比不同語(yǔ)言模型之間的科學(xué)問(wèn)答性能差異及探索微調(diào)的影響。

零樣本設(shè)定(zero-shot setting)?

研究人員使用 SciQAG-24D 中的部分測(cè)試集對(duì)五個(gè)模型進(jìn)行了零樣本性能對(duì)比。其中兩個(gè)是開(kāi)源的 LLM:LLaMA1 (7B) 和 LLaMA2-chat (7B),其余的是閉源 LLM 。

通過(guò)API調(diào)用:GPT3.5 (gpt-3.5-turbo)、GPT-4 (gpt-4-1106-preview) 和 Claude 3 (claude-3-opus-20240229)。每個(gè)模型在測(cè)試中被提示了 1000 個(gè)問(wèn)題,并通過(guò) CAR 指標(biāo)(由RACAR指標(biāo)調(diào)整而來(lái),只關(guān)注回答評(píng)估)評(píng)估其輸出,以衡量其在回答科學(xué)研究問(wèn)題方面的零樣本能力。

如圖所示,在所有模型中,GPT-4 在完備性(4.90)和合理性(4.99)方面得分最高,而 Claude 3 的準(zhǔn)確性得分最高(4.95)。GPT-3.5 的表現(xiàn)也非常出色,在所有指標(biāo)上的得分都緊隨 GPT-4 和 Claude 3 之后。

值得注意的是,LLaMA1 在所有三個(gè)維度上的得分都最低。相比之下,LLaMA2-chat 模型雖然得分不如 GPT 模型高,但在所有指標(biāo)上都比原來(lái)的 LLaMA1 有了大幅提高。結(jié)果表明了商用LLM在回答科學(xué)問(wèn)題方面的卓越性能,同時(shí)開(kāi)源模型(如 LLaMA2-chat)也在這個(gè)方面取得了顯著進(jìn)步。

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

圖示:SciQAG-24D上的零樣本測(cè)試和微調(diào)測(cè)試(LLAMA1-QA)

微調(diào)設(shè)定(fine-tuning setting)

研究人員選擇了零樣本性能最差的 LLaMA1 在SciQAG-24D的訓(xùn)練集上進(jìn)行微調(diào),以獲得 LLaMA1-QA。通過(guò)三個(gè)實(shí)驗(yàn),研究人員證明 SciQAG-24D 可以作為有效的微調(diào)數(shù)據(jù),提高下游科學(xué)任務(wù)的性能:

(a)LLaMA-QA與原始 LLaMA1的在未見(jiàn)過(guò)的SciQAG-24D測(cè)試集上的表現(xiàn)比較。

如上圖所示,與原始 LLaMA1相比,LLaMA1-QA的性能有了顯著提高(完整性提高了13%,準(zhǔn)確性和合理性提高了 超過(guò)30%)。這表明LLaMA1已經(jīng)從SciQAG-24D的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了回答科學(xué)問(wèn)題的邏輯,并內(nèi)化了一些科學(xué)知識(shí)。

(b)在 SciQ(一個(gè)科學(xué) MCQ 基準(zhǔn))上的微調(diào)表現(xiàn)比較。

下表的第一行顯示LLaMA1-QA比LLaMA1稍有進(jìn)步(+1%)。根據(jù)觀察,微調(diào)也增強(qiáng)了模型的指令跟隨能力:無(wú)法解析輸出的概率從LLaMA1的 4.1%降至LLaMA1-QA的 1.7%。

(c)在多種科學(xué)任務(wù)上的微調(diào)表現(xiàn)比較。

評(píng)估指標(biāo)上,分類(lèi)任務(wù)使用F1-score,回歸任務(wù)使用MAE,轉(zhuǎn)換任務(wù)使用KL散度。如下表所示,科學(xué)任務(wù)中LLaMA1-QA與LLaMA1模型相比有明顯改善。

最明顯的改進(jìn)體現(xiàn)在回歸任務(wù)中,MAE從463.96降至185.32。這些發(fā)現(xiàn)表明,在訓(xùn)練過(guò)程中加入QA對(duì)可以增強(qiáng)模型學(xué)習(xí)和應(yīng)用科學(xué)知識(shí)的能力,從而提高其在下游預(yù)測(cè)任務(wù)中的表現(xiàn)。

令人驚訝的是,與專(zhuān)門(mén)設(shè)計(jì)的具有特征的機(jī)器學(xué)習(xí)模型相比,LLM 可以在某些任務(wù)中取得相當(dāng)甚至超越它們的結(jié)果。例如,在帶隙任務(wù)中,雖然LLaMA1-QA 的表現(xiàn)不如 MODNet 等模型(0.3327),但它已經(jīng)超過(guò)了AMMExpress v2020(0.4161)。

在多樣性任務(wù)中,LLaMA1-QA 的表現(xiàn)優(yōu)于深度學(xué)習(xí)基線(xiàn)(0.3198)。這些研究結(jié)果表明,LLM在特定科學(xué)任務(wù)中具有巨大潛力。

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架

圖示:LLaMA1和LLaMA1-QA在SciQ和科學(xué)任務(wù)上的微調(diào)表現(xiàn)(M代表多項(xiàng)選擇,C代表分類(lèi),R代表回歸,T代表轉(zhuǎn)換)

總結(jié)與展望

(1)SciQAG是一個(gè)從科學(xué)文獻(xiàn)中生成QA對(duì)的框架,結(jié)合用于評(píng)估和篩選QA對(duì)的RACAR指標(biāo),可高效地為資源匱乏的科學(xué)領(lǐng)域生成大量基于知識(shí)的QA數(shù)據(jù)。

(2)團(tuán)隊(duì)生成了一個(gè)包含188,042個(gè)QA對(duì)的綜合開(kāi)源科學(xué)QA數(shù)據(jù)集,稱(chēng)為SciQAG-24D。訓(xùn)練集用于微調(diào)LLM,測(cè)試集評(píng)估LLM在開(kāi)放式閉卷科學(xué)QA任務(wù)上的表現(xiàn)。

對(duì)SciQAG-24D測(cè)試集上幾個(gè)LLM的零樣本性能進(jìn)行了比較,并在SciQAG-24D訓(xùn)練集上微調(diào)了LLaMA1,得到了LLaMA1-QA。這種微調(diào)顯著提高了其在多個(gè)科學(xué)任務(wù)上的表現(xiàn)。

(3)研究表明,LLM在科學(xué)任務(wù)中具有潛?,LLaMA1-QA的結(jié)果可以達(dá)到甚?超過(guò)機(jī)器學(xué)習(xí)基線(xiàn)的?平。這證明了SciQAG-24D的多方面效用,表明將科學(xué)QA數(shù)據(jù)納入訓(xùn)練過(guò)程可以增強(qiáng)LLM的學(xué)習(xí)和應(yīng)用科學(xué)知識(shí)的能力。

以上是為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線(xiàn)人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程
1601
29
PHP教程
1502
276
突破傳統(tǒng)缺陷檢測(cè)的界限,\'Defect Spectrum\'首次實(shí)現(xiàn)超高精度豐富語(yǔ)義的工業(yè)缺陷檢測(cè)。 突破傳統(tǒng)缺陷檢測(cè)的界限,\'Defect Spectrum\'首次實(shí)現(xiàn)超高精度豐富語(yǔ)義的工業(yè)缺陷檢測(cè)。 Jul 26, 2024 pm 05:38 PM

在現(xiàn)代制造業(yè)中,精準(zhǔn)的缺陷檢測(cè)不僅是保證產(chǎn)品質(zhì)量的關(guān)鍵,更是提升生產(chǎn)效率的核心。然而,現(xiàn)有的缺陷檢測(cè)數(shù)據(jù)集常常缺乏實(shí)際應(yīng)用所需的精確度和語(yǔ)義豐富性,導(dǎo)致模型無(wú)法識(shí)別具體的缺陷類(lèi)別或位置。為了解決這一難題,由香港科技大學(xué)廣州和思謀科技組成的頂尖研究團(tuán)隊(duì),創(chuàng)新性地開(kāi)發(fā)出了“DefectSpectrum”數(shù)據(jù)集,為工業(yè)缺陷提供了詳盡、語(yǔ)義豐富的大規(guī)模標(biāo)注。如表一所示,相比其他工業(yè)數(shù)據(jù)集,“DefectSpectrum”數(shù)據(jù)集提供了最多的缺陷標(biāo)注(5438張缺陷樣本),最細(xì)致的缺陷分類(lèi)(125種缺陷類(lèi)別

英偉達(dá)對(duì)話(huà)模型ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K 英偉達(dá)對(duì)話(huà)模型ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K Jul 26, 2024 am 08:40 AM

開(kāi)放LLM社區(qū)正是百花齊放、競(jìng)相爭(zhēng)鳴的時(shí)代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現(xiàn)優(yōu)良的模型。但是,相比于以GPT-4-Turbo為代表的專(zhuān)有大模型,開(kāi)放模型在很多領(lǐng)域依然還有明顯差距。在通用模型之外,也有一些專(zhuān)精關(guān)鍵領(lǐng)域的開(kāi)放模型已被開(kāi)發(fā)出來(lái),比如用于編程和數(shù)學(xué)的DeepSeek-Coder-V2、用于視覺(jué)-語(yǔ)言任務(wù)的InternVL

數(shù)百萬(wàn)晶體數(shù)據(jù)訓(xùn)練,解決晶體學(xué)相位問(wèn)題,深度學(xué)習(xí)方法PhAI登Science 數(shù)百萬(wàn)晶體數(shù)據(jù)訓(xùn)練,解決晶體學(xué)相位問(wèn)題,深度學(xué)習(xí)方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時(shí)至今日,晶體學(xué)所測(cè)定的結(jié)構(gòu)細(xì)節(jié)和精度,從簡(jiǎn)單的金屬到大型膜蛋白,是任何其他方法都無(wú)法比擬的。然而,最大的挑戰(zhàn)——所謂的相位問(wèn)題,仍然是從實(shí)驗(yàn)確定的振幅中檢索相位信息。丹麥哥本哈根大學(xué)研究人員,開(kāi)發(fā)了一種解決晶體相問(wèn)題的深度學(xué)習(xí)方法PhAI,利用數(shù)百萬(wàn)人工晶體結(jié)構(gòu)及其相應(yīng)的合成衍射數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),可以生成準(zhǔn)確的電子密度圖。研究表明,這種基于深度學(xué)習(xí)的從頭算結(jié)構(gòu)解決方案方法,可以以?xún)H2埃的分辨率解決相位問(wèn)題,該分辨率僅相當(dāng)于原子分辨率可用數(shù)據(jù)的10%到20%,而傳統(tǒng)的從頭算方

谷歌AI拿下IMO奧數(shù)銀牌,數(shù)學(xué)推理模型AlphaProof面世,強(qiáng)化學(xué)習(xí) is so back 谷歌AI拿下IMO奧數(shù)銀牌,數(shù)學(xué)推理模型AlphaProof面世,強(qiáng)化學(xué)習(xí) is so back Jul 26, 2024 pm 02:40 PM

對(duì)于AI來(lái)說(shuō),奧數(shù)不再是問(wèn)題了。本周四,谷歌DeepMind的人工智能完成了一項(xiàng)壯舉:用AI做出了今年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽IMO的真題,并且距拿金牌僅一步之遙。上周剛剛結(jié)束的IMO競(jìng)賽共有六道賽題,涉及代數(shù)、組合學(xué)、幾何和數(shù)論。谷歌提出的混合AI系統(tǒng)做對(duì)了四道,獲得28分,達(dá)到了銀牌水平。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬(wàn)美元獎(jiǎng)金的AI數(shù)學(xué)奧林匹克競(jìng)賽(AIMO進(jìn)步獎(jiǎng)),沒(méi)想到7月還沒(méi)過(guò),AI的做題水平就進(jìn)步到了這種水平。IMO上同步做題,做對(duì)了最難題IMO是歷史最悠久、規(guī)模最大、最負(fù)

為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架 為大模型提供全新科學(xué)復(fù)雜問(wèn)答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問(wèn)答(QA)數(shù)據(jù)集在推動(dòng)自然語(yǔ)言處理(NLP)研究發(fā)揮著至關(guān)重要的作用。高質(zhì)量QA數(shù)據(jù)集不僅可以用于微調(diào)模型,也可以有效評(píng)估大語(yǔ)言模型(LLM)的能力,尤其是針對(duì)科學(xué)知識(shí)的理解和推理能力。盡管當(dāng)前已有許多科學(xué)QA數(shù)據(jù)集,涵蓋了醫(yī)學(xué)、化學(xué)、生物等領(lǐng)域,但這些數(shù)據(jù)集仍存在一些不足。其一,數(shù)據(jù)形式較為單一,大多數(shù)為多項(xiàng)選擇題(multiple-choicequestions),它們易于進(jìn)行評(píng)估,但限制了模型的答案選擇范圍,無(wú)法充分測(cè)試模型的科學(xué)問(wèn)題解答能力。相比之下,開(kāi)放式問(wèn)答

SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息,SK海力士今天(8月1日)發(fā)布博文,宣布將出席8月6日至8日,在美國(guó)加利福尼亞州圣克拉拉舉行的全球半導(dǎo)體存儲(chǔ)器峰會(huì)FMS2024,展示諸多新一代產(chǎn)品。未來(lái)存儲(chǔ)器和存儲(chǔ)峰會(huì)(FutureMemoryandStorage)簡(jiǎn)介前身是主要面向NAND供應(yīng)商的閃存峰會(huì)(FlashMemorySummit),在人工智能技術(shù)日益受到關(guān)注的背景下,今年重新命名為未來(lái)存儲(chǔ)器和存儲(chǔ)峰會(huì)(FutureMemoryandStorage),以邀請(qǐng)DRAM和存儲(chǔ)供應(yīng)商等更多參與者。新產(chǎn)品SK海力士去年在

PRO | 為什么基于 MoE 的大模型更值得關(guān)注? PRO | 為什么基于 MoE 的大模型更值得關(guān)注? Aug 07, 2024 pm 07:08 PM

2023年,幾乎AI的每個(gè)領(lǐng)域都在以前所未有的速度進(jìn)化,同時(shí),AI也在不斷地推動(dòng)著具身智能、自動(dòng)駕駛等關(guān)鍵賽道的技術(shù)邊界。多模態(tài)趨勢(shì)下,Transformer作為AI大模型主流架構(gòu)的局面是否會(huì)撼動(dòng)?為何探索基于MoE(專(zhuān)家混合)架構(gòu)的大模型成為業(yè)內(nèi)新趨勢(shì)?大型視覺(jué)模型(LVM)能否成為通用視覺(jué)的新突破?...我們從過(guò)去的半年發(fā)布的2023年本站PRO會(huì)員通訊中,挑選了10份針對(duì)以上領(lǐng)域技術(shù)趨勢(shì)、產(chǎn)業(yè)變革進(jìn)行深入剖析的專(zhuān)題解讀,助您在新的一年里為大展宏圖做好準(zhǔn)備。本篇解讀來(lái)自2023年Week50

準(zhǔn)確率達(dá)60.8%,浙大基于Transformer的化學(xué)逆合成預(yù)測(cè)模型,登Nature子刊 準(zhǔn)確率達(dá)60.8%,浙大基于Transformer的化學(xué)逆合成預(yù)測(cè)模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發(fā)現(xiàn)和有機(jī)合成中的一項(xiàng)關(guān)鍵任務(wù),AI越來(lái)越多地用于加快這一過(guò)程。現(xiàn)有AI方法性能不盡人意,多樣性有限。在實(shí)踐中,化學(xué)反應(yīng)通常會(huì)引起局部分子變化,反應(yīng)物和產(chǎn)物之間存在很大重疊。受此啟發(fā),浙江大學(xué)侯廷軍團(tuán)隊(duì)提出將單步逆合成預(yù)測(cè)重新定義為分子串編輯任務(wù),迭代細(xì)化目標(biāo)分子串以生成前體化合物。并提出了基于編輯的逆合成模型EditRetro,該模型可以實(shí)現(xiàn)高質(zhì)量和多樣化的預(yù)測(cè)。大量實(shí)驗(yàn)表明,模型在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集USPTO-50?K上取得了出色的性能,top-1準(zhǔn)確率達(dá)到60.8%。

See all articles