国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技週邊 人工智慧 Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話

Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話

Apr 07, 2024 am 09:01 AM
騰訊 產(chǎn)業(yè)

AniPortrait 模型是開(kāi)源的,可以自由暢玩。


「小破站鬼畜區(qū)的新質(zhì)生產(chǎn)力工具?!?/section>

近日,騰訊開(kāi)源發(fā)布的一個(gè)新項(xiàng)目在推上獲得瞭如此評(píng)價(jià)。這個(gè)項(xiàng)目是 AniPortrait,可基於音訊和一張參考圖像生成高品質(zhì)動(dòng)畫(huà)人像。

話不說(shuō)多,我們先來(lái)看看可能會(huì)被律師函警告的demo:Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話
##動(dòng)畫(huà)圖片也能輕鬆開(kāi)口說(shuō)話:
Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話
該專(zhuān)案剛上線幾天,就已經(jīng)收穫了廣泛好評(píng):GitHub Star 數(shù)已經(jīng)突破2800。

Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話

下面我們來(lái)看看 AniPortrait 的創(chuàng)新之處。

Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話

  • 論文標(biāo)題:AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
  • #論文網(wǎng)址:https ://arxiv.org/pdf/2403.17694.pdf
  • 程式碼位址:https://github.com/Zejun-Yang/AniPortrait

#AniPortrait

#騰訊新提出的AniPortrait 框架包含兩個(gè)模組:Audio2Lmk 和Lmk2Video。

Audio2Lmk 的作用是提取 Landmark 序列,其能從音訊輸入中捕捉複雜的面部表情和嘴唇動(dòng)作。 Lmk2Video 是利用這種 Landmark 序列來(lái)產(chǎn)生時(shí)間上穩(wěn)定一致的高品質(zhì)人像影片。

圖 1 給出了 AniPortrait 框架的概況。

Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話

Audio2Lmk

對(duì)於一段語(yǔ)音片段序列,這裡的目標(biāo)是預(yù)測(cè)對(duì)應(yīng)的 3D 人臉網(wǎng)格序列和姿勢(shì)序列。

該團(tuán)隊(duì)採(cǎi)用了預(yù)先訓(xùn)練的 wav2vec 來(lái)提取音訊特徵。該模型具有很好的泛化性能,並且可以準(zhǔn)確識(shí)別音訊中的發(fā)音和語(yǔ)調(diào) —— 這對(duì)產(chǎn)生具有真實(shí)感的人臉動(dòng)畫(huà)至關(guān)重要。透過(guò)利用所獲得的魯棒的語(yǔ)音特徵,使用一種包含兩個(gè) fc 層的簡(jiǎn)單架構(gòu)就可以有效地將它們轉(zhuǎn)換成 3D 人臉網(wǎng)格。團(tuán)隊(duì)觀察到,這種簡(jiǎn)單直接的設(shè)計(jì)不僅能確保準(zhǔn)確度,還能提升推理過(guò)程的效率。

在將音訊轉(zhuǎn)換成姿勢(shì)的任務(wù)中,該團(tuán)隊(duì)使用的骨幹網(wǎng)路依然是同樣的 wav2vec。但是,這一個(gè)網(wǎng)路的權(quán)重不同於音訊到網(wǎng)格模組的網(wǎng)路。這是因?yàn)椋鹤藙?shì)與音訊中的節(jié)奏和音調(diào)的關(guān)聯(lián)更加緊密,而音訊到網(wǎng)格任務(wù)關(guān)注的重點(diǎn)(發(fā)音和語(yǔ)調(diào))卻不一樣。為了將先前狀態(tài)的影響納入考量,團(tuán)隊(duì)採(cǎi)用了 transformer 解碼器來(lái)解碼姿勢(shì)序列。在這個(gè)過(guò)程中,該模組使用交叉注意力機(jī)制將音訊特徵整合進(jìn)解碼器。對(duì)於上述兩個(gè)模組,訓(xùn)練所使用的損失函數(shù)都是簡(jiǎn)單的 L1 損失。

在獲得了網(wǎng)格和姿勢(shì)序列之後,再使用透視投影將它們轉(zhuǎn)換為 2D 的人臉 Landmark 序列。這些 Landmark 是下一階段的輸入訊號(hào)。

Lmk2Video

#給定一張參考人像和一個(gè)人臉Landmark 序列,該團(tuán)隊(duì)提出的Lmk2Video 可以創(chuàng)建具有時(shí)間一致性的人像動(dòng)畫(huà)。這個(gè)動(dòng)畫(huà)過(guò)程是將動(dòng)作與 Landmark 序列對(duì)齊,同時(shí)維持與參考影像一致的外觀。該團(tuán)隊(duì)採(cǎi)取的想法是將人像動(dòng)畫(huà)表示成一個(gè)人像幀構(gòu)成的序列。

Lmk2Video 的這個(gè)網(wǎng)路結(jié)構(gòu)設(shè)計(jì)的靈感來(lái)自 AnimateAnyone。其中的骨幹網(wǎng)路是 SD1.5,整合了一個(gè)時(shí)間運(yùn)動(dòng)模組,能有效地將多幀雜訊輸入轉(zhuǎn)換成一個(gè)視訊幀序列。

另外,他們也使用了一個(gè)ReferenceNet,其同樣採(cǎi)用了SD1.5 的結(jié)構(gòu),作用是提取參考影像的外觀資訊並將其整合進(jìn)骨幹網(wǎng)路中。此策略設(shè)計(jì)可確保人臉 ID 在整個(gè)輸出影片中保持一致。

不同於 AnimateAnyone,這裡提升了 PoseGuider 的設(shè)計(jì)的複雜性。原來(lái)的版本只是整合了幾個(gè)卷積層,之後 Landmark 特徵與骨幹網(wǎng)路的輸入層的隱含特徵融合。而騰訊的這個(gè)團(tuán)隊(duì)發(fā)現(xiàn),這種初級(jí)設(shè)計(jì)無(wú)法捕捉嘴唇的複雜運(yùn)動(dòng)。因此,他們採(cǎi)用了 ControlNet 的多尺度策略:將對(duì)應(yīng)尺度的 Landmark 特徵整合進(jìn)骨幹網(wǎng)路的不同模組。儘管有這些改進(jìn),但最終模型的參數(shù)數(shù)量仍然相當(dāng)?shù)汀?

該團(tuán)隊(duì)還引入了另一項(xiàng)改進(jìn):將參考映像的 Landmark 用作額外的輸入。 PoseGuider 的交叉注意力模組能促進(jìn)參考 Landmark 和每個(gè)畫(huà)面的目標(biāo) Landmark 之間的互動(dòng)。這個(gè)過(guò)程能為網(wǎng)路提供額外的線索,使其能夠理解人臉 Landmark 和外觀之間的關(guān)聯(lián),由此可幫助人像動(dòng)畫(huà)產(chǎn)生更精準(zhǔn)的動(dòng)作。
?
實(shí)驗(yàn)

實(shí)作細(xì)節(jié)

Audio2Lmk 階段使用的骨幹網(wǎng)路是wav2vec2.0。用於提取 3D 網(wǎng)格和 6D 姿勢(shì)的工具是 MediaPipe。 Audio2Mesh 的訓(xùn)練資料來(lái)自騰訊的內(nèi)部資料集,其中包含接近一個(gè)小時(shí)的來(lái)自單一說(shuō)話者的高品質(zhì)語(yǔ)音資料。

為了確保 MediaPipe 提取出的 3D 網(wǎng)格的穩(wěn)定性,在記錄期間,表演者頭部位置穩(wěn)定並且面向相機(jī)。訓(xùn)練 Audio2Pose 使用的是 HDTF。所有的訓(xùn)練操作都在單一A100 上執(zhí)行,使用了Adam 優(yōu)化器,學(xué)習(xí)率設(shè)定為1e-5.

Lmk2Video 過(guò)程則採(cǎi)用了兩步式訓(xùn)練方法。

起始步驟階段關(guān)注的重點(diǎn)是訓(xùn)練骨幹網(wǎng)路 ReferenceNet 以及 PoseGuider 的 2D 元件,而不管運(yùn)動(dòng)模組。在後續(xù)步驟,則會(huì)凍結(jié)其它所有組件,專(zhuān)注於訓(xùn)練運(yùn)動(dòng)模組。為了訓(xùn)練模型,這裡使用了兩個(gè)大規(guī)模高品質(zhì)人臉視訊資料集:VFHQ 和 CelebV-HQ。所有資料都經(jīng)由 MediaPipe 提取 2D 臉部 Landmark。為了提升網(wǎng)路對(duì)嘴唇運(yùn)動(dòng)的敏感性,該團(tuán)隊(duì)的做法是在根據(jù) 2D Landmark 渲染姿勢(shì)圖像時(shí),給上下唇標(biāo)註不同的顏色。

所有影像的解析度都重新調(diào)整變成了 512x512。模型的訓(xùn)練使用了 4 臺(tái) A100 GPU,每一步耗時(shí) 2 天。優(yōu)化器是 AdamW,學(xué)習(xí)率固定為 1e-5。

實(shí)驗(yàn)結(jié)果

#如圖2 所示,新方法得到的動(dòng)畫(huà)在品質(zhì)和真實(shí)度上都非常出色。

Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話

此外,使用者還可以編輯其中間的 3D 表徵,從而對(duì)最終輸出進(jìn)行修改。舉個(gè)例子,使用者可從某個(gè)來(lái)源提取 Landmark 並修改其 ID 訊息,從而實(shí)現(xiàn)臉部重現(xiàn)效果,如下影片所示:Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話更多細(xì)節(jié)請(qǐng)參考原論文。?

以上是Up主已經(jīng)開(kāi)始鬼畜,騰訊開(kāi)源「AniPortrait」讓照片唱歌說(shuō)話的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

DeepMind機(jī)器人打乒乓球,正手、反手溜到飛起,全勝人類(lèi)初學(xué)者 DeepMind機(jī)器人打乒乓球,正手、反手溜到飛起,全勝人類(lèi)初學(xué)者 Aug 09, 2024 pm 04:01 PM

但可能打不過(guò)公園裡的老大爺?巴黎奧運(yùn)正在如火如荼地進(jìn)行中,乒乓球項(xiàng)目備受關(guān)注。同時(shí),機(jī)器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個(gè)在競(jìng)技乒乓球比賽中達(dá)到人類(lèi)業(yè)餘選手等級(jí)的學(xué)習(xí)型機(jī)器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個(gè)機(jī)器人打乒乓球什麼程度呢?大概和人類(lèi)業(yè)餘選手不相上下:正手反手都會(huì):對(duì)手採(cǎi)用多種打法,機(jī)器人也能招架得?。航硬煌D(zhuǎn)的發(fā)球:不過(guò),比賽激烈程度似乎不如公園老大爺對(duì)戰(zhàn)。對(duì)機(jī)器人來(lái)說(shuō),乒乓球運(yùn)動(dòng)

首配機(jī)械爪!元蘿蔔亮相2024世界機(jī)器人大會(huì),發(fā)布首個(gè)走進(jìn)家庭的西洋棋機(jī)器人 首配機(jī)械爪!元蘿蔔亮相2024世界機(jī)器人大會(huì),發(fā)布首個(gè)走進(jìn)家庭的西洋棋機(jī)器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界機(jī)器人大會(huì)在北京隆重召開(kāi)。商湯科技旗下家用機(jī)器人品牌「元蘿蔔SenseRobot」家族全系產(chǎn)品集體亮相,並最新發(fā)布元蘿蔔AI下棋機(jī)器人-國(guó)際象棋專(zhuān)業(yè)版(以下簡(jiǎn)稱(chēng)「元蘿蔔國(guó)象機(jī)器人」),成為全球首個(gè)走進(jìn)家庭的西洋棋機(jī)器人。作為元蘿蔔的第三款下棋機(jī)器人產(chǎn)品,全新的國(guó)象機(jī)器人在AI和工程機(jī)械方面進(jìn)行了大量專(zhuān)項(xiàng)技術(shù)升級(jí)和創(chuàng)新,首次在家用機(jī)器人上實(shí)現(xiàn)了透過(guò)機(jī)械爪拾取立體棋子,並進(jìn)行人機(jī)對(duì)弈、人人對(duì)弈、記譜複盤(pán)等功能,

Claude也變懶了!網(wǎng)友:學(xué)會(huì)給自己放假了 Claude也變懶了!網(wǎng)友:學(xué)會(huì)給自己放假了 Sep 02, 2024 pm 01:56 PM

開(kāi)學(xué)將至,該收心的不只即將開(kāi)啟新學(xué)期的同學(xué),可能還有AI大模型。前段時(shí)間,Reddit擠滿了吐槽Claude越來(lái)越懶的網(wǎng)友。 「它的水平下降了很多,經(jīng)常停頓,甚至輸出也變得很短。在發(fā)布的第一周,它可以一次性翻譯整整4頁(yè)文稿,現(xiàn)在連半頁(yè)都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個(gè)名為“對(duì)Claude徹底失望了的帖子裡”,滿滿地

騰訊 2025 校招啟動(dòng):畢業(yè)時(shí)間從一年拓寬至兩年 騰訊 2025 校招啟動(dòng):畢業(yè)時(shí)間從一年拓寬至兩年 Aug 07, 2024 pm 08:17 PM

本站8月7日消息,昨日騰訊2025校園招募正式啟動(dòng),繼2024年實(shí)習(xí)生招募、「青雲(yún)計(jì)畫(huà)」AI大模型招募專(zhuān)案後再次發(fā)出「擴(kuò)招」訊號(hào):不僅招募規(guī)模相較前兩年有較大增長(zhǎng),面向人群的畢業(yè)時(shí)間範(fàn)圍也進(jìn)一步擴(kuò)大。據(jù)介紹,騰訊2025年校園招募開(kāi)放技術(shù)、產(chǎn)品、市場(chǎng)、設(shè)計(jì)、職能5個(gè)大類(lèi)70餘種職缺。今年的騰訊校園招募將有多處變化,校招面向人群的畢業(yè)時(shí)間範(fàn)圍從一年拓寬至兩年。畢業(yè)時(shí)間為2024年1月至2025年12月的同學(xué)(中國(guó)大陸/內(nèi)地以畢業(yè)證為準(zhǔn),中國(guó)港澳臺(tái)及海外地區(qū)以學(xué)位證為準(zhǔn))均可透過(guò)騰訊招聘官網(wǎng)及「騰訊

李飛飛團(tuán)隊(duì)提出ReKep,讓機(jī)器人具備空間智能,還能整合GPT-4o 李飛飛團(tuán)隊(duì)提出ReKep,讓機(jī)器人具備空間智能,還能整合GPT-4o Sep 03, 2024 pm 05:18 PM

視覺(jué)與機(jī)器人學(xué)習(xí)的深度融合。當(dāng)兩隻機(jī)器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時(shí),加上最近老上頭條的1X人形機(jī)器人NEO,你可能會(huì)產(chǎn)生一種感覺(jué):我們似乎開(kāi)始進(jìn)入機(jī)器人時(shí)代了。事實(shí)上,這些絲滑動(dòng)作正是先進(jìn)機(jī)器人技術(shù)+精妙框架設(shè)計(jì)+多模態(tài)大模型的產(chǎn)物。我們知道,有用的機(jī)器人往往需要與環(huán)境進(jìn)行複雜精妙的交互,而環(huán)境則可被表示成空間域和時(shí)間域上的限制。舉個(gè)例子,如果要讓機(jī)器人倒茶,那麼機(jī)器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩(wěn)移動(dòng),一直到讓壺口與杯口對(duì)齊,之後以一定角度傾斜茶壺。這

分散式人工智慧盛會(huì)DAI 2024徵稿:Agent Day,強(qiáng)化學(xué)習(xí)之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學(xué)家將做主旨報(bào)告 分散式人工智慧盛會(huì)DAI 2024徵稿:Agent Day,強(qiáng)化學(xué)習(xí)之父Richard Sutton將出席!顏水成、Sergey Levine以及DeepMind科學(xué)家將做主旨報(bào)告 Aug 22, 2024 pm 08:02 PM

會(huì)議簡(jiǎn)介隨著科技的快速發(fā)展,人工智慧成為了推動(dòng)社會(huì)進(jìn)步的重要力量。在這個(gè)時(shí)代,我們有幸見(jiàn)證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創(chuàng)新與應(yīng)用。分散式人工智慧是人工智慧領(lǐng)域的重要分支,這幾年引起了越來(lái)越多的關(guān)注。基於大型語(yǔ)言模型(LLM)的智能體(Agent)異軍突起,透過(guò)結(jié)合大模型的強(qiáng)大語(yǔ)言理解和生成能力,展現(xiàn)了在自然語(yǔ)言互動(dòng)、知識(shí)推理、任務(wù)規(guī)劃等方面的巨大潛力。 AIAgent正在接棒大語(yǔ)言模型,成為目前AI圈的熱門(mén)話題。 Au

鴻蒙智行享界S9全場(chǎng)景新品發(fā)表會(huì),多款重磅新品齊發(fā) 鴻蒙智行享界S9全場(chǎng)景新品發(fā)表會(huì),多款重磅新品齊發(fā) Aug 08, 2024 am 07:02 AM

今天下午,鴻蒙智行正式迎來(lái)了新品牌與新車(chē)。8月6日,華為舉行鴻蒙智行享界S9及華為全場(chǎng)景新品發(fā)布會(huì),帶來(lái)了全景智慧旗艦轎車(chē)享界S9、問(wèn)界新M7Pro和華為novaFlip、MatePadPro12.2英寸、全新MatePadAir、華為畢昇激光打印機(jī)X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全場(chǎng)景智慧新品,從智慧出行、智慧辦公到智能穿戴,華為全場(chǎng)景智慧生態(tài)持續(xù)構(gòu)建,為消費(fèi)者帶來(lái)萬(wàn)物互聯(lián)的智慧體驗(yàn)。鴻蒙智行:深度賦能,推動(dòng)智能汽車(chē)產(chǎn)業(yè)升級(jí)華為聯(lián)合中國(guó)汽車(chē)產(chǎn)業(yè)伙伴,為

世界機(jī)器人大會(huì)上,這家承載「未來(lái)養(yǎng)老希望」的國(guó)產(chǎn)機(jī)器人被包圍了 世界機(jī)器人大會(huì)上,這家承載「未來(lái)養(yǎng)老希望」的國(guó)產(chǎn)機(jī)器人被包圍了 Aug 22, 2024 pm 10:35 PM

在北京舉行的世界機(jī)器人大會(huì)上,人形機(jī)器人的展示成為了現(xiàn)場(chǎng)絕對(duì)的焦點(diǎn),在星塵智能的展臺(tái)上,由於AI機(jī)器人助理S1在一個(gè)展區(qū)上演揚(yáng)琴、武術(shù)、書(shū)法三臺(tái)大戲,能文能武,吸引了大量專(zhuān)業(yè)觀眾和媒體的駐足。在有彈性的琴弦上優(yōu)雅的演奏,讓S1展現(xiàn)出速度、力度、精準(zhǔn)度兼具的精細(xì)操作與絕對(duì)掌控。央視新聞對(duì)「書(shū)法」背後的模仿學(xué)習(xí)和智慧控制進(jìn)行了專(zhuān)題報(bào)道,公司創(chuàng)始人來(lái)傑解釋到,絲滑動(dòng)作的背後,是硬體側(cè)追求最好力控和最仿人身體指標(biāo)(速度、負(fù)載等),而是在AI側(cè)則採(cǎi)集人的真實(shí)動(dòng)作數(shù)據(jù),讓機(jī)器人遇強(qiáng)則強(qiáng),快速學(xué)習(xí)進(jìn)化。而敏捷

See all articles