A级成人毛片免费视频高清,国产免费黄色片,a毛片视频一级毛片视频,绿色的电影,久青草大香蕉导航无删减完整在线观看 ,中文字幕无码亚洲字幕成a人

蜜途網
    首頁 > 國內 > 您還可以向Phenaki輸入初始幀和提示來生成視頻

您還可以向Phenaki輸入初始幀和提示來生成視頻

來源:IT之家   時間:2022-10-07 16:00:46   閱讀量:12336   

生成內容AI,進入視頻時代!

Meta的帶嘴視頻發布僅一周,谷歌CEO柴柴就接連派出兩名選手參賽。

相比Meta的Make—A—Video,first Imagen視頻的清晰度很高,可以生成1280*768分辨率,每秒24幀的視頻片段。

另一位選手Phenaki可以根據200字左右的提示生成2分多鐘的長鏡頭,講述一個完整的故事。

看完之后,網友們紛紛表示,這一切進步太快了。

也有網友認為,這項技術一旦成熟,將會沖擊短視頻行業。

那么,這兩個AI的具體能力和特點是什么呢我們分開來看

Imagen視頻:理解藝術風格和3D結構

Imagen視頻也是基于最近大火的擴散模型,直接繼承了SOTA模型Imagen,五月的圖像生成模型。

除了高分辨率,它還顯示了三種特殊能力。

首先,它可以理解并生成不同藝術風格的作品,比如水彩畫或像素畫,或者直接梵高風格。

它還能理解物體的3D結構,在旋轉顯示中不會變形。

最后,它繼承了Imagen對人物的精準描述能力,并在此基礎上,僅通過簡單的描述,制作出各種創意動畫。

這種效果,直接作為一個視頻的標題也不過分吧。

除了出色的應用效果,研究人員表示,其中使用的一些優化技術不僅對視頻生成有效,還可以推廣到一般的擴散模型。

具體來說,Imagen Video是模型的集合。

語言部分是谷歌自己的T5—XXL訓練后,它凍結文本編碼器部分

與負責從文本特征映射到圖像特征的CLIP相比,有一個關鍵區別:

語言只負責編碼文本特征,把文本到圖像轉換的工作留給后期的視頻擴散模型。

基本模型基于生成的圖像,以自回歸方式連續預測下一幀首先生成48*24,每秒3幀的視頻

接下來,一系列空間超分辨率和時間超分辨率模型相繼對視頻進行擴展。

七種擴散模型都使用v—預測參數化方法,與傳統方法相比,可以避免視頻場景中的顏色偏移。

這種方法推廣到一般的擴散模型,也使得樣本質量指數的收斂速度更快。

此外,還有漸進式蒸餾,將每次迭代所需的采樣步驟減少了一半,大大節省了內存消耗。

這些優化技術相加,最終使生成高清視頻成為可能。

費納基:每個人都可以成為導演

Phenaki的論文提交給了ICLR 2023大會,當Meta在一周前發布Make—a—video時,它仍然是匿名和雙盲的。

現在信息公開了,原來的研究團隊也來自谷歌。

在公開資料中,Phenaki展示了其交互生成視頻的能力,可以任意切換視頻的整體風格:高清視頻/漫畫,也可以切換任意場景。

您還可以向Phenaki輸入初始幀和提示來生成視頻。

這還是開胃菜,Phenaki真正的絕招是:講故事可以生成2分鐘以上的長視頻,輸入一系列200多字的提示即可獲得

從文本提示到視頻,高計算成本,高質量文本視頻數據量有限,視頻長度可變一直是這類模型發展中的難題。

過去,大多數AI模型通過單一提示生成視頻,但這遠遠不足以生成一個長而一致的視頻。

而Phenaki則可以生成2分鐘以上的視頻,它也有故事情節,這主要是因為它能夠根據一系列提示生成視頻。

具體來說,研究人員引入了一種新的因果模型來學習表示視頻:視頻被視為圖像的時間序列。

該模型基于transformer,可以將視頻分解成離散的小表示,視頻的分解是按照時間的因果順序進行的。

說的通俗一點,就是通過空間轉換器對單個提示進行編碼,然后用因果轉換器將多個編碼后的提示串聯起來。

一個提示生成一個視頻,這樣視頻序列就可以沿著提示中描述的時間順序把整個故事串起來。

由于視頻被壓縮成離散的圖像序列,也大大減少了AI處理的標記視頻的數量,在一定程度上降低了模型的訓練成本。

說到模型訓練,像大型圖像系統一樣,Phenaki主要使用文本—圖像數據進行訓練此外,研究人員還使用幀率為8FPS的1.4秒短視頻文本來訓練Phenaki

只有通過大量圖像文本對和少量視頻文本實例的聯合訓練,才能達到突破視頻數據集的效果。

Imagen Video和Phenaki,Google相繼放出大招,從文字到視頻的AI發展迅速。

值得一提的是,Imagen Video表示,兩個團隊將在下一步的研究中展開合作。

嗯,有網友等不及了。

還有一點

出于安全和道德原因,谷歌暫時不會發布這兩種視頻生成模型的代碼或演示。

可是,既然論文已經發表,開源副本的出現只是時間問題。

畢竟,Pytorch版本出現在GitHub上僅僅是在Imagen論文問世幾個月后。

此外,stability Diffusion背后的StabilityAI創始人兼CEO也表示,將會發布比Meta的Make—A—Video更好的模型,而且會是大家都可以用的那種。

當然,每次AI有新的進展,必然會遇到那個話題——AI會不會取代人類。

老實說,作為一個在電影行業工作了十年的人,這個話題很讓人沮喪。

在他看來,現在的視頻一代AI在外人看來已經足夠驚艷,但業內人士會認為AI仍然缺乏對每一個鏡頭的精細控制。

關于這個話題,StabilityAI的新任首席信息官丹尼爾·杰弗里斯此前撰文指出,AI最終會帶來更多的工作崗位。

比如,照相機的發明雖然取代了大部分肖像畫家,但也造就了攝影師,開辟了影視等新產業。

五年后回頭看,反對AI和現在反對Photoshop一樣奇怪AI只是另一個工具

杰弗里斯說,未來是環境人工智能的時代,所有的行業和領域都將在人工智能的加持下發展。

但我們現在需要的是更開放的人工智能環境,也就是開源!

最后,如果現在想玩AI生成的視頻,可以先在HuggingFace上試試清華和致遠實驗室的Cogvideo。

圖像:

Phenaki:

Cogvideo演示:

參考鏈接:

聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。

猜你喜歡

游客在進入北京環球度假區時須核驗北京健康寶和有效身份證件
游客在進入北京環球度假區時須核驗北京健康

具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情

2022-04-28
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
杭州湘湖的草坪人氣很高不少人在這里搭帳篷

湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情

2022-04-14
南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅
南非徐霞客在云南:從行萬里路到吃百碗米線

題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情

2022-04-10
廣州新增3例本土確診病例雙層觀光巴士全部停運
廣州新增3例本土確診病例雙層觀光巴士全部

廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情

2022-03-22