
人工智能研究小組OpenAI創(chuàng)建了一個(gè)新的版本的DALL-E,即文本到圖像生成程序。dell - e2的特點(diǎn)是比原始系統(tǒng)具有更高的分辨率和更低的延遲,它可以生成描述用戶所寫描述的圖片。它還包括新的功能,比如編輯現(xiàn)有的圖像。與OpenAI之前的工作一樣,該工具沒有直接向公眾發(fā)布。但研究人員可以在線注冊預(yù)覽該系統(tǒng),OpenAI希望以后可以在第三方應(yīng)用中使用該系統(tǒng)。
最早的DALL-E是藝術(shù)家“薩爾瓦多Dalí”和機(jī)器人“瓦力”的混合詞,于2021年1月首次亮相。這是對人工智能視覺表達(dá)概念能力的一次有限但引人注目的測試,從穿著法蘭絨襯衫的人體模型到“烏龜做的長頸鹿”或蘿卜遛狗的插圖,都有。當(dāng)時(shí),OpenAI表示,它將繼續(xù)在該系統(tǒng)的基礎(chǔ)上構(gòu)建,同時(shí)檢查潛在的危險(xiǎn),如圖像生成中的偏見或錯誤信息的產(chǎn)生。它試圖使用技術(shù)保障和新的內(nèi)容策略來解決這些問題,同時(shí)也減少了計(jì)算負(fù)載,并推進(jìn)了模型的基本功能。

dell - e2的新功能之一,inpainting,在更細(xì)粒度的級別上應(yīng)用了dell - e的文本到圖像的功能。用戶可以從現(xiàn)有的圖片開始,選擇一個(gè)區(qū)域,并告訴模型編輯它。例如,你可以在客廳的墻上畫一幅畫,然后用另一幅畫代替它,或者在咖啡桌上放一瓶花。該模型可以填充(或刪除)對象,同時(shí)考慮房間中陰影的方向等細(xì)節(jié)。另一個(gè)功能,變化,有點(diǎn)像一個(gè)圖片搜索工具,用來搜索不存在的圖片。用戶可以上傳一個(gè)開始的圖像,然后創(chuàng)建一系列類似的變化。它們還可以混合兩張圖片,生成包含這兩種元素的圖片。生成的圖像為1024 x 1024像素,大大超過了原始模型的256 x 256像素。
dell - e2建立在CLIP上,這是一種計(jì)算機(jī)視覺系統(tǒng),OpenAI去年也發(fā)布了該系統(tǒng)。OpenAI的研究科學(xué)家普拉夫拉·達(dá)里瓦爾(Prafulla Dhariwal)說:“DALL-E 1只是采用了我們從語言中提取的GPT-3方法,并將其應(yīng)用于生成一幅圖像:我們將圖像壓縮成一系列單詞,我們剛剛學(xué)會了預(yù)測接下來會發(fā)生什么。”他指的是許多文本AI應(yīng)用使用的GPT模型。但是,文字匹配并不一定能捕捉到人們認(rèn)為最重要的品質(zhì),而且預(yù)測過程限制了圖像的真實(shí)性。CLIP的設(shè)計(jì)目的是像人類一樣查看圖像并總結(jié)它們的內(nèi)容,而OpenAI在這個(gè)過程中不斷重復(fù)創(chuàng)建“unCLIP”——一個(gè)從描述開始并以圖像的方式工作的倒置版本。dall - e2使用一種稱為擴(kuò)散的過程生成圖像,Dhariwal描述為從一個(gè)“點(diǎn)袋”開始,然后填充一個(gè)越來越詳細(xì)的圖案。

有趣的是,一份關(guān)于unCLIP的草案說,它在一定程度上抵制了CLIP的一個(gè)非常有趣的弱點(diǎn):事實(shí)是,人們可以通過給一個(gè)物體(比如一個(gè)Granny Smith蘋果)貼上一個(gè)表示其他東西(比如iPod)的單詞來欺騙模型的識別能力。作者說,變異工具“仍然會以很高的概率生成蘋果的圖片”,即使使用了標(biāo)簽錯誤的圖片,CLIP也無法識別這是一個(gè)“Granny Smith”。相反,“該模型從未生成ipod的圖片,盡管這個(gè)標(biāo)題的相對預(yù)測概率非常高。”
戴爾- e的完整模型從未公開發(fā)布,但在過去的一年中,其他開發(fā)人員已經(jīng)打磨了他們自己的工具,模仿了它的一些功能。最受歡迎的主流應(yīng)用程序之一是Wombo的Dream移動應(yīng)用程序,它可以生成用戶描述的各種藝術(shù)風(fēng)格的圖片。OpenAI今天不會發(fā)布任何新模型,但開發(fā)人員可以利用它的技術(shù)發(fā)現(xiàn)來更新他們自己的工作。

OpenAI實(shí)現(xiàn)了一些內(nèi)置的保護(hù)措施。該模型的訓(xùn)練對象是剔除了一些不良內(nèi)容的數(shù)據(jù),理想情況下限制了其產(chǎn)生不良內(nèi)容的能力。有一個(gè)水印表明作品是人工智能生成的,盡管理論上它可能會被剪掉。作為一種防止虐待的功能,模特也不能根據(jù)一個(gè)名字生成任何可識別的面孔——即使是要求像蒙娜麗莎這樣的東西,顯然也會返回真實(shí)面孔的變體。
dall - e2將由經(jīng)過審查的合作伙伴進(jìn)行測試,并附帶一些注意事項(xiàng)。用戶被禁止上傳或生成“非g級”和“可能造成傷害”的圖像,包括任何涉及仇恨符號、裸體、淫穢手勢,或“與正在進(jìn)行的重大地緣政治事件相關(guān)的重大陰謀或事件”。他們還必須披露人工智能在生成圖像中的作用,而且他們不能通過應(yīng)用程序或網(wǎng)站向其他人提供生成的圖像——所以你最初不會看到一個(gè)dall - e驅(qū)動的版本,比如Dream。但OpenAI希望以后將其加入到該組織的API工具集中,使其能夠支持第三方應(yīng)用程序?!拔覀兿M谶@里繼續(xù)進(jìn)行分階段的過程,這樣我們就可以從我們得到的反饋中繼續(xù)評估如何安全地發(fā)布這項(xiàng)技術(shù),”達(dá)里瓦爾說。