正在閱讀:

ChatGPT 4o圖像生成功能重大升級,免費開放基礎(chǔ)功能使用

掃一掃下載界面新聞APP

ChatGPT 4o圖像生成功能重大升級,免費開放基礎(chǔ)功能使用

ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

圖片來源:界面圖庫 匡達(dá)

當(dāng)?shù)貢r間3月25日,美國開放人工智能研究中心(OpenAI)宣布推出4o圖像生成功能,OpenAI的CEO奧特曼稱GPT-4o為“有史以來最好的模型”,并宣布將全面免費開放基礎(chǔ)功能,API調(diào)用價格下調(diào)50%。

奧特曼當(dāng)?shù)貢r間周二直播活動中宣布,正式推出基于 GPT-4o 模型的原生圖像生成功能,不再調(diào)用獨立的 DALL-E 文生圖模型。利用GPT-4o的多模態(tài)能力,ChatGPT在圖像生成時能更加精確地遵循指示、更精確地渲染圖像上的文字,同時支持多輪迭代優(yōu)化圖像時保持角色形象一致。

從官方給出的示例來看,不管是生成黑板板書,還是印刷體、展示科學(xué)常識的繪圖,ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

不過,OpenAI承認(rèn)新圖像生成器還存在局限性,會受到模型幻覺影響,在密集文字和非拉丁語文字圖像生成方面易出問題。

ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發(fā)布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨立的系統(tǒng),AI圖像生成器“理解提示詞能力差”。

此次推出基于 GPT-4o 模型的原生圖像生成功能的舉措,被視為應(yīng)對谷歌Gemini等競品的技術(shù)壓力。

今年阿里巴巴、谷歌先后推出能準(zhǔn)確生成文字的文生圖模型。其中,谷歌其旗艦?zāi)P椭坏?Gemini 2.0 Flash 推出實驗性原生圖像輸出功能之后,在社交媒體上迅速傳播。但Gemini 2.0 Flash 的圖像組件幾乎沒有防護(hù)措施,人們可以去除水印并創(chuàng)建描繪受版權(quán)保護(hù)角色的圖像。

OpenAI 首席運營官布拉德?萊特卡普在一份聲明中表示:“在輸出方面,我們尊重藝術(shù)家的權(quán)利,并且我們有相應(yīng)的政策來防止我們生成直接模仿任何在世藝術(shù)家作品的圖像?!?/p>

即日起,所有Plus、Pro、Team及免費用戶將陸續(xù)在ChatGPT和Sora中體驗該功能,企業(yè)版與教育版即將接入,Sora平臺同步啟用。開發(fā)者即將通過API調(diào)用GPT-4o圖像生成功能,接口權(quán)限將于未來數(shù)周內(nèi)開放。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

OpenAI

  • OpenAI接近敲定400億美元新融資,預(yù)計今年收入將增長兩倍
  • 科技早報 | 谷歌發(fā)布新一代推理模型反擊OpenAI;寶馬與阿里達(dá)成AI領(lǐng)域戰(zhàn)略

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

ChatGPT 4o圖像生成功能重大升級,免費開放基礎(chǔ)功能使用

ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

圖片來源:界面圖庫 匡達(dá)

當(dāng)?shù)貢r間3月25日,美國開放人工智能研究中心(OpenAI)宣布推出4o圖像生成功能,OpenAI的CEO奧特曼稱GPT-4o為“有史以來最好的模型”,并宣布將全面免費開放基礎(chǔ)功能,API調(diào)用價格下調(diào)50%。

奧特曼當(dāng)?shù)貢r間周二直播活動中宣布,正式推出基于 GPT-4o 模型的原生圖像生成功能,不再調(diào)用獨立的 DALL-E 文生圖模型。利用GPT-4o的多模態(tài)能力,ChatGPT在圖像生成時能更加精確地遵循指示、更精確地渲染圖像上的文字,同時支持多輪迭代優(yōu)化圖像時保持角色形象一致。

從官方給出的示例來看,不管是生成黑板板書,還是印刷體、展示科學(xué)常識的繪圖,ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

不過,OpenAI承認(rèn)新圖像生成器還存在局限性,會受到模型幻覺影響,在密集文字和非拉丁語文字圖像生成方面易出問題。

ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發(fā)布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨立的系統(tǒng),AI圖像生成器“理解提示詞能力差”。

此次推出基于 GPT-4o 模型的原生圖像生成功能的舉措,被視為應(yīng)對谷歌Gemini等競品的技術(shù)壓力。

今年阿里巴巴、谷歌先后推出能準(zhǔn)確生成文字的文生圖模型。其中,谷歌其旗艦?zāi)P椭坏?Gemini 2.0 Flash 推出實驗性原生圖像輸出功能之后,在社交媒體上迅速傳播。但Gemini 2.0 Flash 的圖像組件幾乎沒有防護(hù)措施,人們可以去除水印并創(chuàng)建描繪受版權(quán)保護(hù)角色的圖像。

OpenAI 首席運營官布拉德?萊特卡普在一份聲明中表示:“在輸出方面,我們尊重藝術(shù)家的權(quán)利,并且我們有相應(yīng)的政策來防止我們生成直接模仿任何在世藝術(shù)家作品的圖像?!?/p>

即日起,所有Plus、Pro、Team及免費用戶將陸續(xù)在ChatGPT和Sora中體驗該功能,企業(yè)版與教育版即將接入,Sora平臺同步啟用。開發(fā)者即將通過API調(diào)用GPT-4o圖像生成功能,接口權(quán)限將于未來數(shù)周內(nèi)開放。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。