圖像生成領域傳來了新進展,OpenAI在攻克“生成圖像中的文字”方面的難題。北京時間3月26日凌晨,OpenAI進行了直播,對GTP-4o和Sora進行更新,在ChatGPT和Sora中推出GPT-4o的圖像生成功能。OpenAI此次強調了新功能在精準理解文本描述、準確生成文本方面的優(yōu)勢。 據OpenAI介紹,GPT-4o圖像生成功能擅長準確呈現文本,并精準遵循提示詞,該功能還會將GPT-4o的知識庫和聊天上下文作為靈感來源,這有助于使用者與圖像生成工具更有效地溝通并提高生成圖像的質量。該功能供ChatGPT Plus、Pro、Team和免費用戶使用,并計劃隨后向企業(yè)、教育和API使用者推出。 在OpenAI的示例中,要求大模型生成一名女子在一個俯瞰海灣大橋的房間里用筆在白板上寫字,衣服上印有OpenAI字樣,白板映著攝影師的身影,并描述了白板上所寫的文字。GPT-4o生成的圖像都體現了以上要求。隨后,OpenAI要求攝影師走到鏡頭前與女子擊掌,GPT-4o也呈現了這一畫面,且白板上的字不會變得凌亂,女子的身形和發(fā)型也與前一張圖像呈現的背影一致。 在其他示例中,OpenAI要求大模型生成上世紀中葉一個家庭中冰箱上貼著的詩歌短句,并要求畫面中的人手拿著特定的幾個詞,GPT-4o可以精準還原。GPT-4o還能生成漫畫,但需要人準確地描述畫面中的情節(jié)。OpenAI還展示了這個圖像生成功能在科學實驗中的用途,該功能可以生成牛頓棱鏡實驗的示意圖。此外,OpenAI還展示了該圖像生成功能在生成路牌、菜單、游戲畫面時的效果,以及生成雞尾酒配方、天氣信息圖像時,大模型生成的專業(yè)配方和天氣文本描述。 就如何訓練GPT-4o圖像生成功能,OpenAI解釋,OpenAI使用了網絡上的圖像和文本訓練模型,讓模型學習圖像與文字、圖像與圖像之間的關系,使模型具有視覺流暢性,生成的圖片是有用的、具備上下文連貫性的。 就GPT-4o圖像生成功能的特點,OpenAI還表示,用戶可以通過自然對話與大模型交流,要求大模型改進圖像,在這個過程中圖像中的人物等要素會保持一致性。使用者與大模型的交流也更順暢,可以同時要求大模型處理10到20個不同的對象,以便圖像中各要素呈現出相關性。OpenAI對比其他圖像生成系統(tǒng)時稱,其他系統(tǒng)只能同時處理5到8個對象。 不過,OpenAI也指出,GPT-4o圖像生成功能也具備一些限制,例如存在幻覺、難以呈現太多依賴知識庫的圖像要素(例如元素周期表)、圖表準確性不足、呈現非拉丁語言時可能容易出現幻覺、要求修改圖像中的錯別字時難以精準編輯。 生成圖像中的文字,此前是圖像生成領域的一個難題。國內,去年豆包升級文生圖能力,支持一鍵生成指定文本。今年3月,智譜AI發(fā)布了首個支持生成漢字的開源文生圖模型CogView4。不過,記者試用發(fā)現,相關模型生成文字的能力還不太穩(wěn)定。 3月26日,記者使用豆包APP和智譜清言APP生成圖像,其中智譜清言用的模型是CogView4。記者輸入“生成一張圖片,一個人在看墻上歌手演唱會的海報,海報用中文寫著演唱會日期、演唱會主題描述、歌曲名稱”。智譜清言生成的海報中出現不少亂碼。豆包生成的中文文字準確,但理解有所偏差,呈現的是“演唱會日期”“演唱會主題”這些字樣。 隨后記者將提示詞改為“一個人在看墻上歌手演唱會的海報,海報用中文寫著演唱會日期為2025年3月29日、演唱會主題為星空旅行、歌曲名稱《太空翱翔》”,豆包呈現出了正確的日期和“星空旅行”字樣,仍有一些字是亂碼,智譜清言也生成了一些亂碼。 更新GPT-4o的圖像生成功能之后,OpenAI更大的產品更新將是推出GPT-5。今年2月,OpenAI首席執(zhí)行官山姆·奧爾特曼表示,OpenAI將會在ChatGPT和API服務中搭載新模型GPT-5,GPT-5將集成公司多項技術,包括推理模型o3的技術,GPT-5可能會在未來幾個月內推出。 (本文來自第一財經) |
潮新聞客戶端 記者 沈愛群 記者從應急管理部獲悉,4月6日
IT之家 4 月 6 日消息,據財聯社報道,韓國官員周日表示,