當(dāng)?shù)貢r間1月23日一場在線直播中,OpenAI團(tuán)隊揭開了首個AI智能體Operator的神秘面紗。這一創(chuàng)新成果打破了傳統(tǒng)應(yīng)用程序編程接口的限制,賦予了AI直接與圖形用戶界面交互的能力,就仿佛能像人類那樣使用電腦,從而向?qū)崿F(xiàn)通用人工智能邁進(jìn)了一步。
演示中,Operator展現(xiàn)了其強(qiáng)大的能力。它不僅能夠精確理解指令,還能自主完成復(fù)雜任務(wù),如自動填寫在線表單、進(jìn)行網(wǎng)購、創(chuàng)建表情包以及處理重復(fù)性瀏覽器任務(wù)等。這一切都是通過一個被稱為CUA的新模型實(shí)現(xiàn)的。該模型結(jié)合了GPT-4o的視覺功能和高級推理技術(shù),并通過強(qiáng)化學(xué)習(xí)不斷優(yōu)化自己的性能。
值得注意的是,在多個測試環(huán)境中,CUA模型的表現(xiàn)令人印象深刻。例如,在OSWORLD上執(zhí)行計算機(jī)使用任務(wù)的成功率達(dá)到了38.1%,比之前最佳結(jié)果提高了近16%;而在WebArena上的成功率更是高達(dá)58.1%,提升了22%。盡管這些成績與人類相比還有一定差距(人類分別為72.4%和78.2%),但CUA在某些特定場景下展示了驚人的效率,比如在網(wǎng)頁代理WebVoyager平臺上,達(dá)到了87%的成功率。
為確保安全性和用戶體驗(yàn),當(dāng)Operator執(zhí)行任務(wù)時,會采取行動、抓取屏幕截圖并創(chuàng)建子計劃,形成一個“觀察—計劃—執(zhí)行”的閉環(huán)。此外,用戶可以隨時接管控制權(quán),并且在接管期間的所有操作都不會被記錄下來,以此保護(hù)隱私。即使遇到買錯東西或訂錯酒店的情況,Operator也會在繼續(xù)行動之前請求人類確認(rèn)。
面對可能存在的風(fēng)險,如詐騙網(wǎng)站,OpenAI引入了一個提示注入監(jiān)視器,類似于防病毒軟件的功能,可以在發(fā)現(xiàn)可疑行為時立即停止操作。這標(biāo)志著L3級別的智能體時代正式到來,而OpenAI也重申了其對2025年的展望——這一年將是智能體之年。
隨著Operator的發(fā)布,未來幾個月內(nèi),人們或有望見證更多智能體的出現(xiàn)。它們將進(jìn)一步擴(kuò)展動作空間,適應(yīng)更加廣泛的應(yīng)用場景,開啟下一輪人機(jī)交互革命。目前,Operator僅限于美國的ChatGPT Pro(付費(fèi)服務(wù))用戶試用,不過未來很快會向更多用戶提供服務(wù)。
當(dāng)?shù)貢r間1月23日一場在線直播中,OpenAI團(tuán)隊揭開了首個AI智能體Operator的神秘面紗。這一創(chuàng)新成果打破了傳統(tǒng)應(yīng)用程序編程接口的限制,賦予了AI直接與圖形用戶界面交互的能力,就仿佛能像人類那樣使用電腦,從而向?qū)崿F(xiàn)通用人工智能邁進(jìn)了一步。
演示中,Operator展現(xiàn)了其強(qiáng)大的能力。它不僅能夠精確理解指令,還能自主完成復(fù)雜任務(wù),如自動填寫在線表單、進(jìn)行網(wǎng)購、創(chuàng)建表情包以及處理重復(fù)性瀏覽器任務(wù)等。這一切都是通過一個被稱為CUA的新模型實(shí)現(xiàn)的。該模型結(jié)合了GPT-4o的視覺功能和高級推理技術(shù),并通過強(qiáng)化學(xué)習(xí)不斷優(yōu)化自己的性能。
值得注意的是,在多個測試環(huán)境中,CUA模型的表現(xiàn)令人印象深刻。例如,在OSWORLD上執(zhí)行計算機(jī)使用任務(wù)的成功率達(dá)到了38.1%,比之前最佳結(jié)果提高了近16%;而在WebArena上的成功率更是高達(dá)58.1%,提升了22%。盡管這些成績與人類相比還有一定差距(人類分別為72.4%和78.2%),但CUA在某些特定場景下展示了驚人的效率,比如在網(wǎng)頁代理WebVoyager平臺上,達(dá)到了87%的成功率。
為確保安全性和用戶體驗(yàn),當(dāng)Operator執(zhí)行任務(wù)時,會采取行動、抓取屏幕截圖并創(chuàng)建子計劃,形成一個“觀察—計劃—執(zhí)行”的閉環(huán)。此外,用戶可以隨時接管控制權(quán),并且在接管期間的所有操作都不會被記錄下來,以此保護(hù)隱私。即使遇到買錯東西或訂錯酒店的情況,Operator也會在繼續(xù)行動之前請求人類確認(rèn)。
面對可能存在的風(fēng)險,如詐騙網(wǎng)站,OpenAI引入了一個提示注入監(jiān)視器,類似于防病毒軟件的功能,可以在發(fā)現(xiàn)可疑行為時立即停止操作。這標(biāo)志著L3級別的智能體時代正式到來,而OpenAI也重申了其對2025年的展望——這一年將是智能體之年。
隨著Operator的發(fā)布,未來幾個月內(nèi),人們或有望見證更多智能體的出現(xiàn)。它們將進(jìn)一步擴(kuò)展動作空間,適應(yīng)更加廣泛的應(yīng)用場景,開啟下一輪人機(jī)交互革命。目前,Operator僅限于美國的ChatGPT Pro(付費(fèi)服務(wù))用戶試用,不過未來很快會向更多用戶提供服務(wù)。
本文鏈接:http://m.enbeike.cn/news-2-323-0.htmlOpenAI智能體能像人那樣使用電腦,向?qū)崿F(xiàn)通用人工智能邁進(jìn)一步
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點(diǎn)擊“
”按鈕