GPT長眼睛了!史詩級功能悄咪咪發布!—OpenAI發布GPT-4V多模態模型
3月,在GPT4的發布之初,OpenAI就表示將在本次的迭代中加入多模態整合,即不僅僅只通過文字輸入進行識別分析,還可以通過語音輸入、圖片輸入甚至視頻輸入進行信息的獲取、識別、分析、輸出。這項功能讓不少用戶深深期待,畢竟文字是抽象的,是需要一定的整合能力的,而圖片一拍即合,簡單自然,不用費勁兒地去描繪眼前的事物。
AI生成
我也曾寫過一篇文章來描述GPT4的視覺識別系統,但當時其僅在一款叫做“Be My Eyes”的應用上應用,來幫助視覺障礙朋友進行一些基礎的物品識別。
在經歷法規限制、算力緊張、AI倫理大討論以及各新進競爭者圍追堵截后,北京時間9月26日凌晨,OpenAI悄咪咪發布了其GPT4V模型,即多模態模型,其中最引人注目的還是視頻識別功能,接下來就讓我們看看其工作時是什么樣的吧。
視頻中的用戶使用官方的ChatGPT iOS客戶端進行演示。首先拍攝上傳了一張自行車的照片,并詢問GPT,如何幫助他將車座放下來。
GPT回答讓用戶找到快速釋放桿或螺栓,打開它們,向下滑動座椅到合適高度,然后擰緊固定。并給出了經典的AI分點回答。
用戶拍照確認了GPT所述的車座釋放螺栓位置,GPT給出了肯定。
但最讓我感到意外的是,其在結尾處,GPT在結尾處詢問用戶是否有工具,并拍照展示給它,它可以告訴用戶用哪個!
用戶將工具和清單拍給GPT后,GPT給出了肯定,并引導用戶使用“工具箱的左邊”的標記為DEWALT的4mm六角板子來松開閥座環上的螺栓并調整閥座高度。之后記得把它擰緊。
如果前面的自行車識別和車座調節識別都還是開胃菜,這一手“使用”工具真的把我嗅到了,展現出了GPT非常強大的物品識別、認知、分析能力。
今晨OpenAI還發表了一篇文章來解釋、總結這一能力:OpenAI已經發布了一份詳細的19頁報告,關于其最新的多模態模型GPT4V(ision),這一模型結合了其前身ChatGPT4的語音和圖像更新。該報告提供了大量關于模型開發和能力的信息。
GPT4V是OpenAI于2022年完成訓練,并計劃在2023年3月開始提供早期訪問的新型AI模型。GPT4V的訓練采用了與GPT4類似的方式,先利用大規模標注數據進行無監督預訓練,再通過強化學習的人機交互進行針對性調優。
AI生成
這種訓練方式源自OpenAI與視障支援組織“Be My Eyes”的合作項目。OpenAI將名為“Be My AI”的視覺描述功能集成到“Be My Eyes”的手機App中,讓盲人用戶拍照后獲得圖像內容的語音描述。這種人機協作生成的多模態訓練數據,極大地豐富了GPT4V對真實場景的理解能力。
GPT4V的圖像理解能力突出,在地標識別、文字識別、人臉檢測等任務上展現出較強的水平。具體來說,GPT4V具備以下主要特征:
-物體檢測 可以定位圖像中的各類日常物體,如汽車、動物、家具等,并可以判斷數量和方位
-文本識別 具備字符識別能力,可以檢測圖中的字體和手寫文字,并轉錄成文本
-人臉識別 可判斷臉部的位置、性別、年齡、種族等面部特征
-驗證碼識別 通過視覺推理可以破解包含文字和圖片的驗證碼
-地理定位 可以分析風景圖像中出現的地標建筑,判斷拍攝地的具體城市或地點。
AI生成
盡管能力強大,GPT4V在處理復雜圖像時仍存在局限。它在理解圖像中的空間關系、處理重疊物體、分離前景背景等方面可能不太準確,也難以捕捉細微的文本和詳情。
此外,GPT4V的決策過程不透明,結果的可解釋性有限。考慮到其破解驗證碼的能力,OpenAI也在評估其對互聯網安全的潛在影響。綜上所述,GPT4V代表了多模態AI的重要進展,同時還面臨諸多挑戰。OpenAI表示會積極與研究團體合作,推動GPT4V向著更可控、可解釋和負責任的方向發展。
據悉該功能將于2周以內逐漸面向用戶開放,但前提是能正常使用ChatGPT App。
- 國內期貨收盤漲多跌少,膠板漲停10-22
- 奧克斯顯示e4怎么處理(一分鐘解決方法)06-24
-
暴雨,雷電,強對流,即將抵達!未來十天,廈門天氣→
2025-06-16
-
小米多款新品曝光:旗下首款AI眼鏡、小米MIX Flip2等
2025-06-16
-
臺風“蝴蝶”殘余環流今日進入江西 贛北南部到贛南有暴雨到大暴雨天
2025-06-15
-
持續輸出暴雨大暴雨 臺風“蝴蝶”威力何來?專家解讀
2025-06-14
-
《個體工商戶登記管理規定》將于7月15日起施行
2025-06-14


