鳳凰科技 2024-12-13 01:35:22 1
作者|冬梅
就在 OpenAI“12 天連續轟炸”的第五天,谷歌終於坐不住了。
剛剛,谷歌正式釋出了 Gemini 2.0 系列人工智慧模型的首個版本,該模型名為 Gemini 2.0 Flash,提供聊天版本供全球使用者使用,同時還有一個實驗版的模型可供開發人員免費使用,該版本具有文字轉語音和影象生成功能。
據谷歌稱,這是Agent 時代迄今為止為最強大的 AI 模型,相比上一代 Gemini 模型,2.0 在速度上快兩倍,並且比更大的“專業”版 Gemini 1.5 更加強大。此外,該版本帶來了增強的效能、更多的多模態性和新的原生工具。
相比上一代模型,Gemini 2.0 增加了什麼?
谷歌執行長 Sundar Pichai 在一份宣告中表示:“如果 Gemini 1.0 致力於組織和理解資訊,那麼 Gemini 2.0 則致力於讓資訊變得更加有用。”
谷歌最新的大語言模型在大多數使用者請求領域都比其前代產品表現更好,例如程式碼生成和根據使用者請求提供事實正確響應的能力。
在谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO Koray Kavukcuoglu 代表 Gemini 團隊撰寫的博文中,詳細介紹了 Gemini 2.0 版本的具體特性。
據他們稱,Gemini 2.0 Flash 以 1.5 Flash 的成功為基礎,是谷歌目前最受開發者歡迎的版本,在同樣快速的響應時間下具有增強的效能。值得注意的是,2.0 Flash 在關鍵基準測試中甚至比 1.5 Pro 更快,速度是 1.5 Pro 的兩倍。2.0 Flash 還具有新功能。除了支援影象、影片和音訊等多模式輸入外,2.0 Flash 現在還支援多模式輸出,例如與文字混合的原生生成的影象和可操縱的文字轉語音 (TTS) 多語言音訊。它還可以原生呼叫 Google 搜尋、程式碼執行以及第三方使用者定義函式等工具。
過去一個月,Gemini 團隊一直在分享 Gemini 2.0 的早期實驗版本,並得到了開發人員的積極反饋。
Gemini 2.0 Flash 現已作為實驗模型透過 Google AI Studio 和 Vertex AI 中的 Gemini API 向開發者提供,所有開發者均可使用多模式輸入和文字輸出,早期合作伙伴可使用文字轉語音和原生影象生成功能。
1 月份將全面上市,同時將推出更多模型尺寸。為了幫助開發人員構建動態和互動式應用程式,谷歌還發布了新的 Multimodal Live API,它具有實時音訊、影片流輸入以及使用多個組合工具的能力。
要訪問實驗版本 Flash 2.0 的聊天最佳化版本,Gemini 使用者可以在桌面和行動網路上的模型下拉選單中選擇它。該公司表示,它將很快在 Gemini 移動應用程式上提供。
Gemini Flash 2.0 的多模版本將透過 Google 的 AI Studio 和 Vertex AI 開發者平臺提供。
該公司還表示,計劃在 2025 年初將 Gemini 2.0 擴充套件到更多谷歌產品。
推出 Deep Search 新功能
谷歌此次釋出的還不僅僅是大模型。谷歌宣佈將推出一項名為 Deep Research 的新功能,它使用高階推理和長上下文功能充當研究助手,探索複雜主題並代表使用者編寫報告。它今日起已經 Gemini Advanced 中可用。
據谷歌方面稱,Search 無疑是受到人工智慧影響最深遠、變革最顯著的產品。如今,AI Overviews 已觸達 10 億使用者,該功能使使用者能夠提出全新的問題型別,迅速成為 Search 有史以來最受歡迎的功能之一。接下來,谷歌會將 Gemini 2.0 的高階推理能力融入 AI Overviews,以攻克更復雜的主題和多步驟問題,包括高等數學方程、多模態查詢和編碼。同時,谷歌還計劃明年將 AI Overviews 功能面向更多國家開放,適配更多語言。
2.0 基於谷歌定製的硬體第六代 TPU Trillium 構建而成。TPU 為 Gemini 2.0 的訓練和推理提供 100% 算力支援,今天 Trillium 也全面向使用者開放,以便他們能夠基於此進行開發。
透過 Gemini 2.0 解鎖 Agent 體驗
Gemini 2.0 Flash 已經進行了原生使用者介面操作能力的改進,其他改進還包括多模式推理、長上下文理解、複雜指令跟蹤和規劃、組合函式呼叫、原生工具使用和改進的延遲等。
自大模型誕生以來,AI Agent 的實際應用是一個非常火爆的研究領域。谷歌正在透過一系列原型探索這一新領域,這些原型可以幫助人們完成任務並完成工作。其中包括對 Project Astra 的更新,這是谷歌的研究原型,旨在探索通用人工智慧助手的未來功能;新 Project Mariner,它從瀏覽器開始探索人機互動的未來;以及 Jules,一個可以幫助開發人員的 AI 程式碼 Agent。
Gemini API 集團產品經理 Shrestha Basu Mallick 和谷歌實驗室產品總監 Kathy Korevec 表示:“從今天開始(對於受信任的測試人員),你可以將 Python 和 JavaScript 編碼任務轉移給 Jules。Jules 可以非同步工作並與你的 GitHub 工作流程整合,處理錯誤修復和其他耗時任務,而你則專注於你真正想要構建的內容。
谷歌也表示,即便技術持續迭代,但 Gemini 系列模型仍處於開發的早期階段,他們很高興看到那些值得信賴的測試人員如何使用這些新功能以及他們可以從中學到什麼經驗,這樣就可以在未來的產品中更廣泛地使用它們。
硬剛一眾 AI 獨角獸,谷歌更勝一籌?
Gemini 2.0 是谷歌在科技行業日益激烈的人工智慧競賽中的最新成果。谷歌正在與科技巨頭微軟、Meta 以及一眾 AI 明星獨角獸如 OpenAI、Perplexity 和 Anthropic 等初創公司展開激烈戰爭。
谷歌這一波出手在技術社羣引發了熱議,一名 Reddit 使用者對 Gemini 2.0 的釋出表示震驚,他評論道:
“我不知道我現在的感受是什麼。興奮、擔憂、不安、好奇以及對 AI 的絕對敬畏交織在一起。超現實的是,我們正在經歷這種改進,並且每次釋出的迭代都給我們留下了深刻的印象。我甚至都不敢想象 10 年後的情況。看看 2004 年到 2014 年的科技各個方面都取得了巨大進展,但與這兩年 AI 勢頭相比還有很大差距。”
有使用者調侃,谷歌甚至都等不及 OpenAI 把“瘋狂釋出周”過完再來炸場,結合前兩日 Sora 潦草釋出,有不少網友直接站隊谷歌:
“谷歌的 Gemini 絕對是是 GPT-5 級別的威脅,我從未見過一家公司釋出如此強大的模型讓開發者免費試用。”
隨著新 Flash 模型的釋出,這場 AI 軍備競賽已經進入白熱化階段。據谷歌公司稱,Agent 模型“可以更好地瞭解你周圍的世界,提前思考多個步驟,並在你的監督下代表你採取行動。”
上週,在《紐約時報》 DealBook 峰會上與安德魯·羅斯·索爾金 (Andrew Ross Sorkin) 的對話中,谷歌 CEO 皮查伊對微軟的人工智慧進步提出了質疑,表示他“很樂意在任何時候”對兩家公司的模型進行並排比較。
安德魯·羅斯·索爾金問皮查伊:“相對於其他參與者,你認為自己處於什麼位置?”
皮查伊表示他很想進行並排比較,隨後他補充道:“他們使用了別人的模型。”
“你這是在向我發起挑戰。”索金回答道。
皮查伊笑著搖了搖頭,補充道:“我只是——我非常尊重他們和他們的團隊。”
微軟當家人納德拉對於谷歌技術實力也給予了很高的肯定。
早在今年 3 月份,微軟 CEO 納德拉在挪威銀行投資管理播客上表示:“谷歌本應就是大型科技公司 AI 競賽的預設贏家。谷歌是一家非常有能力的公司,他們既有人才,又有計算能力。他們是這個領域的垂直整合參與者。他們擁有從資料到晶片到模型到產品和分銷的一切。”