全系標配滿級防水,OPPO A5 系列新品正式發布

Gemini 陣容擴大,生成式 AI 能力更強,搜索重置更新,多模態 AI 助理看點多
Google I/O 開幕演講回顧:整體來看驚喜不多,基礎建設穩扎穩打
谷歌 CEO 桑達爾·皮查伊為剛剛結束的 Google I/O 開幕演講做了總結:
一個半小時的主題演講,120 次提及「AI」。不,是 121 次,剛剛我又說了一次,我甚至還想多說幾次,讓這個數字再擴大一些……
-XEzRZ35urlk-0015.png)
甚至為了給 AI 讓路,Google Pixel 8a 在 I/O 大會前就開啟預售。而以往的重頭戲 Android 部分的解說,直接和谷歌大模型 Gemini 綁定,變成以 AI 為內核的操作系統。
繼上次 Sora 截胡 Gemini 1.5 之后,OpenAI 故伎重演,在 Google I/O 開幕前一天甩出了 GPT-4o,免費升級讓整個科技互聯網狂喜。
> 延伸閱讀:OpenAI 熱辣滾燙,Google 紅毯先生,春節檔創紀錄
Gemini 不甘示弱,更新了多項大模型和工具,發布了諸多新功能。在生成式 AI 方面,谷歌還展示了與 OpenAI 分庭抗爭的文生圖、文生視頻的新能力。
此外,新的融合了多模態 AI 能力的語音助手 Project Astra 也有很多看點。
Gemini 1.5 Pro 新增 200 萬 tokens 參數
去年 12 月,Gemini 首次亮相,并發布了 Gemini 1.0 版本。
今年 2 月,Gemini 1.5 Pro 正式發布,具有 100 萬 tokens 參數、長上下文處理能力、多模態交互能力。
會上桑達爾·皮查伊公布了一組數據,目前有超過 150 萬開發者使用 Gemini 模型,Gemini 也已進駐至 Android、iOS 系統。
-XEzRZ35urlk-0004.png)
隨著使用量的增加,需求也發生著巨大的變化,比如用圖片提問,現在已經變得越來越常見。此次 Gemini 家族的諸多更新,即是為了響應用戶需求。
首先迎來的是 Gemini 1.5 Pro 的功能改進,在翻譯、推理、編碼等關鍵用例上做了優化,能夠勝任更復雜的任務處理。

新版本 Gemini 1.5 Pro 除了 100 萬 tokens 參數外,還新增了 200 萬 tokens 選項,語言種類也擴展至 36 種。
-XEzRZ35urlk-0011.png)
基于新版本 Gemini 1.5 Pro 更新的 Gemini Advanced 能夠處理多個大型文檔,總計 1500 頁,或梳理 100 封電子郵件。
-XEzRZ35urlk-0013.png)
未來 Gemini 1.5 Pro 還將繼續擴大適用范圍,預計將向全球 200 多個國家和地區提供使用。
輕量級模型 Gemini 1.5 Flash,主打短頻快
Gemini 1.5 Flash 是 Google 發布的一款新的輕量級模型,主要用于處理高頻、簡單任務,具備快速響應能力。

和 Gemini 1.5 Pro 一樣,具有 100 萬 tokens 參數,以及支持文本、圖像、語音、視頻等多模態交互能力。
端側模型 Gemini nano,與 Android 底層系統集成
Gemini nano 是一款端側輕量級大模型,將集成在 Android 底層系統,作為一項能力向設備提供,首先是自家的 Pixel 手機。
-XEzRZ35urlk-0040.png)
Gemini nano 能支持語音理解、圖像識別,以及將消息、郵件和文檔,提煉合成簡潔、可讀的摘要內容。
具體用例方面,Gemini nano 可以讀懂手機界面上的信息、提煉 PDF 等文檔關鍵信息,并支持語音問答。
-XEzRZ35urlk-0041.png)
另外,Gemini nano 還能根據陌生電話涉及的索要身份信息、銀行賬號等敏感詞匯,識別詐騙電話。
-XEzRZ35urlk-0042.png)
-XEzRZ35urlk-0043.png)
開源模型 Gamma 2,性能是同尺寸模型 2 倍,計劃今年 6 月發布
會上,谷歌還預告了開源模型 Gamma 2 的發布時間,如果一切進展順利,6 月即會推出。
據悉 Gamma 2 具備 270 億訓練參數,性能表現是同尺寸模型的 2 倍,并可在 GPU 或 Vertex AI 中的單個 TPU 主機上運行。
-XEzRZ35urlk-0048.png)
而當前的 Gamma 則新增了 PaliGemma 視覺語言模型,并針對圖像字幕視覺問答和其他圖像標簽任務進行了優化。
-XEzRZ35urlk-0049.png)
文生圖模型 imagen 3,主打高清圖像
文生圖模型 Imagen 升級至 Imagen 3 版本,主要改進了圖像質量。
-XEzRZ35urlk-0021.png)
Imagen 3 模型帶來了更具細節特征的圖片,如動物的胡須、人的頭發,絲毫畢現。
同時,去除了圖像中常見的偽影、雜質,使得圖片更加逼真。
文生視頻模型 Veo,60 秒 1080P 的短視頻,很快會有消費者版本
Veo 以 Google 多年生成式視頻模型為基礎構建,包括 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere,能夠理解文本內容,輸出高質量、高分辨率的視頻。
-XEzRZ35urlk-0023.png)
Veo 可以生成 1 分鐘時長 1080P 分辨率的短視頻,并能理解文本中的「延時拍攝、航拍」鏡頭拍攝風格。






谷歌表示,目前正在邀請電影制片人和創作者測試 Veo,以打磨出適用于消費者的版本。
生成式音樂工具 Music AI Sandbox
Music AI Sandbox 基于生成式音樂模型 Lyria,并與 YouTube、音樂家、創作者聯合打造。
利用 AI,音樂人可以在音樂中添加新的音樂元素、樂器聲,以生成全新的音樂曲目。
-XEzRZ35urlk-0022.png)
AI 重構搜索:全新 Overviews 亮相,視頻搜索在路上
以搜索見長的谷歌,這次索性用 AI 將搜索引擎折騰了個遍。
搜索引擎將支持語音、圖片、圈選,甚至是視頻搜索,給出的結果也將是多維度、極豐富的,谷歌稱這種新的呈現方式「Overviews 概覽」。

如簡單問題提問,搜索引擎可以給出帶有觀點性、內容性的不同內容回復。
對于復雜問題,AI 會將復雜問題分解為小問題,并按照順序,逐步呈現。
例如,當提出:我想報一個離我家較近、價格適中的瑜伽班?
搜索引擎就會基于需求,從海量的真實商家信息中,抽離出符合需求的課程。不僅如此,「Overviews 概覽」界面還會給出地圖、商戶的評價,甚至是瑜伽練習的要領提示等信息。
-XEzRZ35urlk-0026.png)
再比如,對于我們日常較為苦惱的飲食安排,你也可以在搜索引擎中直接提出:幫我安排為期七天的飲食菜譜,而即刻獲得包含圖片、文字、做法的搜索內容。

此外,谷歌還預告了「視頻搜索」功能。
會上透過一段用戶拍攝的唱片機搖臂安裝問題發起搜索。AI 通過對視頻逐幀分析后,一份包含唱片機廠商、型號,安裝方式等內容的「Overviews 概覽」即出現在眼前。
Workspace 獲 Gemini 1.5 加持,主打一個高效、協同辦公
谷歌辦公應用 Workspace 的更新,倒是有些看點。
Gmail、文檔、幻燈片、表格的側面板中的 Gemini 將升級至全新的 Gemini 1.5 Pro,通過上下文窗口和更高級的推理,提供服務。
-XEzRZ35urlk-0029.png)
如在 Gmail 中,Gemini 可以對多封郵件,進行關鍵信息提煉,形成一份待辦事項清單。
這當中谷歌列舉了兩個有趣的例子:
其中之一,丈夫發給妻子希望修繕屋頂的郵件。妻子利用 Gemini 在眾多供應商回應郵件中,快速尋找到合適價格、合理工期的供應商。并且 Gemini 還具體問題,生成了自動回復,這著實讓妻子大為滿意。
-XEzRZ35urlk-0031.png)
而另一個例子,是一個自由攝影工作者,在繁忙的工作中,收到各種出差時的差旅單據時,通過 Gemini 將單據快速生成條目清晰的表格。
另這位攝影工作者欣喜的是,Gemini 還能一鍵設置命令,Gmail 中所有同類單據都并入至一份表格,而可統一管理。
-XEzRZ35urlk-0032.png)
-XEzRZ35urlk-0033.png)
另外,針對職場常見的拉群工作溝通,谷歌還打造了一個由 AI 驅動的工作助理。
工作助理是一個虛擬同事,你甚至可以給它起名。
在群組內,它可以學習群內聊天內容、項目背景信息,慢慢進化到對項目了如指掌的狀態。
-XEzRZ35urlk-0034.png)
演示視頻中,工作人員向其發問:咱們的項目能如期上線嗎?
工作助理基于所掌握的信息,瞬間列明項目進度、待解決的重要事項,并且將任務發送給所負責的同事。
活脫脫一個項目經理啊!
Gemini 手機版 App 上新,多模態入口設計,可創作多角色聊天機器人
經過全新設計的 Gemini APP,直接以語音、圖片、視頻為輸入口,并能訪問 Gemini 最新的版本。
-XEzRZ35urlk-0038.png)
谷歌表示,Gemini APP 的愿景是成為最有用的個人 AI 助理。
基于此,Gemini APP 還提供支持創建 Gems 個性化聊天機器人,可讓用戶與不同角色的機器人對話。
會上 Google 就列舉了如瑜伽搭子、大廚、編碼伙伴等角色形象。
第六代 TPU Trillium 低調發布,性能提升 4.7 倍
作為 Gemini 等大模型背后的硬件支柱,第六代 TPU Trillium 在會上也僅作為配角低調發布。
-XEzRZ35urlk-0051.png)
就性能而言,Trillium 還算夠強大。會上谷歌表示,相比 TPU v5e,Trillium 每個芯片峰值計算性能提高了 4.7 倍,能效高出 67%。
其中 Trillium 還配備了第三代 SparseCore,一款處理超大嵌入的專用加速器。同時,Trillium TPU 可以更快速訓練下一代基礎模型,并以比較短的延遲時間及低成本提供模型服務。
智能助理 Project Astra 和 AR 眼鏡
Project Astra 是谷歌最新的實時多模態 AI 助理。
會上,演示者手持 Pixel 手機,演示了 Astra 與各種事務的多模態交互能力。

與 Pixel 手機先后出現的,還有首次亮相的一款新 AR 眼鏡。
有關這部分的詳細解讀,參考今天推送的第二篇。
主筆:達達 / 深圳灣
審校:周森 / 深圳灣
編輯:陳述 / 深圳灣