OpenAI 突然推送推送高級語音模式「Her」,又搶了谷歌風頭

9 月 25 日早,Google 發布兩款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。
在谷歌的系列模型中,Gemini Pro 屬于中號模型,付費用戶可以使用。而 Gemini Flash 則由 Gemini Pro 蒸餾而來,在今年 5 月的 Google I/O 上第一次亮相,目前用戶可以免費在 Gemini 中使用,開發者也有一定免費的 api 使用配額。
模型升級的重點主要為 1.5 Pro 價格降低 >50%、1.5 Flash 的速率限制提高了 2 倍,1.5 Pro 的速率限制提高了約 3 倍、輸出速度提高 2 倍,延遲降低 3 倍;過濾器切換為選擇加入。
不過,似乎 Google 今天的宣傳節點再一次被 OpenAI 提前知曉。OpenAI 同日宣布,OpenAI 的高級語音模式,將今日起開始對 Plus 和 Team 用戶推出。
5 月,Google 發布 Gemini 模型的大更新前,OpenAI 就曾提前搶開發布會,宣布很快會帶來高級語音模式,登上媒體頭條「個人助理 Her 就要來了嗎?」
接下來半年,高級語音模式的發布一再推遲,直至今日 Google 更新模型,OpenAI 立刻表示,本周內將推出語音模型。
除了之前已經劇透過的語音模式與人類在對話中的反應時間相近,會變換語調之外,還增加了個性化指令功能——可以直接指令模型說話說慢點,或者用一個特定的口音,同時可以記住你的名字和提前提供的信息給出更個性化的回復。
X 上有用戶不禁感嘆,OpenAI 已經養成了一個新愛好。等著 Google 發布一個更新,幾個小時后馬上發布一個更新。
01.Google Gemini Pro 價格下降一半
從 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一個大版本的更新,更多的是一次整體模型的升級。
降低價格是一個重要的更新重點。
Gemini 1.5 Pro 的輸入 token 價格降低 64%,輸出 token 價格降低 52%,增量緩存 token 價格降低 64%,適用于小于 128K token 的提示語,自 2024 年 10 月 1 日起生效。再加上上下文緩存,這將繼續降低使用 Gemini 構建應用的成本。
此外,1.5 Flash 的速率限制從 1000 RPM 提高到 2000 RPM,1.5 Pro 的速率限制從 360 RPM 提高到 1000 RPM。在接下來的幾周內生效。
Google 1.5 Flash 得到了 2 倍輸出速度和 3 倍更低延遲。
同時,Google 表示,發布的 Gemini 模型,默認不會應用過濾器,開發者可以根據其用例自行決定最佳的配置。Gemini 將繼續提供一系列安全過濾器,開發者可以根據需要為 Google 的模型應用這些過濾器。
Google 還表示,此次模型在數學、長上下文窗口和視覺方面取得了一定的進步。
在更具挑戰性的 MMLU-Pro 基準測試中,看到大約 7% 的性能提升。而在數學和 HiddenMath(一個內部保留的數學競賽問題集)基準測試中,兩個模型都取得了約 20% 的顯著進步。對于視覺和代碼使用場景,兩個模型在評估視覺理解和 Python 代碼生成的測試中表現也更好,提升范圍在約 2-7% 之間。
8 月份發布的 Gemini-1.5-Flash-8B 實驗模型也得到了新的更新。
Gemini 模型本身的亮點包括長上下文和多模態功能。由于 Gemini Flash 對開發者有部分免費額度,新更新可能對于開發某些應用有著很好的效果。
X 上的 AshutoshSrivastava 就表示,他使用 Google Flash 構建了一個應用,能夠在 1 分鐘內轉寫 13 分鐘的長音頻,且準確度很高(且免費)。在另一個應用中,他表示目標探測功能的表現也很不錯。
02.OpenAI 高級語音功能今日起推出
轉頭看 OpenAI 這邊。
凌晨兩點,OpenAI 宣布高級語音模式今日起開始向訂閱用戶推出,周內會全量進行推送。
根據 OpenAI 的宣傳片,與標準語音模式進行區分(黑色旋轉球),高級語音將以藍色旋轉球表示,并增加 5 個新語音。
此次發布的一個重要亮點是,OpenAI 表示,高級語音模式可以提供個性化定義。
在視頻中,OpenAI的研究員表示,用戶可以自定義指令,以讓模型以某種口音發音、記住事件以及用戶想要如何被稱呼等。
「你可以讓模型用特定的語速說話,也許是非常清晰地發音,慢慢地說話,用你的名字或你喜歡的稱呼來稱呼你。」研究員表示。
另一位研究員提供了一個例子,對模型輸入名字和所在城市,在向模型尋求周末的計劃時,模型會根據所在城市,進行更個性化的規劃。
高級語音對話目前僅適用于 ChatGPT Plus 和 Team 帳戶的用戶。免費用戶仍然可以訪問標準語音模式。
不過,Plus 和 Team 用戶每天仍然有高級語音的使用限制,并且每日限制可能會發生變化。當一天的高級語音還剩 15 分鐘時,OpenAI 會向用戶發出通知。
同時,使用高級語音模式無法使用 GPTs,即用戶設計的 OpenAI 的智能體。
高級語音模式因為對語音反應時間更敏感,在某些嘈雜的場景下,也更容易被打斷。
最后,OpenAI 還用高級語音模式搞了一個活,表示 ChatGPT 目前可以用五十多種語言表示「對不起,我遲到了,我不是故意讓你等這么久的。」
一個很有趣的點是,此次 Gemini 的發布,是由 Google 的 Logan Kilpatrick 主要負責對外溝通交流。
而 Logan Kilpatrick,正是 OpenAI 前開發者關系負責人。2024 年跳槽 Google。
而轉頭,此次 Google 發布新模型,OpenAI 就卡點發布高級語音模式。
OpenAI 此次宣布的時間點或許還有另外一個意義——此前外媒報道稱,Meta 公司本周將在 Meta AI 中推出名人語調的音頻對話功能。
在硅谷,AI 的戰爭還在熱火朝天的繼續。
本文鏈接:http://www.albanygandhi.com/news-23-1894.htmlOpenAI 突然推送推送高級語音模式「Her」,又搶了谷歌風頭
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
【申報】關于公開征集2024年朝陽區科技計劃儲備項目入庫的通知
中共北京市委 北京市人民政府關于北京市全面優化營商環境打造“北京服務”的意見
【解讀】對外投資合作情況如何?“雙節”促消費有哪些舉措?……商務部回應近期經貿熱點
量子半導體器件實現拓撲趨膚效應 可用于制造微型高精度傳感器和放大器
《國家科學技術獎提名辦法》政策解讀問答
《北京國際科技創新中心建設條例》
進一步促進北京老字號創新發展的行動方案(2023-2025年)
科技部關于公布2023年度全國優秀科普作品名單的通知
【征集】關于征集“2024中關村軌道交通國際創新創業大賽” 項目的通知
關于拓展跨境電商出口推進海外倉建設的意見(商貿發[2024]125號)
腳踏實地:DY月付額度怎么套出來,教你四個操作步驟
大吉大利:廣州從化代還信用卡取現,專業公司可靠,價格最低的地方
積塵自燃:羊小咩享花卡額度怎么提現(推薦這三個操作步驟)
萬事如意:惠州墊還信用卡,最好還款服務,流程簡單高效
三種方法:羊小咩便荔卡正規套取秒到商家!小白必讀:
確定下降!印度索托拉西布AMG510大約多少錢一盒?印度索托拉西布在國內可以買到嗎?
風馳電掣:海口代還信用卡取現,的6種刷法 (無視風控秒回款)
喜從天降:杭州臨安區墊還信用卡,的6種刷法 (無視風控秒回款)
大額必看秒到操作: 羊小咩享花卡額度怎么取現 一看就會
小白必懂:怎么找羊小咩便利卡秒到商家!商家教你秒回: