中國評測機構宣稱中國大模型已正式超越 GPT-4 Turbo，中文表現更好

流量密碼 提供科技、娛樂、流行、穿搭、影劇、遊戲、電競、開箱、資訊、正妹網紅女神 等各類新聞資訊等，發燒話題永不退流行，讓您第一手快速掌握，快速更新文章及最新消息的發布就是我們的宗旨，只要隨時關注流量密碼資訊就是掌握 流量密碼。

這一年很多中國公司都有推出自家的大語言模型，而且一直都會跟 OpenAI 的 GPT 模型比較，過去大多都只是標榜已經快追上 GPT-4，但最近中國權威大模型評測機構公布的最新測試報告顯示，中國國產大模型「日日新 5.0」已經正式超越 GPT-4-Turbo-0125 API，宣稱中文效能更好。

根據商湯公告，中國權威大模型評測機構 SuperCLUE 近日公布了「日日新 5.0（SenseChat V5）」的中文基準測試結果，最終獲得 80.03 的總分，比起 GPT-4-Turbo-0125 的 79.13 分還高，也超越 GPT-4 官網網頁版的 75.32 分：

GPT-4-Turbo-0125 是之前 OpenAI 為了解決 GPT-4 變懶惰所推出的版本，目前最新 GPT-4 Turbo 版本是「GPT-4-Turbo-2024-04-09」。

SuperCLUE 表示，他們的測試內容有多個項目，從理科的計算、邏輯推理、程式碼、工具使用，一直到文科的知識百科、語言理解、長文本、角色扮演、生成與創作、安全都有，總共有 2194 多道題目。

從下圖圖表可以看到，SenseChat V5 在許多方面都表現最好，但寫程式能力明顯落後 GPT-4 很多，也輸 Claude3-Opus，大約跟 Llam03070B-it(poe) 差不多：

而跟其他中國國產模型相比，SenseChat V5 就大獲全勝，每一個分數都遠高於平均水平，特別是在長文本部份。由此可見，這個模型似乎在寫中文文章方面特別強：

SuperCLUE 也有分享提問的問題示範，都是針對簡體中文，因此如果變成其他國家語言，SenseChat V5 表現一定差很多，甚至不支援。

值得注意的是，最近中國大語言模型似乎也開始掀起價格戰，不僅許多 AI 服務的 API 都降價，有些甚至改成永久免費，像是知名科大訊飛就在最近宣布 SPark Lite 全面免費開放，百度智能雲的文心大模型 ENIRE Speed、ENIRE Lite 也一樣變免費：

雖然中國大語言模型要追上 OpenAI 的 GPT 最新模型看起來還有一大段距離，但隨著中國價格戰開打，越來越多人使用，獲得的訓練數據越大，在簡體中文這塊或許會比想像中還要快超越。

日日新 5.0 更舊版本相比，主要更新亮點在「採用混合專家架構」、「基於超過 10TB tokens 訓練，大量合成數據」、「推理上下文窗口 200K」、「知識、推理、數學、代碼全面對標 GPT-4 Turbo」：

資料來源：商湯

流量密碼 致力於提供分享大量的最新資訊及資料，供所有使用者瀏覽轉發分享。本站提供 發燒話題 娛樂新聞影視娛樂正妹新聞遊戲資訊 奇聞軼事潮流物時尚生活科技資訊區塊鍊電競電玩體育新聞國際新聞 板塊。