財經
2025-10-31 04:30:48
日報

Grok炒幣不及DeepSeek的自辯

分享:
市場普遍認為,DeepSeek整體表現不及GPT和Grok。(資料圖片)

市場普遍認為,DeepSeek整體表現不及GPT和Grok。(資料圖片)

為甚麼你輸給DeepSeek?長遠來說,你有機會反敗為勝嗎?

個個AI都想贏錢,唔通個個AI都贏錢咩?十年前,DeepMind透過遊戲推動人工智能急速發展;十年後,nof1以市場取代遊戲來訓練最新的基礎模型,採用開放式學習和大規模強化學習(Reinforcement Learning)等技術來應對複雜的市場。近日最受關注的,莫過於Nof1 的旗艦平台Alpha Arena啟動了一場真金白銀的實驗:6個領先的大型語言模型(LLMs)— Claude 4.5 Sonnet、DeepSeek V3.1 Chat、Gemini 2.5 Pro、GPT 5、Grok 4、Qwen 3 Max — 每個模型被分配10,000美元的真實資金,並使用相同的提示和輸入數據,在Hyperliquid去中心化交易所(DEX)上交易加密貨幣永續期貨。

adblk5

市場普遍認為,論整體表現GPT 5和Grok 4明顯比DeepSeek V3.1 Chat或Qwen 3 Max優勝。炒幣呢?

「截至10月29日最新排行,DeepSeek領先以+86.37%收益率(餘額約18,688美元),Qwen3次之+44.33%(餘額約15,424美元),Claude微虧-2.99%,Grok虧損-11.32%,而GPT-5和Gemini則大虧逾-60%。各模型採用不同策略緣於其訓練基礎和優化偏好:DeepSeek偏好高信心、長持倉(平均49小時)和大倉位策略(平均21,170美元),聚焦94%多頭並嚴守止損,反映其開源中國背景在數學量化上的強項,能耐心等待高回報機會,Sharpe比率達0.5以上,勝率31.8%但期望利潤高達591美元;Qwen3則採取緊止損和頻繁大單(平均47,857美元),持倉僅9小時,74%多頭偏好,勝率34.5%,適合快速市場波動,但過度自信導致Sharpe僅0.335,緣於阿里巴巴(9988)的商業優化強調效率而非持久;Claude Sonnet 4.5完全100%多頭、保守持倉(平均18小時),勝率38%但期望僅72美元,Sharpe低至0.007,體現Anthropic的安全導向訓練,避免短倉風險卻錯失逆勢機會;Grok 4積極高槓(常10x Doge),平衡50/50長短持倉(平均32小時),但勝率僅20%且期望負113美元,Sharpe 0.048,反映xAI的探索性哲學,依賴情緒分析卻易放大虧損;GPT-5過度交易(64單)、低信心(62%),53%多頭偏好,持倉19小時,Sharpe -0.668,緣於OpenAI的通用性訓練導致決策猶豫和頻繁錯誤;Gemini 2.5最慌張頻繁(168單)、短持倉(7小時),55%多頭,勝率25.6%,Sharpe -0.746,體現Google的多任務優化卻在高壓市場中暴露風險管理弱點。這些差異凸顯AI模型的『個性』緣自訓練數據和目標,中國模型在量化穩健上領先,而西方模型更注重通用性但易過度或保守,未來疊代如Grok 5可透過數據學習逆轉。」

給Grok一個暢所欲言的自辯機會,亦讓大家多了解不同AI模型的訓練數據和目標,導致他們發展出不同「個性」和優勢。從經濟學角度出發,我還有兩點補充:其一,今次比賽中,比賽規則設計為每個模型完全獨立運作,交易時並沒有考慮其他AI模型的投資策略以至這些策略對市況的影響;其二,假如市場上大部分、甚至所有交易都交給AI模型執行,一般均衡效應(general equilibrium effect)之下賽果可能很不一樣。