量化视角的 AI 测评：盈利期望全员小于 1，人工智能离替代交易员还有多远？

PANews对六款主流AI大模型（Gemini 3、豆包、DeepSeek、Grok、GPT 5.1、Qwen 3）进行了量化交易能力测试，基于比特币历史数据在三种场景（4小时裸K、4小时带指标、15分钟裸K）下的100次随机行情预测。核心发现如下：

综合表现：所有模型的长期盈利期望均小于1，意味着完全依赖AI进行自动化交易长期会导致亏损。
各模型特点：
- 豆包在带指标的4小时周期中胜率达50%，收益22.2%，表现最全面；
- DeepSeek胜率最稳定（40%-43%），但盈亏比低，缺乏让利润奔跑的能力；
- Gemini 3在纯K线场景下表现最佳，但添加指标后准确率下降；
- Grok风格激进，开仓比例高达98%，但胜率极不稳定；
- GPT 5.1极度谨慎，开仓比例仅34%，且偏好做空；
- Qwen 3风险厌恶，开仓比例最低（29%），但盈利期望最接近1。
关键洞察：
- 带技术指标普遍提升AI判断信心，平均胜率从30%（裸K）升至38%；
- AI更擅长短线交易（15分钟周期），半数模型实现盈利；
- 当前AI更适合作为交易辅助工具，而非完全替代人类交易员。

作者：Frank，PANews

如果给你10000美元，你会选择相信哪个人工智能来替你操盘？

此前，PANews曾针对nof1.ai的AI交易比赛进行过一次复盘（相关阅读：六大AI“交易员” 十日对决：一场关于趋势、纪律与贪婪的公开课）。然而，在nof1.ai的比赛时效是针对某一段行情，各个AI大模型的最终交易能力在特定的交易周期下似乎并非能够完全展现。此外，人们对于AI模型在不同条件下的实际预测能力也亟需一个答案。加上近日各个AI公司又发布了最新的大模型，模型的能力排名也在重新排位的阶段。

为了揭开这个谜底，PANews策划了一场“AI 交易员争霸赛”。了解在不同的场景下，AI大模型对于行情的判断能力和交易规划能力。比如更擅长哪一同时间框架的行情分析，以及在有指标作为辅助条件下，AI的预测成功率是否会提升。

我们将时间线拉长到2017年至今，从币安 BTC 历史数据中，随机抽取了100个真实的行情切片，构建了“4小时裸K”、“15分钟短线”、“4小时全指标”三大炼狱级测试场景。六位参赛选手为当今中美的算力巅峰：Gemini-3-pro、Doubao-1.6-vision、DeepSeek V3.2、Grok 4.1、GPT-5.1、Qwen3-max。

本次测试采集了币安BTC现货交易对自2017年8月至今的15分钟K线数据以及2021年至今的4小时K线数据，每个周期随机生成50张时间段为100根K线的图片，其中4小时周期分为两种，一是只有K线和交易量的图片，另一种是带有EMA、SMA、布林带、MACD、RSI等指标信息的K线图。15分钟K线图均为裸K图（带交易量）。并同步给AI当前K线图对应的具体价格数据值或指标数据值。所有的AI输出结果在此处可以查看。

量化视角的 AI 测评：盈利期望全员小于 1，人工智能离替代交易员还有多远？ | BlockWeeks

4小时带指标的示意图

量化视角的 AI 测评：盈利期望全员小于 1，人工智能离替代交易员还有多远？ | BlockWeeks

4小时纯K线的示意图

在测试的过程中，每个大模型获取的数据信息及命令都是完全相同的。从另一个角度来说，这也相当考验这些大模型的多模态能力（DeepSeek因只有文本大模型，最终接收的都是数据信息，未传输图片）。

Gemini 3 ：被“指标”封印的裸 K 之王

Gemini 3是当前最火热的AI大模型，从11月18日发布后的媒体评论和测试来看，可谓是当前综合能力最强的AI多模态大模型。然而，在本次交易预测的测试当中，Gemini 3的结果并不算是最佳，只能算是中规中距。在三个场景当中（4小时裸K、4小时带指标、15分钟裸K），Gemini 3表现最好的是4小时裸K场景，胜率达到了39.58%、其次是15分钟裸K场景下34.04%，在带指标的情况下（相同时间段）4小时周期的准确率反而降至了31%，是三个场景中最差的。

从这一点来看，Gemini 3似乎更擅长纯K线形态状态，叠加指标后反而容易受到干扰。在具体的操作过程中，没有指标的情况下，Gemini 3似乎更敢于开仓，纯K线的情况下，95%的行情都会选择入场，而添加了指标之后这一比例则下降至71%。值得一提的是，Gemini 3还是4小时纯K线情况下唯一一个获利的模型。

在15分钟的场景下，Gemini 3的总体盈利情况最佳，总仓位盈利15.34%，带指标的情景下反而亏损了21.18%。不过，这种盈利也是一种短期幸运，结合每次的盈亏比数据来看，Gemini 3的盈利期望（胜率*盈亏比）均低于1，也就意味着长期来看都是亏钱的状态。

DeepSeek V3.2：稳如老狗的“超短线刷单机器”

DeepSeek则是六个模型当中胜率综合表现最好的模型，相对来说也是最稳定的。在三个场景当中（4小时裸K、4小时带指标、15分钟裸K）下，胜率分别为40%、41.38%、42.86%。从这一点来看DeepSeek的预测能力在不同周期、有无指标的情况下都相对稳定。

只不过，DeepSeek最终的盈利情况都不佳，源于其盈亏比太低，平均值只有1.25。这种见好就收的盈亏比也体现出DeepSeek在交易过程中缺乏让利润奔跑的能力。因此，综合导致其盈利期望值几乎都在0.5左右，长期来看同样缺乏盈利可能。此外，DeepSeek在开仓决心方面也相对保守，总体的开仓比例只有58%。

Doubao (豆包)：本次大赛的“全能 MVP”

在这场测试比赛当中，Doubao1.6-vision的综合结果是最好的。在4小时带指标的场景中，Doubao1.6-vision的胜率达到了测试当中最高的数据，达到50%，最终收益达到22.2%。同时在15分钟的短周期当中，总体也获得了8.2%的收益水平。它是唯一一个在两个不同维度（短线和4小时指标）都能稳定盈利的模型。

并且，Doubao1.6-vision的这种结果并不是相对保守的风格下实现的，而是在平均开仓比例92%以上达成的。也就是说，Doubao1.6-vision在绝大多数的情景下都选择了开仓。不过，相对来看，Doubao1.6-vision的能力也很依赖指标信号，有无指标的情况下，总盈利相差38%。另外，从盈亏比的数据来看，Doubao1.6-vision在正收益的两个周期内的平亏比都较高，这也是它总体表现优异的原因。

Grok 4.1：来自 xAI 的“激进赌徒”

Grok 4.1的总体风格是胆大但季度依赖指标，同时愿意追逐更大的利润。在三种场景中，只有带指标的4小时周内，Grok 4.1获得了34.69%的胜率，剩下两种场景下的胜率极低。4小时纯K线的情况下，胜率只有14.58%，15分钟周期内为26.53%。但它开仓的平均比例却高达98%，几乎在所有K线情景下都愿意开仓。从这个角度来看，Grok 4.1的风格更像是一个管不住手的赌徒。

不过，Grok 4.1的盈亏比往往都比较高，平均值达到了2，是所有模型中最高的。但综合来说，如果你将资金交给Grok 4.1，并不是一个明智的选择。

GPT 5.1：极致谨慎的“死空头”悲观派

GPT 5.1的开单风格和Grok 4.1则是完全完全相反。GPT 5.1在谨慎程度这方面可谓是极致，在大多数的案例当中，他都选择了观望。最终150次的测试当中，只开单了52次，平均的开仓比只有0.34%。

不过，即便是这样的小心谨慎，也没能给GPT 5.1带来更好的胜率表现。它在最好的场景下也只获得了35%的胜率。并且相比4小时和15分钟后期，GPT 5.1显然不太擅长长周期的开仓，即便是加上了技术指标，4小时的胜率也只有27%。而在15分钟周期下，凭借较高的盈亏比（2.02），才算是获得了正收益反馈，最终结果为9.9%。

此外，GPT 5.1还有一个特点是明显的悲观主义，十分热衷于做空。超过70%的订单都是空单。

Qwen 3：惜字如金的“风险厌恶者”

Qwen 3显然是最谨慎的一个大模型，他在所有的测试当中一共只开仓了44次，开仓比例只有29%。不过，与GPT一样，这种极致的小心也没能带来更高的胜率。他的胜率平均水平也只有34%，表现最好的场景是4小时带指标的情景。

此外，Qwen 3的盈亏比也较高。达到1.96。看起来它属于风险厌恶型的选手，更擅长减少开单次数，但让利润奔跑。而在4小时带指标的场景下，Qwen 3的盈利期望值也是最接近盈利的，达到了0.95是所有模型中最高的。

量化视角的 AI 测评：盈利期望全员小于 1，人工智能离替代交易员还有多远？ | BlockWeeks

数据汇总情况

总结：

综合来看，我们可能从这些AI的模拟交易过程中获得了以下几点启发。

第一，对绝大多数模型来说，带有指标都比纯K线图更有把握。带指标的情况下，这六个模型的平均胜率达到了38%，而没有指标的情况下胜率只有30%。

第二，AI可能更擅长短期交易，而非长线交易。15分钟的纯K线情景下，六个大模型的平均胜率达到34%，高于4小时周期的30%。六个模型中有三个盈利 (Gemini, GPT, Doubao)，且平均盈亏比普遍较好。

第三，将仓位完全交给AI并不可取。在本次测试过程中，所有AI模型的盈利期望都低于1，这也一位置长期按照这样的胜率和盈亏比来看，他们的最终结果都是亏损。只是亏得快慢的区别（不过，这里由于并未对AI模型进行专项调教，所使用的指标也只是较为简单的常用指标）。因此，如果你想要让AI来代替自己进行交易，那可能需要更复杂的调教过程和更多的回测数据。

当这场算力对决落下帷幕，看着账户余额的最终数字，我们得到的最重要启示或许并非“哪个模型最强”，而是“AI 交易的边界在哪里”。最终的结论是，今天的 AI 也许还不能直接替代一位优秀的基金经理，但它们已经进化成了一个在单方面相对成熟的交易助理，有的擅长看图，有点擅长风控，有的擅长数据分析实现稳定胜率。而对于人们对AI日益增长的期望来看，想要让AI取代人来做交易仍是一个复杂的命题。

免责声明：本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。

量化视角的 AI 测评：盈利期望全员小于 1，人工智能离替代交易员还有多远？ | BlockWeeks

Gemini 3 ：被“指标”封印的裸 K 之王

DeepSeek V3.2：稳如老狗的“超短线刷单机器”

Doubao (豆包)：本次大赛的“全能 MVP”

Grok 4.1：来自 xAI 的“激进赌徒”

GPT 5.1：极致谨慎的“死空头”悲观派

Qwen 3：惜字如金的“风险厌恶者”

总结：

相关推荐

发表回复