上一篇 AlphaGPT 解读留了一个开放问题:当所有人都用 LLM 挖因子,产出的因子能有效多久?AlphaAgent(论文链接,KDD 2025)直接回应了这个问题。它的核心观察是:LLM 生成的因子太依赖已有知识,产出的因子同质化严重,加剧因子拥挤,反而加速了 alpha decay。解决方案是在 LLM 因子生成的过程中加入三重正则化约束,逼迫模型探索结构上新颖、逻辑上自洽、复杂度可控的因子。

Alpha Decay:因子挖掘的核心矛盾

Alpha 因子的生命周期是量化投资里最残酷的现实之一。一个因子被发现后,随着越来越多资金追逐同一个信号,超额收益被逐渐套利掉,因子的预测能力(IC)持续下降,直到失效。这就是 alpha decay。

传统遗传规划(GP)挖出的因子衰减快,因为 GP 倾向于过拟合历史数据,生成过度复杂的表达式。LLM 方法(比如 AlphaGPT、RD-Agent)本来被寄予厚望,但论文指出了一个被忽视的问题:LLM 的预训练知识本身就是"公共知识",基于这些知识生成的因子天然缺乏独创性。大家用同一个 LLM、同一套算子库,产出的因子结构高度相似,等于大家在同一个池子里捞鱼。

AlphaAgent 的论文用实验数据验证了这一点:在 CSI 500 上,Alpha158(一组常用基础因子)的 IC 从 2021 年的 0.022-0.036 衰减到 2024 年接近零。GP 和其他 LLM 方法挖出的因子也呈现类似的衰减趋势。

AlphaAgent multi-agent workflow with regularized exploration

三重正则化:逼 LLM 走出舒适区

AlphaAgent 的核心贡献是一个正则化框架,在因子生成的优化目标里加入三个约束项:

$$ f^* = \arg\max_{f \in \mathcal{F}} \mathcal{L}(f(X), y) - \lambda \cdot R_g(f, h) $$

其中 \(\mathcal{L}\) 是因子的预测表现(IC 等),\(R_g\) 是正则化项,由三部分组成:符号长度 SL(控制复杂度)、自由参数数量 PC(防止过拟合)、以及表达式正则项 ER(综合了 AST 去重、假设对齐、特征数量惩罚)。下面分别展开。

AST 去重:结构层面的独创性

每个因子表达式被解析成抽象语法树(AST):叶子节点是原始特征($close$volume),内部节点是算子(TS_MINSMA),边是数据流。

两个因子的相似度定义为它们 AST 之间最大同构子树的节点数:

$$ s(f_i, f_j) = \max_{t_i \subseteq T(f_i), t_j \subseteq T(f_j)} \{|t_i| : t_i \cong t_j\} $$

新生成的因子需要和已有的因子库(比如 Alpha101)做比对。如果和已有因子的 AST 重叠度太高,直接拒绝。这逼 LLM 不能只是对已有因子做微小变体,必须在结构上探索新的组合方式。

AST 去重是三重正则化中对因子独创性贡献最直接的一项。论文的消融实验显示,去掉全部因子建模约束(AST 去重 + 假设对齐 + 复杂度控制)后,因子的命中率(hit ratio,即产出的因子达到收益阈值的比例)从 0.29 降到 0.16,下降了 45%。

假设-因子对齐:语义层面的自洽

LLM 生成因子分两步:先产生一个市场假设(hypothesis),再把假设翻译成因子表达式。问题是 LLM 经常"说一套做一套",假设说的是"捕捉流动性变化",生成的因子里却没有任何和成交量相关的算子。

AlphaAgent 用一个双重一致性打分函数来检查:

$$ C(h, d, f) = \alpha \cdot c_1(h, d) + (1 - \alpha) \cdot c_2(d, f) $$

\(c_1\) 检查因子描述 \(d\) 是否忠实于市场假设 \(h\),\(c_2\) 检查因子表达式 \(f\) 是否忠实于因子描述 \(d\)。两个打分都由 LLM 自身来评判(自我审查)。

这解决了一个 LLM 因子挖掘中很实际的问题:没有这层对齐,LLM 会"编故事",生成的因子和它声称的逻辑完全脱节。回测表现好只是因为过拟合,不是因为因子真的在捕捉假设描述的市场现象。

复杂度控制:防止过度工程

第三个约束直接限制因子表达式的复杂度:

  • 符号长度 SL(f):惩罚过深或过宽的 AST
  • 自由参数数量 PC(f):惩罚滚动窗口等超参数过多的因子

直觉很简单:一个因子如果嵌套了 8 层算子、用了 5 个不同的窗口参数,即使回测 IC 很高,过拟合的概率也极大。复杂度控制把这些过度工程的因子在生成阶段就过滤掉。

多 Agent 架构

AlphaAgent 用三个 LLM Agent 组成一个闭环:

Idea Agent 负责生成市场假设。它用 chain-of-thought 推理,输出包含四个部分:观察(当前市场状态和上一轮反馈)、知识(金融理论,动量、均值回归、行为金融等)、论证(把观察和知识连起来)、规格(具体的参数建议)。

Factor Agent 把假设翻译成因子表达式。它维护一个不断更新的知识库,记录哪些因子成功了、哪些失败了、失败的原因是什么(假设不对齐?结构太复杂?和已有因子太像?)。生成多个候选因子后,过三重正则化的筛选,只保留通过的。

Eval Agent 对因子做回测评估,从预测能力(IC、RankIC)、收益表现(年化收益、信息比率)、风险控制(最大回撤、稳定性)三个维度打分。评估结果以结构化反馈的形式传回 Idea Agent,驱动下一轮假设的调整。

每轮试验跑 5 个迭代轮次,论文实验共跑了 20 个独立试验。

实验结果

论文在 CSI 500(A 股)和 S&P 500(美股)两个市场做了测试。训练期 2015-2019,验证期 2020,测试期 2021-2025 年初。用 Qlib 做回测框架,LightGBM 做下游预测模型,交易策略是按预测收益排序选前 50 只股票。

对比了一堆基线:LSTM、Transformer、LightGBM、StockMixer、TRA(时序/树模型),AlphaForge(RL+DL)、RD-Agent(LLM,用 GPT-4-turbo),以及 OpenAI o1 和 DeepSeek-R1(深度推理模型)。

核心结果(2021-2024 年测试期):

AlphaAgent cumulative excess returns on CSI 500 and S&P 500

方法CSI 500 ICCSI 500 年化收益CSI 500 IRS&P 500 ICS&P 500 年化收益S&P 500 IR
LSTM0.01754.96%0.620.0028-1.51%-0.17
LightGBM0.0120-1.18%-0.160.0011-2.64%-0.42
AlphaForge0.01463.45%0.330.00262.45%0.34
RD-Agent0.01130.78%0.070.00191.69%0.17
DeepSeek-R10.01321.58%0.210.00482.75%0.24
OpenAI o10.01590.46%0.060.00282.29%0.20
AlphaAgent0.021211.00%1.490.00568.74%1.05

AlphaAgent 在所有指标上都是最优。CSI 500 累计超额收益约 45%,S&P 500 超过 37%。IR(信息比率)1.49 和 1.05 远超其他方法,说明收益不是靠承担大风险换来的。

更值得关注的是 alpha decay 的对比。论文画了 2021-2024 每年的 IC 变化:Alpha158 的 IC 逐年衰减到接近零,GP 和 RD-Agent 也在衰减,但 AlphaAgent 挖出的 15 个因子的 IC 在四年里保持在 0.02 左右,没有明显下降。这直接验证了三重正则化在对抗因子衰减上的效果。

AlphaAgent yearly IC and RankIC decay comparison

LLM 骨干的选择上,论文也做了对比:GPT-3.5-turbo(默认)、Qwen-Plus、DeepSeek-R1 都能跑,DeepSeek-R1 作为骨干时表现最好(S&P 500 年化 9.19%,最大回撤 -6.50%)。所有骨干相比 RD-Agent 的 p 值都小于 0.05,改进是统计显著的。

局限和思考

论文的结果很强,但有几个值得注意的点。

回测 ≠ 实盘。测试期是 2021-2025,但这是回测数据,不是实盘交易。CSI 500 的交易成本只算了 0.05%(买)+ 0.15%(卖),没有考虑冲击成本和滑点。对于选 50 只股票的策略来说,这个假设偏乐观。

GPT-3.5-turbo 作为默认骨干。论文大部分实验用的是 GPT-3.5-turbo,这在 2025 年已经不是最强的模型。用 DeepSeek-R1 做骨干效果更好,但论文只在 S&P 500 上做了骨干对比,CSI 500 上的骨干消融实验缺失。

因子的实际部署问题。论文每轮试验跑 5 个迭代、20 个独立试验,一共要调用多少次 LLM API?token 消耗和延迟在实际生产中是不是可接受的?论文没有给出具体的计算成本数据。

和 AlphaGPT 的关系。AlphaAgent 的 Idea Agent → Factor Agent → Eval Agent 闭环和 AlphaGPT 2.0 的人机协作闭环在结构上很像,核心区别在于三重正则化的加入。论文的消融实验只对比了"有正则化 vs 无正则化"(命中率从 0.16 到 0.29,提升 81%),但 AST 去重、假设对齐、复杂度控制各自贡献了多少,没有细粒度的拆分。

AlphaAgent ablation study on hit ratio, dev success rate, and token efficiency

Alpha decay 的本质是信息套利。AlphaAgent 通过强制因子结构的独创性来延缓衰减,但如果 AlphaAgent 本身被广泛使用,它产出的"独创"因子也会变成新的公共知识,重新进入衰减周期。论文的 AST 去重设计理论上可以缓解这个问题(因子库会不断更新),但长期效果需要实盘验证。