量化投资的核心工作之一是挖掘 Alpha 因子——找到能预测资产收益的信号。传统做法依赖研究员手工构造因子表达式,或者用遗传规划(Genetic Programming)等自动化搜索方法在算子空间里暴力枚举。前者依赖人的经验和直觉,效率低但因子可解释性强;后者效率高但产出的因子往往是一堆难以理解的算子嵌套,研究员很难判断它到底在捕捉什么逻辑。

AlphaGPT(论文链接)的思路是把大语言模型引入因子挖掘的流程,让 LLM 作为因子的生成器参与进来。后续的 AlphaGPT 2.0(论文链接)进一步引入了人机协作的闭环。

传统因子挖掘的困境

先理解问题。一个量化因子本质上是一个数学表达式,输入是股票的行情数据(价格、成交量、财务指标等),输出是一个数值,用来给股票排序或构建投资组合。比如经典的动量因子就是过去 N 天的收益率,价值因子可能是市盈率的倒数。

简单因子已经被挖得差不多了。要找到新的有效因子,通常需要更复杂的表达式,比如把多个基础算子(rank、std、corr、delay 等)组合起来。这个搜索空间是指数级的,人工探索效率太低。

遗传规划可以在这个空间里自动搜索,但有两个问题。一是搜索效率不高,大量计算资源花在评估无意义的表达式上。二是产出的因子缺乏可解释性,类似 rank(corr(delay(close, 5), volume, 10)) 这种表达式,虽然回测表现好,但研究员很难说清楚它背后的经济逻辑是什么。没有经济逻辑支撑的因子,过拟合风险很高。

AlphaGPT 的核心设计

AlphaGPT 的做法是用 LLM 替代或辅助遗传规划中的因子生成环节。具体来说,先用自然语言向 LLM 描述因子挖掘的任务,包括可用的算子集合、数据字段、因子表达式的语法规则等,相当于给 LLM 一个因子 DSL 的规范。

LLM 根据提示生成候选因子表达式。它在预训练阶段见过大量的金融文献和量化代码,对什么样的因子可能有效有一定直觉。生成的因子通常比随机搜索更有结构性,也更容易被人理解。

生成之后对因子进行回测评估,计算 IC(Information Coefficient,因子值与未来收益的相关系数)、IR(信息比率)等指标。回测结果再反馈给 LLM,让它在下一轮生成中调整方向,形成一个生成-评估-反馈的迭代循环。

这个设计的关键在于:LLM 生成的因子是有语义的。它不是盲目的算子组合,而是基于对金融概念的理解来构造表达式。比如 LLM 可能生成一个成交量加权的价格偏离度因子,这个因子本身就有可解释的经济含义。

AlphaGPT 2.0:人机协作

AlphaGPT 2.0 在此基础上引入了人类研究员的参与,形成了一个人机协作(Human-in-the-Loop)的闭环:

+-------------------+
|  Research Ideas   |  <-- 人类研究员提供方向
+-------------------+
         |
         v
+-------------------+
|    LLM Generates  |  <-- LLM 生成候选因子
|    Alpha Factors  |
+-------------------+
         |
         v
+-------------------+
|    Backtest &     |  <-- 自动化回测评估
|    Evaluation     |
+-------------------+
         |
         v
+-------------------+
|  Human Review &   |  <-- 研究员审查、筛选、
|  Feedback         |      提供新方向
+-------------------+
         |
         +-----------> 下一轮迭代

研究员可以在几个环节介入:提供初始的研究方向(比如"探索成交量异常与短期反转的关系")、从候选因子中筛选有经济逻辑的、对回测结果给出定性判断(比如"这个因子在小盘股上表现好可能是流动性幻觉")。

这种设计的价值在于结合了两边的优势:LLM 的搜索效率和广度,加上人类研究员的领域知识和判断力。纯靠 LLM 容易产出大量统计显著但经济无意义的因子,纯靠人工又太慢。人机协作找到了一个平衡点。

实际效果与局限

从论文报告的实验结果来看,AlphaGPT 在中国 A 股市场的因子挖掘中,产出因子的平均 IC 和 IR 优于传统遗传规划方法,同时因子的可解释性更好。

但这个方向也有明显的局限。

LLM 的金融知识来自预训练语料,这些知识有滞后性。市场是动态演化的,去年有效的因子逻辑今年可能已经失效。LLM 没有办法像人类研究员那样感知到市场微观结构的变化。

因子的搜索空间定义(可用算子、数据字段)仍然需要人工设计。LLM 只是在给定空间内搜索,它不会自己发明新的算子或新的数据源。真正的 Alpha 创新往往来自于找到别人没看过的数据,而不是在同一批数据上找到更复杂的组合。

另外,LLM 生成的因子之间可能有很高的相关性。如果不做充分的去重和正交化处理,这些因子组合到一起并不能提供额外的信息增量。

对量化研究的意义

AlphaGPT 代表的方向,本质上是把 LLM 当作量化研究员的副驾驶。它不会替代研究员,但能显著加速因子假设的生成和初步验证。研究员可以把精力集中在更有价值的工作上:判断因子的经济逻辑、设计组合构建方案、监控因子衰减。

从更大的视角看,LLM 在量化领域的应用不止因子挖掘。情感分析、事件驱动信号提取、研报自动摘要、代码生成辅助回测,这些方向都已经有了不少探索。AlphaGPT 的贡献在于它比较完整地定义了一个 LLM 参与因子挖掘的框架,给后续的研究提供了一个可参考的基线。

不过说到底,Alpha 是一个零和博弈。当所有人都用 LLM 挖因子的时候,这些因子能持续有效多久,是一个值得持续观察的问题。