AlphaGPT：用大模型挖掘量化因子

量化投资的核心工作之一是挖掘 Alpha 因子——找到能预测资产收益的信号。传统做法依赖研究员手工构造因子表达式，或者用遗传规划（Genetic Programming）等自动化搜索方法在算子空间里暴力枚举。前者依赖人的经验和直觉，效率低但因子可解释性强；后者效率高但产出的因子往往是一堆难以理解的算子嵌套，研究员很难判断它到底在捕捉什么逻辑。

AlphaGPT（论文链接）的思路是把大语言模型引入因子挖掘的流程，让 LLM 作为因子的生成器参与进来。后续的 AlphaGPT 2.0（论文链接）进一步引入了人机协作的闭环。

传统因子挖掘的困境

先理解问题。一个量化因子本质上是一个数学表达式，输入是股票的行情数据（价格、成交量、财务指标等），输出是一个数值，用来给股票排序或构建投资组合。比如经典的动量因子就是过去 N 天的收益率，价值因子可能是市盈率的倒数。

简单因子已经被挖得差不多了。要找到新的有效因子，通常需要更复杂的表达式，比如把多个基础算子（rank、std、corr、delay 等）组合起来。这个搜索空间是指数级的，人工探索效率太低。

遗传规划可以在这个空间里自动搜索，但有两个问题。一是搜索效率不高，大量计算资源花在评估无意义的表达式上。二是产出的因子缺乏可解释性，类似 rank(corr(delay(close, 5), volume, 10)) 这种表达式，虽然回测表现好，但研究员很难说清楚它背后的经济逻辑是什么。没有经济逻辑支撑的因子，过拟合风险很高。

AlphaGPT 的核心设计

AlphaGPT 的做法是用 LLM 替代或辅助遗传规划中的因子生成环节。具体来说，先用自然语言向 LLM 描述因子挖掘的任务，包括可用的算子集合、数据字段、因子表达式的语法规则等，相当于给 LLM 一个因子 DSL 的规范。

LLM 根据提示生成候选因子表达式。它在预训练阶段见过大量的金融文献和量化代码，对什么样的因子可能有效有一定直觉。生成的因子通常比随机搜索更有结构性，也更容易被人理解。

生成之后对因子进行回测评估，计算 IC（Information Coefficient，因子值与未来收益的相关系数）、IR（信息比率）等指标。回测结果再反馈给 LLM，让它在下一轮生成中调整方向，形成一个生成-评估-反馈的迭代循环。

这个设计的关键在于：LLM 生成的因子是有语义的。它不是盲目的算子组合，而是基于对金融概念的理解来构造表达式。比如 LLM 可能生成一个成交量加权的价格偏离度因子，这个因子本身就有可解释的经济含义。

AlphaGPT 2.0：人机协作

AlphaGPT 2.0 在此基础上引入了人类研究员的参与，形成了一个人机协作（Human-in-the-Loop）的闭环：

+-------------------+
|  Research Ideas   |  <-- 人类研究员提供方向
+-------------------+
         |
         v
+-------------------+
|    LLM Generates  |  <-- LLM 生成候选因子
|    Alpha Factors  |
+-------------------+
         |
         v
+-------------------+
|    Backtest &     |  <-- 自动化回测评估
|    Evaluation     |
+-------------------+
         |
         v
+-------------------+
|  Human Review &   |  <-- 研究员审查、筛选、
|  Feedback         |      提供新方向
+-------------------+
         |
         +-----------> 下一轮迭代

研究员可以在几个环节介入：提供初始的研究方向（比如"探索成交量异常与短期反转的关系"）、从候选因子中筛选有经济逻辑的、对回测结果给出定性判断（比如"这个因子在小盘股上表现好可能是流动性幻觉"）。

这种设计的价值在于结合了两边的优势：LLM 的搜索效率和广度，加上人类研究员的领域知识和判断力。纯靠 LLM 容易产出大量统计显著但经济无意义的因子，纯靠人工又太慢。人机协作找到了一个平衡点。

实际效果与局限

从论文报告的实验结果来看，AlphaGPT 在中国 A 股市场的因子挖掘中，产出因子的平均 IC 和 IR 优于传统遗传规划方法，同时因子的可解释性更好。

但这个方向也有明显的局限。

LLM 的金融知识来自预训练语料，这些知识有滞后性。市场是动态演化的，去年有效的因子逻辑今年可能已经失效。LLM 没有办法像人类研究员那样感知到市场微观结构的变化。

因子的搜索空间定义（可用算子、数据字段）仍然需要人工设计。LLM 只是在给定空间内搜索，它不会自己发明新的算子或新的数据源。真正的 Alpha 创新往往来自于找到别人没看过的数据，而不是在同一批数据上找到更复杂的组合。

另外，LLM 生成的因子之间可能有很高的相关性。如果不做充分的去重和正交化处理，这些因子组合到一起并不能提供额外的信息增量。

对量化研究的意义

AlphaGPT 代表的方向，本质上是把 LLM 当作量化研究员的副驾驶。它不会替代研究员，但能显著加速因子假设的生成和初步验证。研究员可以把精力集中在更有价值的工作上：判断因子的经济逻辑、设计组合构建方案、监控因子衰减。

从更大的视角看，LLM 在量化领域的应用不止因子挖掘。情感分析、事件驱动信号提取、研报自动摘要、代码生成辅助回测，这些方向都已经有了不少探索。AlphaGPT 的贡献在于它比较完整地定义了一个 LLM 参与因子挖掘的框架，给后续的研究提供了一个可参考的基线。

不过说到底，Alpha 是一个零和博弈。当所有人都用 LLM 挖因子的时候，这些因子能持续有效多久，是一个值得持续观察的问题。

传统因子挖掘的困境#

AlphaGPT 的核心设计#

AlphaGPT 2.0：人机协作#

实际效果与局限#

对量化研究的意义#

传统因子挖掘的困境

AlphaGPT 的核心设计

AlphaGPT 2.0：人机协作

实际效果与局限

对量化研究的意义