LLM-Trading-Lab：大语言模型投资决策实验框架

摘要

一句话总结 LLM Trading Lab 是一个由 6 个月真实资金（100美元）微盘股交易实验演变而来的基准框架，专门用于研究和评估大语言模型在真实市场环境下的投资决策与行为表现。

核心要点

实验背景：源自一个为期 6 个月的实盘项目，使用 100 美元真实资金，由 ChatGPT 在严格规则下管理微盘股投资组合。
技术栈：基于 Python 3.11+ 开发，主要数据源依赖 yfinance，备用数据源为 Stooq。
核心功能：内置曾在生产环境中使用的实盘交易引擎，支持基于 CSV 的每日投资组合记账与自动止损执行。
量化分析：提供 CAPM、夏普比率（Sharpe）、索提诺比率（Sortino）及回撤分析，并支持与标普 500 和罗素 2000 等传统基准进行对比。
极高透明度：采用“仅向前（forward-only）”模式，完整保留所有历史数据、研究产物、交易日志和 AI 决策对话记录，确保不可篡改与可审计性。
研究产出：提供了一份长达 40 页的 PDF 格式实验结果深度评估论文。
生态扩展：作者基于此项目开发了通用的 LLM 投资者行为基准框架（LIBB），并推荐用户使用 LIBB 来运行自定义的 AI 交易实验。

风险与局限性

交易领域的错误具有可衡量、不可逆且代价高昂的特点，该项目旨在进行客观测试与研究，而非单纯追求超额收益（Alpha）。
历史数据和实验结果作为档案被永久保留不可重写，新的实验和分析只能直接叠加在原有结构之上进行扩展。

功能与定位

LLM Trading Lab 最初是一个为期 6 个月的微盘股实盘交易实验项目（使用 100 美元真实资金，由 ChatGPT 在严格规则下管理投资组合），现已演变为一个基准框架，专门用于研究大语言模型（LLM）作为投资组合决策者的行为表现。该项目旨在提供一个完整、仅向前（forward-only）的 AI 交易实验记录，并为未来的 AI 驱动交易实验提供可复用的基础架构。

典型使用场景

AI 决策能力评估：在错误可衡量、不可逆且代价高昂的交易领域，测试“AI 可替代人类决策”的市场宣传是否真实有效。
LLM 投资行为研究：分析大语言模型在处理实时数据、执行交易选择和遵守硬性约束时的实际表现。
量化回测与基准对比：将 AI 的投资组合表现与传统市场基准（如标普 500、罗素 2000）进行对比分析。

核心功能

实盘交易引擎：包含曾在生产环境中使用的实时交易引擎。
LLM 驱动的交易选择：在严格的硬性约束条件下，由大语言模型执行交易决策。
投资组合与风控管理：支持基于 CSV 的每日投资组合记账，并内置自动止损执行功能。
数据分析与基准对比：提供 CAPM、夏普比率（Sharpe）、索提诺比率（Sortino）及回撤分析，并支持与标普 500 和罗素 2000 等基准进行对比。
全链路日志记录：完整保留所有历史数据、研究产物、交易日志和 AI 决策对话记录（Chats），确保透明度和可审计性。
深度评估报告：提供长达 40 页的 PDF 格式实验结果评估论文。

特色与差异点

极高的透明度与不可篡改性：实验采用“仅向前（forward-only）”的决策模式，所有历史产物保持不变，新的实验和分析直接叠加在原有结构之上，不重写过去的结果。
真实资金与实时数据：区别于纯理论回测，该实验使用真实资金和实时数据来验证 LLM 是否能产生超额收益（Alpha）或做出明智的交易决策。
生态延展性：项目不仅局限于单一实验，作者还基于此开发了通用的 LLM 研究框架 LIBB（LLM Investor Behavior Benchmark），并计划开展针对新上市 IPO 的未来实验。

使用方式概览

环境依赖：需要 Python 3.11 及以上版本，主要数据源依赖 yfinance，备用数据源为 Stooq。
运行自定义实验：如果用户希望运行自己的 AI 管理交易实验，项目推荐使用专门为此创建的通用框架 LIBB。

限制与注意事项

交易领域的错误具有可衡量、不可逆和代价高昂的特点，项目旨在进行客观测试与研究，而非单纯追求超额收益。
历史数据和实验结果作为档案被永久保留，新实验需在现有框架基础上进行扩展。

链接

仓库：https://github.com/LuckyOne7777/LLM-Trading-Lab

wsl-docs

探索