读书笔记:打开量化投资的黑箱(第2版)

比较著名的一本量化交易入门书,内容有点旧了,可以作为体系梳理,查漏补缺的参考。

量化系统的构成

Alpha 模型

  • 技术情绪型的因子平时做的比较少,一个例子是 put imp vol / call imp vol 作为一个因子(似乎在美国这个比率通常大于1,因为市场有急跌慢涨的特点,在中国未必);另一种做法是用成交量、换手率、公开市场利率作为因子,成交量因子通常是反向的。高频里的 orderbook imbalance 也是一种技术情绪因子。

  • 理论驱动型 vs 数据驱动型。这里作者说的数据驱动是指用机器学习的方法来创造因子。由于信噪比太低的关系,机器学习方法长久以来都不是很令人放心。直接在市场数据上运用是比较难做的,机器学习更多是用在 alpha 混合上,或是从另类数据上生成因子。

策略多样性

  • 预测目标:方向、幅度、运动持续时间
  • 持仓时间:日内、短线(1天2周)、中线(几周几月)、长线(几月~)
  • 投资结构:绝对 or 相对,对冲什么(市场、行业)
  • 投资范围:做哪些品种
  • 模型参数:训练模型的参数、历史数据长度、更新频率
  • 条件变量:就是我们通常说的过滤
  • 运行频率:是每月调整一次仓位还是每个 tick 都要判断,持仓时间确定后这一条也基本定了

策略可以在以上几个方面做差异化,分散风险。

混合 Alpha 模型

是指通过多个 alpha(因子)合成一个 alpha 的方法。

  • 线性:回归以确定权重
  • 非线性
    • 条件模型:以一个因子为过滤条件来使用另一个因子
    • 轮动 rotation:根据因子近期表现来调权重
  • 机器学习:树模型或者神经网络来混合因子
  • 不混合:对每个因子构建一个组合,再合成一个大组合

风险模型

  • 仓位控制
    • 强制规定一个最大仓位,也是最常用的方法。
    • 定一个惩罚函数,只有 alpha 足够大,才能开大仓位。仓位超出临界水平越多,增加仓位越难。
  • 风险度量
    • 波动率, VaR 之类的
    • dispersion(离散):不同品种相关性越高,风险越大。
  • 风险模型——哪些因素需要被控制
    • 理论驱动:利用金融知识识别风险。
    • 经验驱动:从价格数据寻找风险,例如用 PCA 分析出未命名的风险因子,可以和已知的风险因子对应起来,也可能是新的风险因子。

本章写得过于简略,风险的种类很多,市场内外都有,不同产品的风险也截然不同。风险度量的方法也有很多坑,都可以展开思考。

投资组合构建模型

主要还是在讲股票,每个股票都有一个或多个 alpha 值之后, 如何构建组合。

  • 基于规则
    • 等权
    • 等风险加权
    • 用 Alpha 决定权重
  • 基于优化:以 Markowitz 为起源的各种组合优化技术。

根据作者观察,alpha 模型会影响组合构建方法的选择,基于规则来构建组合的大多是做时间序列 alpha 的(绝对 alpha,以期货为主);基于优化模型的大多是做横截面 alpha 的(相对 alpha,以股票为主)。规则型背后的思想是整个组合是由一系列独立的投注构成,标的之间的相关系数矩阵没有用,优化型则相信标的间的相关性会在未来延续。

数据

  • 不能简单看到一个大幅变动的数值就认为是数据出错,数据清洗程序应该提示人工进行审核。
  • 时间戳的错误,最好在实时接收数据的时候就打上本地时间戳。
  • 使用 point in time 数据避免前视偏差(look-ahead bias)。
  • 数据储存可以考虑 data cube,三个维度:时间、品种、属性。

研究

研究思路来源:

  • 对市场进行观察
  • 学术文献
  • 人员在量化公司之间流动
  • 来自主观交易者的经验

考察策略:

  • 收益曲线
  • 平均年化收益
  • 收益率随时间的变化。收益率越稳定越好,用块度(lumpiness)来描述显著高于平均收益的时间段内的收益,占总收益的比例,即策略赚钱不应该只靠一两段暴赚的时期。
  • 最大回撤,或者各种改良版本。
  • 信号预测力,用r方表示,或者分组收益等等。
  • 胜率或盈利时间占比
  • 风险调整收益,sharpe、IR、sterling、calmar、omega 等等等。
  • 和其他策略相关性
  • 延迟开仓
  • 参数敏感性

防止过拟合方面就是模型不能过于复杂,避免参数孤岛,样本内外检验等常规操作。

量化策略的风险

  • 模型风险。模型不能代表真实情况,例如用正态分布去描述收益率,或者模型结构不符合实际情况。执行上的技术性错误也归在这一类。
  • 结构关系变化。即模型描述的规律变了。
  • 外生冲击(exogenous shocks),外部突发的事件,如战争、恐怖袭击、疫情或者政策等等,对带来模型无法理解的风险。这种风险比较难处理。
  • contagion(风险传染)或称为 common invester(同质投资者)风险。许多表面不相关的策略其实在某些风险因子上都有相同的暴露,一旦一方发生危机,清算平仓行为会引起其他投资者的亏损,发生连锁反应,造成流动性危机。书中具体分析了2007年8月美国量化市场大崩溃的案例,我们A股市场里,15年也经历了一大波强连锁反应造成的股灾;而量化策略在19年11月开始的一波集体回撤,也可以匹配上书里说的原因。

评估量化策略和团队

作者列的一个清单,作为考察量化团队的一套问题,以后有这样需求的时候可以参考。对于量化团队或策略所拥有的优势(edge),一般有以下几种:

  • 投资过程优势(investment process edge)也就是在前述的量化体系的每个环节都做得比市场中位数水平好,包括研发流程和实际交易流程。
  • 数据优势(data edge)有独家数据,这个比较少会有这种情况。一般数据优势在于研发系统收集多少数据、清洗质量、数据存储系统是否高效。
  • 缺乏竞争优势(lack-of-competition edge)需要比别人更早的去发现某些领域的交易机会,慢慢竞争者会多起来,利润空间慢慢压缩。
  • 结构优势(structural edge)通常是市场的规则带来的优势,最常见的比如返佣,或是国外交易所的流动性回扣。

其他

  • 第2版作者完全新增了 HFT 的章节,感觉主要就是为高频公司洗白。这部分对我帮助不大。
  • 美国的高频者会看 ES(股指期货 mini 合约)来做现货,国内股指也是期货领先现货。
  • 风险检查交给 broker 的系统做的话会特别慢,所以美国高频公司会自建经济公司,这样就能写自己的柜台风控模块了。
  • 谈到向 quant 套话的方法时,作者推荐了一本书 The Interrogator,其中的几个要点:建立信任;当你知道对方大量信息时,再获取一条额外信息会更容易;对获取的信息要有序组织管理。