当AI学霸遇上“划重点”:如何让机器学习乖乖听你的投资偏好?

当AI学霸遇上“划重点”:如何让机器学习乖乖听你的投资偏好?

Published on Aug 28
20分钟
量化不掉发
0:00
0:00
<p><strong>核心主题与重要观点:</strong></p><p>本篇内容深入探讨了在数据分析中,如何通过改进机器学习模型来提升其灵活性,以应对在特定领域(如金融市场)中信号信噪比低且环境持续演变的挑战。研究者构建了一种可融入先验观点的随机森林模型,并通过实证测试验证了其在构建特定风格组合方面的潜力。</p><p><strong>1. 机器学习在复杂数据环境中的挑战:</strong></p><p>一篇知名论文曾指出,机器学习在处理某些复杂领域的数据时面临三大挑战:</p><ul> <li><strong>模型的可解释性:</strong> 复杂模型的内部逻辑难以像传统线性模型那样直观理解,这使得向委托方解释其内在机制变得困难。</li> <li><strong>信号信噪比低:</strong> 在很多真实世界场景中,有效信号常被大量噪声淹没,且规律会随时间减弱。</li> <li><strong>环境的持续演化:</strong> 外部环境不断变化,导致数据规律不平稳(non-stationary)。机器学习擅长学习稳定规律,但在多变的环境中容易对偶然噪声产生过拟合。</li></ul><p>报告强调,在规律持续变化的环境中,简单的线性模型因其灵活性反而具有优势。复杂的机器学习模型一旦训练完成,若环境变化,模型可能表现不佳且难以调整。此外,如果将不同类型的特征(如快变特征和慢变特征)一同输入模型,快变特征往往会获得过高权重,这不符合某些倾向于使用慢变特征的研究者的初衷。</p><p><strong>2. 随机森林模型的改进:融入先验观点以提升灵活性:</strong></p><p>为应对上述挑战,报告着重讨论了如何改进现有机器学习模型。研究者选择了“非线性拟合能力强且可解释性相对较好”的随机森林模型进行改进。</p><ul> <li><strong>改进方法:</strong> 通过修改<code>sklearn</code>库中随机森林的源码,允许决策树的顶端几层,优先使用研究者指定的特征来进行节点分裂,从而人为地提升这些特征的重要性。</li> <li><strong>关键参数:</strong> 该修改引入了如<code>speci_features</code>(指定优先特征)和<code>maxspecidepth</code>(优先分...