Skip to content

2022/10/23一些说明 #1

@HaoningChen

Description

@HaoningChen

我们使用平安银行的3秒钟股票数据,拟合了它的收益率,进而计算出它的股价

为了避免数据泄露,我们构建的特征将全部使用历史数据(即滞后项)和时序特征(只与当前的时间有关)

为了构建时序特征,我们将从趋势(trend)、季节(seasonality)和周期三个角度对目标值ret进行分析(即Auto_ts_ana)

随后,我们清除缺失值,并分别对目标值和特征,训练集和测试集进行标准化(在机器学习领域,数据最好都呈正态分布,因此需要标准化),同样地,为了避免数据泄露,我们使用训练集的数据特征对所有数据进行标准化

最后我们拟合模型,我们还可以更进一步查看模型的shapley value,从而保证模型的可解释性

#########################################################################################

拓展阅读资料:

评估数据集质量(特征选择)

标准化石川,刘洋溢,连祥斌 因子投资方法与实践p301~302(在scutquant中我们采用的是5倍标准差)

时间序列季节性

时间序列周期性(滞后项)

#########################################################################################

录屏:链接:https://share.weiyun.com/fdgBJTE1 密码:btg9ux

#########################################################################################

大家有问题也可以在Issue区留言

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions