-
Notifications
You must be signed in to change notification settings - Fork 20
数据问题提问 #7
Copy link
Copy link
Open
Description
在论文中,您提到基于日收益率将股票划分为四类趋势模式,围绕这一部分我有以下几点问题:
-
关于趋势样本数量的选取
文中提到“选取排名前 300 的股票作为上升趋势,排名后 300 的股票作为下降趋势,其余 300 只股票归为波动期”。我的理解是,这里是否对原始股票池进行了筛选或截断?因为实际可用的股票数量通常远大于 1000 只,不太确定这里是否是我理解有误,还是在构建数据集时做了规模控制。 -
关于序列特征与子数据集的选择方式
论文中提到“我们为每种模式计算序列特征,并选取其中最合适的五种”。我对此理解还不够清晰:
例如,15 年数据按 250 个交易日划分,大致会得到 15 个上升趋势片段,是否是基于这些片段计算若干指标(文中提到的 3 项统计特征),再从中挑选出指标表现最显著的 5 个作为最终的上升趋势子数据集?
这里是否存在较为明确的选择标准、可量化的筛选依据,或者在实际操作中您总结出的一些经验性原则? -
关于趋势标签的可判别性(个人尝试的一点体会)
这是我在实践中的一些个人想法。我尝试用半监督的方式构建一个较小规模的趋势数据集用于测试,但在人工标注过程中发现,对部分 K 线走势的趋势判断存在较强主观性:有些样本一眼即可识别,但也有不少边界模糊的情况。基于您的构建标准,您觉得整体数据集在趋势可判别性和监督信号强度上是否是比较显著和稳定的?
我目前仍处在学习阶段,无法保证上述问题都非常成熟或高效,如有表述不当或理解偏差之处,也恳请您多多包涵。
祝好,
徐子亮
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels