私募云通CHFDB公募基金数据库上线啦!小编已经迫不及待了,今天我们就用它来做基金仓位细分至行业层面的研究吧~
以下是笔者在这篇文章中想要着重分析的内容:
1. 基金仓位的管理与控制是基金投资中一个重要的指标,可以反映基金组合的风险暴露程度,也可以体现基金管理人在不同市场行情或市场极端条件下的投资风格与行为,本文仓位估算模型采用主成分分析与多元线性回归模型,首先介绍这些模型原理。
2. 本文使用一只混合型基金在2013至2017年之间的净值进行实证来估计持仓,并与期间每个季度披露的真实持仓进行比较。其中,仓位估计值在2014年与2016年间比较接近真实值,平均绝对误差为10%左右,然而2015年误差就比较大,尤其是2015年6月30这个时点,可能在此点前后两个月,基金持仓变化较大,一些上市基金公司半年报披露不能有太多股票,因此我们的分析手段不太适合。
3. 本文的实证公募基金数据来源于私募云通CHFDB数据库,也是我们私募云通上线的新功能板块,相比起私募基金的数据,公募库的设计包含了更多的信息。

一、研究目的
我们应该如何看待股票型基金仓位?其实基金仓位的意思是:基金投入股市的资金占基金净资产的比例,下限就是最低的比例。投入股市的资金如何计算?一般来说是股票成本或是股票市值。基金仓位的管理与控制是基金投资中一个重要的指标,可以反映基金组合的风险暴露程度,也可以体现基金管理人在不同市场行情或市场极端条件下的投资风格与行为,基金仓位的高低是影响其业绩的关键因素。由于公募基金的仓位每个季度公布一次,两次公布时间中投资者就很难获得基金的持仓情况,我们可以通过基金的收益表现与行业配置以及市场变化情况对基金的仓位进行测算,从而了解基金的持仓风格变化和投资策略。
市场中有几种常用的持仓测算方法:第一,可以直接用基金涨跌程度和大盘指数的涨跌程度比较,从而得出超额变化,方法简单,但误差很大。第二,可以用优化的思想,最小化残差来计算
第三,通过回归的思想计算,基本原理为

Y为基金的净值或收益率数据,Fn选择的是不同的指数,通过回归来估计αn的值,回归系数汇总的和即为基金的仓位。一般指数分为两类,一类为A股、创业板、中小板或者大盘股、中盘股、小盘股等指数。由于基金投资研究和绩效归因已经趋向于精细化,可以将基金仓位的研究细分至行业层面,即向“行业配置+个股选择”转变,以行业配置为基础的仓位测算的研究具有很强的指导意义,因此另一类指数为不同行业的指数,建筑、信息、房地产等。但是简单回归方法受限于多重共线性等问题,无法进行以行业指数为基础的仓位测算,使用较多的方法为差分法、岭回归以及主成分分析(下文称PCA),本文将使用PCA解决这一问题。
二. 模型原理
本文仓位估算模型采用主成分分析与多元线性回归模型,以下是主要的运作原理:
如果直接使用行业指数数据进行回归,回归系数会受到多重共线性的扰动,因此我们引入PCA,此方法是一种数据降维技巧,将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分,主成分使其尽可能地反映出原有变量族所涵盖的信息,并降低数据空间的维度。引入该方法后,可将原有行业指数简化为少数几个相关程度极低的主因分,而这些因子可解释原有行业指数族的绝大部分信息,在保存大量信息的前提下极大的降低了自变量间的相关性。
将个基收益率序列作为应变量,所构造的行业指数主成分得分作为自变量,建立多元回归模型,使用OLS估计截距项、回归系数和回归残差。回归系数可作为初步估计的仓位,截距项解释为其他投资品种的收益和可持续的择股收益的加总,残差项为不可持续收益。
三. 模型具体方法与步骤
PCA的目标是用一组较少的不相关的变量代替大量相关变量,同时尽可能保留初始变量的信息,这些推导做得到的变量称为主成分,它们是观测变量的线性组合。如第一主成分为:

它是K个观测变量的加权组合,对初始变量集的方差解释性最大。第二主成分也是初始变量的线性组合,对方差的解释性排第二,同时与第一主成分正交(不相关),后面每一个主成分都最大化它对方差的解释程度,同时与之前所有的主成分都正交,希望能用较少的主成分来近似全变量集。
先引入因子分析(EFA)中一个衡量因子是否适合做因子分析的检验, PCA时同样需要,因子分析需要从原始指标变量中筛选出几个具有代表意义的公共因子变量,从而来反映多个原始数据的信息。它要求原始指标变量之间有较强的相关性,否则就不适合进行因子分析。一般采用KMO(Kaiser-Meyer-Olkin)检验与Bartlett球度检验。
KMO检验统计量是用于比较变量间简单相关系数和偏相关系数的指标。当所有变量间的相关系数平方和远远大于偏相关系数平方和时,意味着变量间的相关性越强,原始指标越适合作因子分析。

Bartlett 球度检验的统计量是根据相关系数矩阵的行列式得到的,当行列式值较大,其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,即原始变量之间存在相关性从而适合作因子分析;反之则不适合。
PCA仍然需要做上述检验,因为因子分析有各种方法,主成分是其中的一类,而只有当多变量相关性比较大,才会有信息重叠,才可以降低维数,用较少的主成分来代替较多的原始变量,而这两个检验都是相关性检验,只有相关性充分才符合降低维数的要求,否则都相互独立就没有任何可以提取的主成分。
主成分的个数一般有以下几个准则:
1.根据先验经验和理论知识判断主成分;
2.根据要解释变量方差的积累值的阈值来判断需要的成分数;
3.通过检查变量间k*k的相关系数矩阵来判断保留的主成分数。
例如,在本文的实证中使用到第2种方法,28个申万行业指数进行PCA后,前3个变量方差的累计值超过阈值,因此使用3个变量作为主成分,来替代全部28个行业变量。

根据主成分初始特征值及碎石图,选择几个主成分对数据进行解释与分析,可以得到成分载荷用来解释主成分的含义。
主成分旋转的目的一方面在于判断旋转后主成分是否对原始数据描述依然很高,如果依然很高则主成分旋转具有一定意义,另一方面在于使主成分含义更加明确,即判断出原始数据分别在哪些主成分上有较高的荷载,从而更清晰地对原始数据进行解释与说明,也更好地进行接下来的分析。
在得到PCA相关结论的同时,我们也获取了主成分的得分矩阵,这将代替原始数据进行接下来本文的分析及验证,相比于原始数据,主成分矩阵不仅可以反映原始数据的信息,还在数据处理上进行量纲处理,得到科学准确的得分序列。
以经标准化处理后的个基日收益序列为因变量,前步所抽取主成分作为自变量,建立多元回归模型,估计主成分回归系数。

其中,
表示个基日收益,
表示抽取主成分的得分向量,
表示回归参数估计值向量。
利用因子载荷矩阵对主成分回归系数进行还原,经过变换后得到每个行业的回归系数,以该系数作为基金对该行业投资比例的估计,并将所有行业回归系数汇总值解释为基金的估计股票仓位。
四. 模型实证分析
样本基金:华夏成长混合
样本期间:2013.12.3-2017.1.26
期间每个季度披露持仓的时点作为中点,前后各回溯21个交易日作为回归时间序列。
(一)模型预测结果
首先考虑一只基金在某个季度时间上股票仓位估计值与季报公布的实际值之差作为个基预测误差。下表列示了样本基金在个每季度内的估计绝对误差。

可以看到,仓位估计值在2014年与2016年间比较接近真实值,平均绝对误差为10%左右,然而2015年误差就比较大,尤其是2015年6月30这个时点,可能在此点前后两个月,基金持仓变化较大,一些上市基金公司半年报披露不能有太多股票,因此我们的分析手段不太适合。此后可以有两个改进方向:1.缩短每个实证区间段,适用于相对高频交易的基金;2.在每个样本期间内,都进行一次主成分分析,要注意我们的实证全都是使用3个主成分,但是可能有个别期间用2个主成分就能解释80%以上的异方差特性,而有些期间却需要4个,因此要区别对待。
(二)仓位变动方向
仓位测算模型是对基金实际收益来源的抽象过程,其仓位变动方向具有实际参考意义,能够帮助我们了解基金对于未来市场的预期。为此计算了样本基金在统计区间内仓位实际值与估计值的相关系数。
为了更加精确的测度新方案预测基金仓位的有效性,引入无截距的一元回归模型,回归系数表示实际仓位变化1个单位时,估计仓位响应的敏感性,回归系数为1时意味着较完美模拟了实际仓位变动。若股票型基金的回归系数相对更大,则再次表明新方案对于股票投资占比更高的基金预测能力更强。
五 . 模型可能性结果分析
模型估计方面:在以上的模型中,我们只考虑了一只基金,依然可以考虑多只基金的估计问题,或分为偏股型基金或标准混合型基金,均考虑其平均估计绝对值以及估计绝对差在5%与10%以内的占比。
若混合型基金预测估计绝对差在5%与10%以内的比例低于股票型基金,可能的原因是该类基金投资比例较广,在债券、现金或其他投资占比较大。若混合型基金预测估计绝对差在5%与10%以内的比例高低于股票型基金,说明该类基金投资股票较多。
相关系数分析方面:可以考虑一只基金估计仓位与实际仓位的相关系数,也可以考虑所有混合型基金与股票型基金,若二者相关系数在高相关性区间占比较高,则认为模型估计较为准确。
一元回归模型方面:同样可以考虑所有基金估计仓位与实际仓位的回归问题,从而反映实际仓位变化1个单位时,估计仓位响应的敏感性,回归系数为1时意味着较完美模拟了实际仓位变动,若偏股型基金的回归系数大于混合型基金回归系数,则认为模型对于股票投资占比高的基金解释能力强,反之则认为对于股票投资占比高的基金解释能力弱。
六.小结
本文使用一只混合型基金在2013至2017年之间的净值进行分析,并与期间每个季度披露的真实持仓进行比较。其中,仓位估计值在2014年与2016年间比较接近真实值,平均绝对误差为10%左右,然而2015年误差就比较大,尤其是2015年6月30这个时点,可能在此点前后两个月,基金持仓变化较大,一些上市基金公司半年报披露不能有太多股票,因此我们的分析手段不太适合。
本文的实证公募基金数据来源于私募云通CHFDB数据库,也是我们私募云通上线的新功能板块,相比起私募基金的数据,公募库的设计包含了更多的信息。
例如,在基金表中,除了基本资料、基金费率、相关机构、业绩表现、基金规模表、分红拆分等,还会增加投资组合资产配置表(1.资产配置2.行业配置3.持股明细4.持债券明细5.其他证券6.货币市场基金投资组合剩余期限)以及业绩基准表(1.公募基金业绩比较基准的比重2.业绩比较基准日收盘价)、财务报表(资产负债表、净值变动表、利润表)、持有人结构(1.前十持有人2.持有人户数和结构)、基金评级(第三方评级:Wind,晨星、银河、上海证券等评级)、基金风格指标表(风格属性、系数等)。
另外,CHFDB同样也收录有基金经理、投顾公司的各类信息。以下是公募数据库表结构冰山一角:

私募云通
提供私募基金数据服务
包括通用数据和定制化数据服务
提供私募基金全市场分析
投资策略分析
基金产品业绩归因
投顾尽职调查
等服务
FOF EASY 注册/登陆网址:www.fofeasy.com
公司邮箱:service@fofpower.com
公司电话: 021-6859-1716
公司电话: 021-6859-1715
联系人:陈经理 134-7278-2097

讲了这么多,快来试用体验吧!
公司邮箱:service@fofpower.com
公司电话: 021-6859-1716
查看公司简介请猛戳下方“阅读原文”!)


