5.1 为何需要大样本理论
(1)小样本理论假设过强。如小样本的严格外生性假定要求解释变量与所有的扰动项正交,大样本只要求解释变量与当期的扰动项不相关即可
(2)在大样本下,必须要求统计量的精确分布,大样本只需研究精确分布
(3)大样本理论要求样本量在n≥30,越多越好
5.2 随机收敛
- 依概率收敛convergence in probability
$$\lim_{n\to +\infty}\mathtt{P}(||\mathtt{X}_n-\mathtt{X}||>\varepsilon)=0$$ 或$$x_n\stackrel{p}\longrightarrow a$$含义:$\mathtt{X}_n$与$\mathtt{X}$之差趋于0 - 确定性收敛almost sure convergence:
$$\mathtt{p}(\lim_{n\to+\infty}\mathtt{X}_n=\mathtt{X})=1$$含义:Almost sure的意思是,当n趋向于无穷,$\mathtt{X}_n$收敛到$\mathtt{X}$的概率为1
备注:确定性收敛可以推导出依概率收敛 - 依均方收敛convergence in L(k) norm (k=2即均方收敛):
- 如果$\lim_{n\to +\infty}\mathbb{E}(\mathtt{X}n)=a$,并且$\lim{n\to +\infty}\mathtt{Var}(\mathtt{X}_n)=0$,即期望趋于稳定,方差趋于0,则称随机序列$\mathtt{X}_n$依均方收敛于常数a;
- 如果把a换成其他随机序列,记为$\lim_{n\to +\infty}\mathbb{E}(|\mathtt{X}_n-\mathtt{X}|^2)=0$,表示两个随机变量的距离随着n趋向于无穷而变为0。均方收敛可以推出依概率收敛
- 依分布收敛convergence in distribution (D):
已知$\mathtt{F}_n(x)$是随机序列$\mathtt{X}n$的累积分布函数,$\mathtt{F}(x)$是随机变量$\mathtt{X}$的累积分布函数,如果对于任意实数x,都有$\lim{n\to +\infty}\mathtt{F}_n(x)=\mathtt{F}(x)$,则称:随机序列$\mathtt{X}_n$依分布收敛于随机变量$\mathtt{X}$,记为:
$$x_n\stackrel{d}\longrightarrow x$$5.3 大数定律和中心极限定理
- 弱大数定律
假定$\mathtt{x_n}$为独立同分布的随机序列,且$\mathbb{E}(x_n)=\mu$,$\mathtt{Var}(x_n)=\sigma^2$,则样本均值$\bar x=\frac{1}{n}\sum_{i=1}^nx_i\stackrel{p}\longrightarrow\mu$
含义:样本无限大时,样本均值趋近于总体均值 - 中心极限定理
含义:中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值,这些平均值的分布接近正态分布
- 一维情况:
$$\sqrt{n} (\bar x -\mu)\stackrel{d}\longrightarrow N(0,\sigma^2)$$
或$${\frac{\bar x_n-\mu}{\sqrt\frac{\sigma^2}{n}}}\stackrel{d}\longrightarrow N(0,1)$$ - 多维情况:
$$\sqrt{n} (\overline{\textbf{x}} -\textbf\mu)\stackrel{d}\longrightarrow N(0,\Sigma)$$5.4 统计量的大样本性质
- 均方误差
- 抽样误差:sampling error= $(\hat\beta-\beta)$
- 以估计量$\hat\beta$来估计参数$\beta$,则其“均方误差”(Mean Squared Error,简记为MSE)为MES($\hat\beta$)=$\mathbb{E}[(\hat\beta-\beta)^2]$
- 一致估计量
定义:如果$p\lim_{n\to +\infty}\hat\beta_n=\beta$,则称估计量$\hat\beta_n$是参数$\beta$的一致估计量
含义:当样本容量足够大的时候,$\hat\beta_n$依概率收敛到参数$\beta$,在大样本估计中,一致性比无偏性更重要 - 渐近正太分布和渐近方差
- 渐近有效
5.5渐进分布的推导
5.6随机过程的性质
- 平稳过程:统计特性不随时间的推移而变化的随机过程
- 严格平稳过程(strictly stationary process)指:对任意m个时期的时间集合$\left{t_1,t_2,…t_m \right}$,随机向量$\left{x_{t_1},x_{t_2},…x_{t_m} \right}$的联合分布等于随机向量$\left{x_{t_1+k},x_{t_2+k},…x_{t_m+k} \right}$的联合分布,其中k为任意整数。
含义:将$\left{x_{t_1},x_{t_2},…x_{t_m} \right}$中每个变量的下表都前移或后移k期,其分布不变 - 弱平稳过程(weakly stationary process)或协方差平稳过程(covariance stationary process)指:弱平稳过程的期望和房产均为常数,特别的,当期望和方差均为常数0时,称为“白噪声”
- 白噪声(AWGN)就是平稳过程,铙钹的敲击声是非平稳的。尽管铙钹的敲击声基本上是白噪声,但是这个噪声随着时间变化:在敲击前是安静的,在敲击后声音逐渐减弱
- 渐近独立性:举个例子,今年的通胀率显然与去年的通胀率相关,不会相互独立,但是今年的通胀率和100年以前的通胀率可以看做近似独立的,则成为“渐近独立”,记为:
$$\lim_{n\to +\infty}\left[\mathbb{E}(x_tx_{t+n})-\mathbb{E}(x_t) \mathbb{E}(x_{t+n}) \right]=0$$
直观来看:渐近独立意味着只要两个随机变量距离足够远,就可以近似认为他们是独立的 如果随机过程$x_n(i=1,2,…)$满足$$\mathbb{E}(x_i|x_{i-1},x_{i-2},…x_1)=x_{i-1},其中(i≥2)$$则称随机过$x_n(i=1,2,…)$为“鞍”
理解:资本市场有效理论认为,所有关于未来价格的已知信息已经反映在了当期价格上,故有$\mathbb{E}(p_{t+1}|p_t,p_{t1},…p_1)=p_t(i≥2)$,因此尝试预测价格的未来走势是徒劳的,但是如果信息不对称,则这个结论不一定正确若随机过程$x_n(i=1,2,…)$满足$$\mathbb{E}(x_i|x_{i-1},x_{i-2},…x_1)=0,其中(i≥2)$$则称随机过程$x_n(i=1,2,…)$为“鞍差分序列”,这意味着$x_i$的均值独立于它所有过去的值
- 鞍差分序列的中心极限定理(central limit theorem for ergodic stationary MDS):假设$g_i(i=1,2,…)$为渐近独立的平稳鞍差分随机向量过程,且其协方差矩阵为$Cov(g_i)=\mathbb{E}(g_ig_i^t)=\Sigma$,记$\overline g\equiv\frac{1}{n}\Sigma_{i=1}^ng_i$,则有:
$$\sqrt{n}\overline g\stackrel{d}\longrightarrow N(0,\Sigma)$$5.7 大样本OLS的假定
(1)线性假定
(2)渐近独立的平稳过程
(3)前定解释变量:即所有的解释变量都与同期的扰动项正交,即
$$\mathbb{E}(x_{ik}\varepsilon_i)=0$$
(4)秩条件:逆矩阵$\left[ \mathbb{E}(x_ix_i’)\right]^{-1}$存在,这个条件时为了保证大样本条件下$(\mathtt{X}’\mathtt{X})^{-1}$存在
(5)关于鞍差分序列的假定:$g_i$为鞍差分序列,其其协方差矩阵$S\equiv\mathbb{E}(g_ig_i’)=\mathbb{E}(\varepsilon_i^2x_ix_i^2)$为非退化矩阵