Difference between revisions of "NeymanPearson中文Spring2014" - Rhea

Revision as of 09:07, 2 May 2014

Hypothesis Testing

模式识别 的目标是将新观察的特征向量进行分类。为了进行分类的决定，需要通过魔钟判决规则(decision rule)。在 统计学模式识别 一般假设特征向量是个随机变量“X”，又有个概率密度函数或者概率质量函数，并且此函数依赖其分类。如下假设有两个类型：（ $ω 1,ω 2$ ）, 以便写公式也不失一般性。如此X的概率密度或质量函数是 $P (X | ω i)$ (如下称pdf)。每个类型的先验概率写成 $P (ω i)$ 。

统计学的主要部分之一是假设检验。下面描述假设检验在统计学模式识别的眼神。

贝叶斯（Bayes)判决规则

将 $g i (X)$ 是 $ω i$ 的后验概率(posterior probability)。选 $ω 1$ 或 $ω 2$ 的判决规则为: 如果 $g 1 (X) > g 2 (X)$ ,就选 $ω 1$ , 不然选 $ω 2$ 。据贝斯定理, 判决规则能以 似然比(likelihood ratio) $l (X)$ 表示:

$\begin{align} & g_1(X) > g_2(X) \\ \Rightarrow & P(\omega_1|X) > P(\omega_2|X) \\ \Rightarrow & \frac{P(X|\omega_1)P(\omega_1)}{P(X)} > \frac{P(X|\omega_2)P(\omega_2)}{P(X)} \\ \Rightarrow & P(X|\omega_1)P(\omega_1) > P(X|\omega_2)P(\omega_2) \\ \Rightarrow & l(X)=\frac{P(X|\omega_1)}{P(X|\omega_2)} > \frac{P(\omega_2)}{P(\omega_1)} = k \end{align}$

k 是个常数,而且由于 $P (ω 2) = 1 - P (ω 1)$ , k 可以看待是先验概率的比值（odds) 。为了评估判决规则的效果，需要计算錯誤的概率。假如 $r (X) = m' i' n [g 1 (X), g 2 (X)]$ 。贝叶斯错误(Bayes error)定义为：

$\begin{align} \\ \epsilon & = E(r(X)) = \int min(P(\omega_1)P(X|\omega_1), P(\omega_2)P(X|\omega_2))dX \\ &= P(\omega_1) \int_{R_2}P(X|\omega_1)dX + P(\omega_2) \int_{R_1} P(X|\omega_2)dX \\ &= P(\omega_1)\epsilon_1 + P(\omega_2)\epsilon_2 \end{align}$

以上的 $R i$ 定义为决策规则决定选 $ω i$ 的领域，然后 $ε i$ 是 $L i$ 选错的概率。

Neyman-Pearson 测试

统计学模式识别与统计学假设检验之间的关系

如果你曾经上过入门的统计学课，你大概能想起传统的 假设检验. 如下为例子:

一位人类学研究者对一名太平岛部落，认为此部落预期寿命比一般人长。把 $μ$ 定义为此部落预期寿命。全世界人口的预期寿命是67.2年。为了检验他的假设，他从公开记录随机选出了100个讣告作为随机样本,发现样本平均预期寿命是75，样本表春差是10。把 Xbar 定义为样本平均值，样本标准差 S，而且由于两都是来自随机样本，两都是随机变量。由于然后用如下的假设检验.
零假设 (H0): $μ <sub</sub> －67.2= 0$
对立假设(Ha): mu > 0
Test statistic:
$T = \frac{\bar{X}_A - \bar{X}_B}{\sqrt{(S^{2}_{A}+S^{2}_{B})/N}}$ .
中心极限定理就让我们假设 $T ～ N (0,1)$ .
决策规则: 若 $T < Z_{\frac{\alpha}{2}} \parallel T > Z_{\frac{1-\alpha}{2}}$ 则选H0不然选Ha.

如上的 $α =$ P(判决规则让选Ha | H0正确) = P(第一型错误)。反而第二型错误是判决规则让选H0|Ha正确.一般在这种假设检验，控制第一型錯誤的概率是最有限考虑。

在这

@@ Line 1: / Line 1: @@
-==Hypothesis Testing==
+== Hypothesis Testing ==
-'''模式识别''' 的目标是将新观察的特征向量进行分类。为了进行分类的决定，需要通过魔钟'''判决规则(decision rule)'''。在 '''统计学模式识别''' 一般假设特征向量是个随机变量“X”，又有个概率密度函数或者概率质量函数，并且此函数依赖其分类。如下假设有两个类型：（<math>\omega_1,\omega_2</math>）, 以便写公式也不失一般性。如此X的概率密度或质量函数是<math>P(X|\omega_i)</math> (如下称pdf)。每个类型的'''先验概率'''写成<math>P(\omega_i)</math>。
+'''模式识别''' 的目标是将新观察的特征向量进行分类。为了进行分类的决定，需要通过魔钟'''判决规则(decision rule)'''。在 '''统计学模式识别''' 一般假设特征向量是个随机变量“X”，又有个概率密度函数或者概率质量函数，并且此函数依赖其分类。如下假设有两个类型：（<span class="texhtml">ω<sub>1</sub>,ω<sub>2</sub></span>）, 以便写公式也不失一般性。如此X的概率密度或质量函数是<span class="texhtml">''P''(''X'' | ω<sub>''i''</sub>)</span> (如下称pdf)。每个类型的'''先验概率'''写成<span class="texhtml">''P''(ω<sub>''i''</sub>)</span>。
 统计学的主要部分之一是'''假设检验'''。下面描述假设检验在统计学模式识别的眼神。
-==贝叶斯（Bayes)判决规则==
+== 贝叶斯（Bayes)判决规则 ==
-将<math>g_i(X)</math> 是<math>\omega_i</math>的'''后验概率(posterior probability)'''。选<math>\omega_1</math>或<math>\omega_2</math>的判决规则为: 如果<math>g_1(X) > g_2(X)</math>,就选<math>\omega_1</math>, 不然选<math>\omega_2</math>。据贝斯定理, 判决规则能以 '''似然比(likelihood ratio)'''<math>l(X)</math> 表示:
+将<span class="texhtml">''g''<sub>''i''</sub>(''X'')</span> 是<span class="texhtml">ω<sub>''i''</sub></span>的'''后验概率(posterior probability)'''。选<span class="texhtml">ω<sub>1</sub></span>或<span class="texhtml">ω<sub>2</sub></span>的判决规则为: 如果<span class="texhtml">''g''<sub>1</sub>(''X'') &gt; ''g''<sub>2</sub>(''X'')</span>,就选<span class="texhtml">ω<sub>1</sub></span>, 不然选<span class="texhtml">ω<sub>2</sub></span>。据贝斯定理, 判决规则能以 '''似然比(likelihood ratio)'''<span class="texhtml">''l''(''X'')</span> 表示:
 <math>\begin{align}
@@ Line 15: / Line 16: @@
 \Rightarrow & l(X)=\frac{P(X|\omega_1)}{P(X|\omega_2)} > \frac{P(\omega_2)}{P(\omega_1)} = k
 \end{align}
 </math>
-k 是个常数,而且由于 <math> P(\omega_2) = 1 - P(\omega_1) </math>, k 可以看待是先验概率的比值（odds) 。为了评估判决规则的效果，需要计算錯誤的概率。假如
+k 是个常数,而且由于 <span class="texhtml">''P''(ω<sub>2</sub>) = 1 − ''P''(ω<sub>1</sub>)</span>, k 可以看待是先验概率的比值（odds) 。为了评估判决规则的效果，需要计算錯誤的概率。假如 <span class="texhtml">''r''(''X'') = ''m''''i''''n''[''g''<sub>1</sub>(''X''),''g''<sub>2</sub>(''X'')]</span>。'''贝叶斯错误(Bayes error)'''定义为：
-<math> r(X) = min[g_1(X), g_2(X)] </math>。'''贝叶斯错误(Bayes error)'''定义为：
 <math>
@@ Line 27: / Line 27: @@
   &= P(\omega_1)\epsilon_1 + P(\omega_2)\epsilon_2
 \end{align}
 </math>
-以上的<math>R_i </math> 定义为决策规则决定选 <math> \omega_i </math>的领域，然后 <math>\epsilon_i</math> 是<math>L_i</math>选错的概率。
+以上的<span class="texhtml">''R''<sub>''i''</sub></span> 定义为决策规则决定选 <span class="texhtml">ω<sub>''i''</sub></span>的领域，然后 <span class="texhtml">ε<sub>''i''</sub></span> 是<span class="texhtml">''L''<sub>''i''</sub></span>选错的概率。
-==Neyman-Pearson 测试==
+== Neyman-Pearson 测试 ==
-如果你曾经上过入门的统计学课，你大概能想起传统的 '''假设检验'''. 如下为例子:
-一位人类学研究生认为他所观察的两种部落有不同的各自高度。把
-<math>\mu_A </math>
-和
-<math>\mu_B </math>
-定义为 部落A和部落B的人均各自高度，所以等于说
-<math> \mu_A - \mu_B \neq 0 </math>。
-为了检验他的假设，他就从不哦啰A和部落B随机性地选出了N个人的样本，然后两侧各人的各自高度，最后算了样本均值
-<math>\bar{X_A},\bar{X_B}</math>
-和样本标准差
-<math>S_A^2,S_B^2 </math>。
-然后用如下的假设检验.
-零假设 (H0):
+=== 统计学模式识别与统计学假设检验之间的关系<br> ===
-<math> \mu_A - \mu_B = 0 </math>
-对立假设(Ha):
+如果你曾经上过入门的统计学课，你大概能想起传统的 '''假设检验'''. 如下为例子: <br>
-<math> \mu_A - \mu_B \neq 0 </math>
+<blockquote>
+一位人类学研究者对一名太平岛部落，认为此部落预期寿命比一般人长。把 <span class="texhtml">μ</span> 定义为此部落预期寿命。全世界人口的预期寿命是67.2年。为了检验他的假设，他从公开记录随机选出了100个讣告作为随机样本,发现样本平均预期寿命是75，样本表春差是10。把 Xbar 定义为样本平均值，样本标准差 S，而且由于两都是来自随机样本，两都是随机变量。由于 然后用如下的假设检验.
+零假设 (H0): <span class="texhtml">μ&nbsp;<sub</sub> －67.2= 0</span>
+对立假设(Ha): mu &gt; 0
+Test statistic:
-Test statistic:
   <math> T = \frac{\bar{X}_A - \bar{X}_B}{\sqrt{(S^{2}_{A}+S^{2}_{B})/N}} </math>.
-中心极限定理就让我们假设
-<math> T \sim N(0, 1) </math>.
-决策规则:
+中心极限定理就让我们假设 <span class="texhtml">''T''～''N''(0,1)</span>.
-若
-<math> T < Z_{\frac{\alpha}{2}} \parallel  T > Z_{\frac{1-\alpha}{2}} </math>
+决策规则: 若 <math> T < Z_{\frac{\alpha}{2}} \parallel  T > Z_{\frac{1-\alpha}{2}} </math> 则选H0不然选Ha.
-则选H0不然选Ha.
+</blockquote>
+如上的 <span class="texhtml">α = </span>P(判决规则让选Ha | H0正确) = P('''第一型错误''')。 反而'''第二型错误'''是判决规则让选H0|Ha正确.一般在这种假设检验，控制第一型錯誤的概率是最有限考虑。
-如上的
+在这<br>
-<math>\alpha = </math>P(判决规则让选Ha|H0正确)=P('''第一型錯誤''')。
-反而'''第二型錯誤'''是判决规则让选H0|Ha正确.一般在这种假设检验，控制第一型錯誤的概率是最有限考虑。