Coursera - Bayesian Methods for Machine Learning

Think Bayesian & Statistics Review

Basic Principle

어떤 사람이 공원에서 달리는 것을 보았다.

가장 타당한 설명은 무엇인가?

Principle 1: Use prior knowledge

드래곤은 존재하지 않는다는 것을 안다. 4번 제외

Principle 2: Choose answer that explains observations the most

스포츠 수트를 입고있지 않으므로 2번은 아니다.

Principle 3: Avoiding making extra assumptions

세번째는 추가적인 가정이 들어갔으므로 제거해야한다.

Occam’s Razor

이 원칙들은 오캄의 면도날이라고 한다.

Review of probability

확률

확률변수

이산, 연속 : PMF, PDF

독립

조건부 확률

$P(X$|$Y)=\frac{P(X,Y)}{P(Y)}$

\[\text{Conditional} = \frac{\text{Joint}}{\text{Marginal}}\]

Chain rule

$P(X,Y)=P(X$|$Y)P(Y)$

$P(X,Y,Z)=P(X$|$Y,Z)P(Y$|$Z)P(Z)$

Sum rule

\[p(X)=\int_{-\infty}^{\infty}p(X,Y)dY\]

위는 Marginalization하는것

Bayes theorem

$\theta$ - parameters

$X$ - observations

$P(\theta$|$$X)=\frac{P(X,\theta)}{P(X)}=\freac{P(X

\theta)P(\theta)}{P(X)}$$

좌변은 Posterior

우변은 각각 Likelihood와 Prior

분모는 Evidence

Bayesian approach to statistics

Uncertainty interpretation

Frequentists는 대상을 objective하게 여기고,

Bayesians는 대상을 subjective하게 여긴다.

Frequentists는 코인이 던져지면 어쩔 수 없이 50대 50확률로 앞 뒤가 나올것이라고 생각한다.

Bayesians는 초기 조건, 동전이 던져지는 속도 등에 따라 확률을 알 수 있을 것이라고 생각한다.

Data and parameters

Frequentist는 $\theta$는 고정되어있고 $X$가 랜덤이라고 생각한다. 그래서 optimal point를 찾고싶어 한다.

Bayesian은 $\theta$가 랜덤이고 $X$는 고정되어있다고 생각한다. 이는 어떤 모델을 학습시키려고 할 때 데이터는 이미 가지고 있고, 그 데이터는 고정이기 때문에 말이 된다.

Frequentist는 $$\left

X \right

> > \left

\theata \right

$$ 일때만 가능. 데이터가 파라미터보다 훨씬 많을 때.

Bayesian은 어떠한 갯수의 데이터라도 가능.

Training

Frequentist는 Maximum Likelihood Principle에 따라 학습한다.

$\hat{\theta}=argmax_{\theta}P(X$|$\theta)$

파라미터가 주어졌을 때 데이터가 나올 수 있는 확률을 최대화하는 파라미터를 찾으려고 한다.

Bayesian는 posterior를 계산한다.

$P(\theta$|$$X)=\frac{P(X

\theta)P(\theta)}{P(X)}$$

이들은 데이터가 주어졌을 때 파라미터의 확률을 계산한다. 이 때 Bayes 공식을 활용한다.

Classification

tr은 training

ts는 test

Regularization

prior를 Regularizer로 여길 수 있다.

동전 앞면이 나올 확률을 계산한다고 하면, bias에 따라 prior의 distribution을 다르게 설정할 수 있다.

fair하다고 생각하면 0.5 주위로 종모양의 distribution

unfair하다고 생각하면 head쪽에 조금 더 높은 종모양.

On-line learning

posterior를 계산한 것을 바탕으로 새로운 prior를 다시 학습에 이용할 수 있다.

점점 성능이 좋아지고 variance가 줄어든다.

Probabilistic Model

Bayesian network

사이클이 있는 경우는

MRF

https://en.wikipedia.org/wiki/Markov_random_field

이렇게 그래프로 표시하는 모델을 Graphical Model이라고 하는데 랜덤변수간의 의존도를 직관적으로 보여준다.