General EM for GMM

GMM에 EM을 적용해보자.

GMM에서 파라미터 $\theta$에 해당하는 것은 weight인 $\pi$, 위치인 $\mu$, 공분산인 $\sum$이다.

$\mu$와 $\sigma$는 위와같이 구해진다.

여기서 $\pi$의 constraint를 살펴보아야한다.

합이 1이되게 하는 부분에서 Normalization용으로 object의 갯수인 N을 사용한다.

가우시안의 weight가 q의 weight의 합에 비례하는것은 뭔가 직관적인것같다.

K-means from probabilistic perspective

K-means는 하나의 포인트가 하나의 클러스터에만 속한다.

이는 Hard clustering이다.

hard clustering에선 q가 그냥 제일 weight 높은거 하나에 몰빵하는 식이다.

위는 다음 문제를 푸는것과 같다.

K-means는 사실 GMM에 대한 EM과정인데,

그러므로 K-means는 GMM보다 flexible하지만 빠르다.

latent model을 이용해 투영과 잔차로 나타낼 수 있다.

prior가 투영된 것을 latent model으로 가우시안으로 표현하고

likelihood를 원래의 데이터를 만들어내는 가우시안으로 표현할 수 있다.

그런데 여기서 문제는 전부다 가우시안이라서 conjugate하여 latent model을 하여도 해석적으로 이를 풀 수 있게 되고, 이 때문에 원래의 PCA 공식과 똑같은 값을 얻는다는 것이다.

그래서 이러면 EM Algorithm은 필요없다.

그러나 missing values가 있다고 하면 이를 해석적으로 풀 수 없고, numerical하게, EM Algorithm을 적용할 수 있다.

E-step은 Analytical하게 간단히 구해진다.

M-step에선 sum과 E를 교환하고 위와같이 구해진다. 분포가 가우시안임을 잊지말자.

그런데 상수 Z는 $q_i$와 전혀 dependent하지 않으므로 위와같이 쓸 수 있다. Z에 대해선 기대값을 찾을 필요가 없는 것이다.

이는 이차방정식 형태로 나타난다. Gradient를 찾자.

이제 해석적으로 이를 풀 수 있다.

Allows for missing values
Straightforward iterative scheme for large dimensionalities(이러한 iterative한 방식은 어떤 경우 original PCA보다 훨씬 효율적으로 numerical하게 계산할 수 있다.)
Can do mixture of PPCA
Hyperparameter tuning (number of components or choose between diagonal and full covariance)