Beta & Dirichlet
베타 분포는 uniform distribution의 일반화, 혹은 binomial distribution의 연속버전이라고 볼 수 있다.
Dirichlet distribution은 multinomial distribution의 연속버전이다.
베타 분포의 자연스러운 확장이라고 볼 수 있다.
https://datascienceschool.net/view-notebook/e0508d3b7dd6427eba2d35e1f629d3de/
LDA
기본적으로 어떤 단어가 생성되는 규칙을 모델링하고, Latent한 변수를 추론하는 방법이다. 그러므로 Generative한 모델이다.
단어는 두가지 요인에 의해서 생성된다.
- 어떤 Topic에 Assign되었는가.(어떤 주제에 관해 쓸것인가)
- 어떤 Topic에서 특정 단어가 나오는 확률분포.(그 주제에 대해 어떤 단어를 사용할 것인가)
이를 반대로 적용해 어떤 단어가 어떤 토픽에 해당하는지, 토픽에 대해 특정 단어가 나오는 확률 분포에 대해서 추론한다.
https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/06/01/LDA/
유일하게 관찰 가능한것은 생성의 결과물인 ‘단어’ 뿐이다.
그런데 만약 z를 안다고 하면 phi나 theta를 추정하기 쉽다.
theta는 어떤 문서에 대한 topic distribution
phi는 어떤 topic에 대한 word distribution
핵심은 z를 추정하는 것이 된다.