패킷 스케줄링에 강화학습을 쓴건 특정 확률 분포가 정해져있는 상황이었다.
이런 상황에서 RL은 확률의 Fluctuation에 따라 Q값이 바뀌게 되는 것이다.
만약 Q값의 평균과 분산을 측정하면 어딘가에 수렴해야 하는것인데, 이 Q값은 정규분포를 따를 것이다.
정규 분포에 대해서는 RL 방식을 사용하기 보다는 통계적으로 즉시 계산이 가능할 것으로 생각된다.
그리고 Expectation Maximization 관점에서는 통계적인 값이 훨씬 높은 성능을 보일 것으로 예상된다.