RL for Packet Scheduling is scam

패킷 스케줄링에 강화학습을 쓴건 특정 확률 분포가 정해져있는 상황이었다.

이런 상황에서 RL은 확률의 Fluctuation에 따라 Q값이 바뀌게 되는 것이다.

만약 Q값의 평균과 분산을 측정하면 어딘가에 수렴해야 하는것인데, 이 Q값은 정규분포를 따를 것이다.

정규 분포에 대해서는 RL 방식을 사용하기 보다는 통계적으로 즉시 계산이 가능할 것으로 생각된다.

그리고 Expectation Maximization 관점에서는 통계적인 값이 훨씬 높은 성능을 보일 것으로 예상된다.