전체 글
-
Loss functionsDeep Learning 2023. 10. 2. 14:57
본 포스팅은 Simon J.D. Prince 의 Deep Learning 교재를 스터디하며 정리한 글임을 밝힙니다.https://udlbook.github.io/udlbook/ 앞선 3개의 챕터에서는 linear regression, shallow network 그리고 deep network에 대해 공부했다. 각 챕터에서 input과 output을 맵핑하는 family of functions를 살펴보았고, 각 family of functions는 파라미터 ϕ\phiϕ 에 의해 결정된다. 이러한 모델들을 학습하는 것은 우리가 풀고자 하는 문제에 대하여 가능한 최선의 “input → output”을 맵핑하는 파라미터 ϕ\phiϕ를 찾는 것이다. 본 챕터에서는 “best possible” 맵핑이 의미하는 ..
-
Policy-GradientReinforcement Learning 2023. 9. 28. 23:39
Introduction지난 유닛에서 우리는 Deep Q-Learning을 배웠다. 이러한 Value-Based Deep RL 알고리즘에서 우리는 Deep Neural Network를 사용하여 서로 다른 Q-Value 들을 주어진 state에서 취할 수 있는 action들을 예측하였다.코스의 시작부터 우리는 value-based method, optimal policy를 찾는 중간 과정으로써 value function을 예측하는 방법만을 공부하였다.value-based method에서 policy π\piπ 는 단지 action-value를 추정하기 위해서만 존재한다. 이는 policy가 단지 주어진 state에서의 가장 높은 value를 갖는 action을 선택하는 함수이기 때문이다. Policy-Ba..
-
Deep Q-LearningReinforcement Learning 2023. 9. 28. 23:37
Introduction of Deep Q-Learning이전 시간에 Q-Learning을 배웠고 FrozenLake-v1 ☃️ and Taxi-v3 🚕 에서 좋은 성능을 보였다.간단한 알고리즘을 통해 훌륭한 결과를 얻었으나 이러한 enviroments는 사실 상대적으로 굉장히 심플한 편이다. 왜냐하면 state space가 discrete하고 작았기 때문이다. 예를 들어 Atari 게임의 경우 109−101110^9 - 10^{11}109−1011 개의 state를 가질 수 있다.이러한 경우 Q-table을 사용하여 결과를 내고 이를 update하는 과정은 비효율적이다.본 unit에서는 첫 Deep Reinforcement Learning Agent를 학습한다. 이를 Deep Q-Learning(이하 ..
-
Q-LearningReinforcement Learning 2023. 9. 28. 23:33
Two Types of Value-Based MethodsValue-Based Methods에서는 state가 주어졌을 때 어떤 state로부터 expected value를 학습한다.어떤 state의 value는 그 state로부터 시작해서 주어진 policy를 따랐을 때 agent가 받을 expected discounted return이다.💡하지만 Value-Based Methods에서는 Policy는 학습하지 않는데 무슨 Policy를 따른 다는거죠?우리는 앞서 Optimal Policy를 찾기 위해 두 가지 방법이 있다고 배웠다.Policy-Based Methods: 1. Policy를 직접 학습하고 2. State가 주어졌을 때 어떤 Action 을 취해야할지 바로 학습 3. Value-Funct..
-
Introduction to Deep Reinforcement LearningReinforcement Learning 2023. 9. 28. 23:21
SummaryRL에서는 reward를 feedback으로 받고 environment와 trial and error의 방법으로 서로 상호작용하여 이로부터 학습하는 agent를 생성합니다.모든 RL agent의 목표는 expected cumulative reward를 최대화하는 것입니다.RL process는 state, action, reward 그리고 next state를 output으로 갖는 일련의 sequence의 loop입니다.expected cumulative rewards를 계산하기 위해서 rewards를 discount합니다. 왜냐하면 더 미래에 더 가까운 reward가 미래에 먼 reward보다 예측 가능하며 더 받을 확률이 높기 때문입니다.RL problem을 해결하기 위해 optimal p..
-
Probability (Appendix C)Deep Learning 2023. 9. 28. 23:13
본 포스팅은 Simon J.D. Prince 의 Deep Learning 교재를 스터디하며 정리한 글임을 밝힙니다.https://udlbook.github.io/udlbook/1. Random variables and probability distributionsrandom variable xxx 는 어떤 값인데, 뭐가 나올지는 모르는 값 (quantity that is uncertain.) 이다. 이는 discrete 할 수도, continuous 할 수도 있다. 만약 random variable xxx의 몇가지 예시들을 본다면, 이들은 모두 그 값이 다를 것이다. 그리고 서로 다른 값을 취할 상대적인 편파도 (relative propensity to tatke different values) 를 ..
-
Basic Maths (Appendix A)Deep Learning 2023. 9. 28. 23:13
본 포스팅은 Simon J.D. Prince 의 Deep Learning 교재를 스터디하며 정리한 글임을 밝힙니다.https://udlbook.github.io/udlbook/NotationScalars, Vectors, Matrices and TensorsScalar는 small or capital letters, a,A,αa, A, \alphaa,A,α 로 표현된다. Column vector 는 small bold letters, a,ϕ\bold{a}, \bold{\phi}a,ϕ, 로 표현되며 row vectors는 이의 Transpose 인 aT,ϕT\bold{a^T}, \bold{\phi^T}aT,ϕT 로 표현된다. Matrices, Tensors 는 capital bold, B,Φ\bold..
-
Deep Neural NetworkDeep Learning 2023. 9. 28. 23:13
본 포스팅은 Simon J.D. Prince 의 Deep Learning 교재를 스터디하며 정리한 글임을 밝힙니다.https://udlbook.github.io/udlbook/Take Home2개의 SNN을 합쳐놓았을 때, 첫 번째 SNN은 input space를 joints 에 따라 folds 함. 두 번째 SNN은 piece wise linear function (linear transformation) 을 적용하는데 두 번째 SNN을 통과한 함수는 앞서 첫 번째 SNN이 접어놓은 space에 복붙됨.두 개의 SNN을 붙여놓은 DNN은 사실 2개의 hidden layers를 갖는 DNN으로 표현될 수 있음. ReLU activation은 입력을 clipping 하여 새로운 “joints” 를 추가한다..