huggingface
-
[Daily Trends] 2024-02-21Daily Trends 2024. 2. 21. 12:18
Most Interesting HuggingFace Daily Papers Abstract ReviewFiT: Flexible Vision Transformer for Diffusion ModelProblem자연에는 이미지와는 다르게 해상도가 존재하지 않는다. 이러한 맥락에서, Diffusion Transformers와 같은 diffusion models들은 학습 데이터에 없는 (outside of thier trained domain) 해상도의 이미지에 대하여 처리하는 것이 어렵다.Propose이와 같은 문제를 해결하기 위해 해상도와 비율의 제한이 없는 이미지를 생성하도록 디자인된 transformer 아키텍쳐인 Flexible Vision Transformer (FiT) 를 제안한다. 이미지의 고정된..
-
Policy-GradientReinforcement Learning 2023. 9. 28. 23:39
Introduction지난 유닛에서 우리는 Deep Q-Learning을 배웠다. 이러한 Value-Based Deep RL 알고리즘에서 우리는 Deep Neural Network를 사용하여 서로 다른 Q-Value 들을 주어진 state에서 취할 수 있는 action들을 예측하였다.코스의 시작부터 우리는 value-based method, optimal policy를 찾는 중간 과정으로써 value function을 예측하는 방법만을 공부하였다.value-based method에서 policy π\piπ 는 단지 action-value를 추정하기 위해서만 존재한다. 이는 policy가 단지 주어진 state에서의 가장 높은 value를 갖는 action을 선택하는 함수이기 때문이다. Policy-Ba..
-
Deep Q-LearningReinforcement Learning 2023. 9. 28. 23:37
Introduction of Deep Q-Learning이전 시간에 Q-Learning을 배웠고 FrozenLake-v1 ☃️ and Taxi-v3 🚕 에서 좋은 성능을 보였다.간단한 알고리즘을 통해 훌륭한 결과를 얻었으나 이러한 enviroments는 사실 상대적으로 굉장히 심플한 편이다. 왜냐하면 state space가 discrete하고 작았기 때문이다. 예를 들어 Atari 게임의 경우 109−101110^9 - 10^{11}109−1011 개의 state를 가질 수 있다.이러한 경우 Q-table을 사용하여 결과를 내고 이를 update하는 과정은 비효율적이다.본 unit에서는 첫 Deep Reinforcement Learning Agent를 학습한다. 이를 Deep Q-Learning(이하 ..
-
Introduction to Deep Reinforcement LearningReinforcement Learning 2023. 9. 28. 23:21
SummaryRL에서는 reward를 feedback으로 받고 environment와 trial and error의 방법으로 서로 상호작용하여 이로부터 학습하는 agent를 생성합니다.모든 RL agent의 목표는 expected cumulative reward를 최대화하는 것입니다.RL process는 state, action, reward 그리고 next state를 output으로 갖는 일련의 sequence의 loop입니다.expected cumulative rewards를 계산하기 위해서 rewards를 discount합니다. 왜냐하면 더 미래에 더 가까운 reward가 미래에 먼 reward보다 예측 가능하며 더 받을 확률이 높기 때문입니다.RL problem을 해결하기 위해 optimal p..