JoonoJoono

매쓰플랫 문제 풀이 기록을 바탕으로 한 학생들의 정량적 실력 평가 방법

카테고리 없음 2025. 1. 23. 17:02

Introduction최근 석사 과정을 마치고 취업을 준비하며 입시 학원에서 일을 하고 있다. 이 학원은 학생들의 실력을 기반으로 S반, A반으로 나누어 수업을 진행한다. 수업 내용 자체가 다른 것은 아니지만 매일 보는 일일테스트의 난이도, 숙제의 양 그리고 단원별 나가는 진도의 속도가 다르다. 시간이 지나며 학생들의 실력이 분명히 변하고 S반, A반에서 이동해야할 학생들이 분명히 생긴다. 이러한 학생들의 실력 변화를 측정하기 위한 기존의 방법은 "반배치고사"를 실시하는 것이다. 반배치고사는 길어야 1시간 남짓한 시간에 풀어낸 문제의 점수를 바탕으로 학생의 실력을 나타낸 것이기 때문에 운적인 요소를 배제하기 어렵다. (계산 실수로 한 문제 틀린 학생보다 찍어서 맞춘 학생이 높은 점수를 받는다는 의미이다...

[Daily Trends] 2024-02-21

Daily Trends 2024. 2. 21. 12:18

Most Interesting HuggingFace Daily Papers Abstract ReviewFiT: Flexible Vision Transformer for Diffusion ModelProblem자연에는 이미지와는 다르게 해상도가 존재하지 않는다. 이러한 맥락에서, Diffusion Transformers와 같은 diffusion models들은 학습 데이터에 없는 (outside of thier trained domain) 해상도의 이미지에 대하여 처리하는 것이 어렵다.Propose이와 같은 문제를 해결하기 위해 해상도와 비율의 제한이 없는 이미지를 생성하도록 디자인된 transformer 아키텍쳐인 Flexible Vision Transformer (FiT) 를 제안한다. 이미지의 고정된..

[Deep Learning] Chapter12 Transformers2

Deep Learning 2024. 1. 9. 19:13

12.5. Transformers for Natural Language Processing지금까지 transformer 구조에 대하여 공부하였다. 본 섹션에서는 transformer 가 어떻게 NLP tasks에 사용되는지 소개한다. NLP tasks 들은 text 를 words 혹은 word fragments 와 같은 token 으로 나누는 tokenizer 로 시작을 한다. 그리고 각 token 들은 사전에 학습된 embedding 으로 mapping 된다. 그리고 embeddings 는 series of transformers 의 입력으로 주어진다.이들이 순서대로 어떻게 동작하는지 살펴본다.12.5.1. TokenizationText processing pipeline 은 tokenizer 로 시작..

[Deep Learning] Chapter12 Transformers1

Deep Learning 2024. 1. 9. 19:08

Chapter 10에서는 convolution operation 을 사용하여 각 이미지의 패치를 shared parameters로 processing 하는 방법을 공부하였다.본 챕터에서는 Transformer 를 소개함. 원래는 NLP tasks 를 위한 모델임. Language datasets은 사실 이미지 datasets의 특성과 맞물리는 부분이 있다. 예를 들어, 입력 variable의 dimension 이 크고, 각 포지션마다 확률적 특성이 비슷하다. 또한 각 포지션에서 “dog” 란 단어를 새로 학습할 필요가 없다. (positional invariance)12.1. Processing Text DataTransformer를 이해하기 위해 다음과 같은 예시를 보자위 예제를 보면 크게 세가지를 알..

[Deep Learning] Chapter11 Residual Networks

Deep Learning 2024. 1. 9. 18:47

Chapter 10에서는 CNN에 대하여 공부하고 그 중에서도 AlexNet, VGGNet과 같은 traditional CNN을 살펴보았다. 여기서 AlexNet은 8개의 layers를 가졌고, VGGNet은 18개의 layers를 가졌는데 VGGNet이 더 좋은 성능을 보여 Deeper networks가 더 나은 성능을 기대할 수 있다고 보았다. 하지만, 더 많은 훨씬 더 많은 layer를 추가하자 오히려 다시 성능이 감소하는 현상을 관측하였다. 본 챕터에서는 network를 더욱 deeper하게 설계할 수 있는 기술인 residual connection (skip connection) 과 batch normalization 에 대하여 공부한다.Residual connection과 batch norma..

[Deep Learning] Chapter10 Convolution Networks

Deep Learning 2024. 1. 9. 18:47

Preface10.1. Invariance and Equivariance10.2. Convolutional Networks d for 1D Inputs10.2.1. 1D Convolution Operation10.2.2. Padding10.2.3. Stride, Kernel Size and Dilation10.2.4. Convolutional Layers10.2.5. Channels10.2.6. Convolutional Networks and Receptive Fields10.2.7. Example: MNIST-1D10.3. Convolutional Networks for 2D Inputs10.4. Downsampling and Upsampling10.4.1. Downsampling10.4.2. Upsa..

[Deep Learning] Chapter9 Regularization

Deep Learning 2024. 1. 9. 18:46

Chapter 8 에서는 model 의 performance 를 측정하였고 학습 데이터와 테스트 데이터 간의 큰 성능 차이가 존재한다는 것을 확인했다. 이러한 차이의 원인으로는 다음과 같다. (1) 모델이 학습하는 것은 true underlying function 을 학습하는 것이 아닌 학습 데이터의 확률적 특성 (peculiarities) 을 학습한다. (Overfitting) (2) 학습 데이터가 없는 space 에 대해서 모델이 제약을 받지 않는다. 이로 인해 optimal 한 prediction 을 내지 못한다. 본 챕터에서는 regularization techniques 에 대해서 공부한다. 이는 training, test performance 간의 gap 을 줄이는 methods 들의 집합이다..

[Deep Learning] Chapter8 Measuring Performance

Deep Learning 2024. 1. 9. 18:45

Preface이전의 챕터들에서 뉴럴넷, loss 함수 그리고 학습 알고리즘 등을 공부하였다. 이번 챕터에서는 학습된 모델의 성능을 평가하는 방법에 대해 공부한다. 충분한 capacity 를 갖는 모델은 학습 데이터셋에 대하여 완벽하게 fit 될 수 있다. 하지만 이러한 사실이 꼭 테스트 셋에 대하여 잘 generalize 했다고 보기 어렵다.test errors의 세 가지 서로 다른 이유와 다음 세 가지 항목에 대한 이들의 상대적인 영향 (relative contributions) 도 살펴본다. [(1) task의 inherent uncertainty, (2) 학습 데이터의 양, (3) 모델의 선택] 8.1. Training a Simple ModelFig. 8.1에서 제시한 것과 같은 MNIST-1D ..

ABOUT ME

JoonoJoono JoonoJoono

티스토리툴바

ABOUT ME

전체 글

티스토리툴바