본 포스팅은 Simon J.D. Prince 의 Deep Learning 교재를 스터디하며 정리한 글임을 밝힙니다.
Notation
Scalars, Vectors, Matrices and Tensors
Scalar는 small or capital letters, 로 표현된다. Column vector 는 small bold letters, , 로 표현되며 row vectors는 이의 Transpose 인 로 표현된다. Matrices, Tensors 는 capital bold, 체로 표현된다.
Variables and parameters, Sets
생략, 별 다른 내용은 없음. 원래 알던것
Functions
함수는 <함수이름>[]
의 꼴로 나타냄. 예를 들어 log[x]
와 같이 표현. 만약 함수가 vector를 return 한다면 small bold, 행렬이나 텐서를 return 하면 capital bold로 시작하는 이름을 갖는다.
, 와 같이 표현한다.
Mnimizing and Maximizing
: 임의의 변수 에 대하여 의 최솟값을 반환. 는 반대.
는 를 최소화 하는 를 return 한다. 만일 라면, .
Probability Distributions, Asymptotic notation
생략
Mathmatics
Functions
function은 set 로부터 `set 로의 mapping 을 의미한다.
injection 은 의 모든 elements 들이 의 부분집합에 모두 맵핑 되는 것이다.
surjection 은 반대로 의 모든 원소들에 대응 하는 의 원소들이 있는 경우이다.
bijection or bijective mapping, 즉 일대일 대응 은 injective 하면서 surjective 한 경우를 의미한다.
diffeomorphism 은 bijection 의 특별한 케이스인데, forward, reverse mapping 이 모두 미분 가능한 경우를 의미한다.
Lipschitz Constant
여기서 를 Lipschitz constant
라고 하며 distance metric에 대하여 함수의 gradient의 최댓값을 결정한다. 만일 Lipschitz constant 가 1 이하라면, 함수는 contraction mapping 이며, Banach’s theorem 에 따라 임의의 point 에서 inverse를 구할 수 있다. Lipschitz constant 를 갖는 두 함수의 곱은 의 Lipschitz constant를 가지며, 두 함수의 합은 의 Lipschitz constant 를 갖는다.
Linear Transformation, 의 Lipschitz constant 는 matrix 의 eigen value 의 최대값이다.
Convexity
임의의 두 점을 이었을 때, 만약에 일직선으로 그을 수 있고 (중간에 걸리지 않고), 그 선 위의 모든 점이 주어진 함수 위에 있다면 (lies above) 그 함수를 convex 이다. 반대는 concave이다. 정의에 따라 각 convex, concave는 적어도 하나 이상의 minimum, maximum을 갖는다.
convex인 어떤 함수라도 Gradient Descent 는 global minimum을 찾는 것을 보장한다.
Special Functions
exponential function 는 로의 mapping 이며, logarithm function 는 의 mapping이다.
gamma function은 factorial function을 continuous values로 확장한 함수이다. 이는 아래와 같이 정의됨. 이다.
Dirac delta function 는 총 면적이 의 크기를 갖고 있으며, 이는 point 에 있다. 개의 원소를 갖는 데이터셋은 으로 scailing 한 개의 delta function 이라고 볼 수 있다. 보통 화살표로 그려지며 아래와 같은 property를 갖는다.
Stirling’s formula
Stirling’s formula 는 아래와 같은 식으로 factorial function을 approximation 한다.
Binomial coefficients
Binomial coefficients 는 와 같이 쓰고 “n choose k” 라고 읽는다. 식은 생략.
Autocorrelation
연속 함수 의 Autocorrelation 는 아래와 같이 정의된다.
여기서 는 time lag (혹은 offset) 이다. 는 1이다. Autocorrelation은 어떤 함수와 임의의 offset 를 갖는 자기 자신과의 correlation을 나타낸다. 만일 어떤 함수가 천천히 바뀌고 예측 가능하다면 autocorrelation 은 가 커질 수록 천천히 작아지며 만일 어떤 함수가 빠르고 예측 불가하게 바뀐다면 가 커질 수록 빠르게 0에 가까워진다.
Vector, Matrices, Tensors and Transpose
생략
Vector and matrix norms
vector 에 대하여 norm은 아래와 같이 정의됨.
일 때는 우리가 잘 아는 Euclidean norm (l2 norm) 이다. 보통 아래첨자 p를 생략함. 이면 vector의 원소들의 절댓값 중 최댓값을 return 한다.
Norms 은 행렬에서도 비슷하게 계산될 수 있다. 예를 들어 행렬 에 대한 norm은 아래와 같이 계산할 수 있다. (Frobenius norm
으로도 알려져 있다.)
Product of matrices
where,
Dot product of vectors
Inverse
생략.
Subspace
가령, 행렬 가 있다고 하자. 이때 는 모든 D1차원의 공간에 모두 다다를 수 없다. 예를 들어 이고 하고, 라고 하면 이므로 그래프 위에만 도달할 수 있다. 예를 들어 는 될 수 있지만, 는 될 수 없다. 다시 말해, 에 모두 도달할 수 없다.
이렇게 가 도달할 수 있는 space를 subspace
라고 하며 그 중에서도 column space
라고 한다. ( 는 row space
를 구성, 은 Null space
.)
Uploaded by N2T