ABOUT ME

joono의 notion 방출 블로그

Today
Yesterday
Total
  • Basic Maths (Appendix A)
    Deep Learning 2023. 9. 28. 23:13
    반응형

    본 포스팅은 Simon J.D. Prince 의 Deep Learning 교재를 스터디하며 정리한 글임을 밝힙니다.

    https://udlbook.github.io/udlbook/

    Notation

    Scalars, Vectors, Matrices and Tensors

    Scalar는 small or capital letters, a,A,αa,A,α 로 표현된다. Column vector 는 small bold letters, a,ϕ, 로 표현되며 row vectors는 이의 Transpose 인 aT,ϕT 로 표현된다. Matrices, Tensors 는 capital bold, B,Φ 체로 표현된다.

    Variables and parameters, Sets

    생략, 별 다른 내용은 없음. 원래 알던것

    Functions

    함수는 <함수이름>[] 의 꼴로 나타냄. 예를 들어 log[x] 와 같이 표현. 만약 함수가 vector를 return 한다면 small bold, 행렬이나 텐서를 return 하면 capital bold로 시작하는 이름을 갖는다. y=mlp[x,ϕ], Y=Sa[X,ϕ] 와 같이 표현한다.

    Mnimizing and Maximizing

    minx[f[x]]: 임의의 변수 x 에 대하여 f[x] 의 최솟값을 반환. maxx[f[x]] 는 반대.

    argminx[f[x]]f[x] 를 최소화 하는 x 를 return 한다. 만일 y=argminx[f[x]] 라면, minx[f[x]]=f[y].

    Probability Distributions, Asymptotic notation

    생략

    Mathmatics

    Functions

    function은 set X 로부터 `set Y 로의 mapping 을 의미한다.

    injection X 의 모든 elements 들이 Y 의 부분집합에 모두 맵핑 되는 것이다.

    surjection 은 반대로 Y 의 모든 원소들에 대응 하는 X 의 원소들이 있는 경우이다.

    bijection or bijective mapping, 즉 일대일 대응 은 injective 하면서 surjective 한 경우를 의미한다.

    diffeomorphism 은 bijection 의 특별한 케이스인데, forward, reverse mapping 이 모두 미분 가능한 경우를 의미한다.

    Lipschitz Constant

    💡
    Def: 임의의 z1,z2에 대하여 다음식을 만족하면 함수 f[z]Lipschitz coninuous 하다.
    f[z1]f[z2]βz1z2

    여기서 βLipschitz constant 라고 하며 distance metric에 대하여 함수의 gradient의 최댓값을 결정한다. 만일 Lipschitz constant 가 1 이하라면, 함수는 contraction mapping 이며, Banach’s theorem 에 따라 임의의 point 에서 inverse를 구할 수 있다. Lipschitz constant β1,β2 를 갖는 두 함수의 곱은 β1β2 의 Lipschitz constant를 가지며, 두 함수의 합은 β1+β2 의 Lipschitz constant 를 갖는다.

    Linear Transformation, f[z]=Az+B 의 Lipschitz constant 는 matrix A의 eigen value 의 최대값이다.

    Convexity

    임의의 두 점을 이었을 때, 만약에 일직선으로 그을 수 있고 (중간에 걸리지 않고), 그 선 위의 모든 점이 주어진 함수 위에 있다면 (lies above) 그 함수를 convex 이다. 반대는 concave이다. 정의에 따라 각 convex, concave는 적어도 하나 이상의 minimum, maximum을 갖는다.

    convex인 어떤 함수라도 Gradient Descent 는 global minimum을 찾는 것을 보장한다.

    Special Functions

    exponential function exRR+ 로의 mapping 이며, logarithm function log[x]R+R 의 mapping이다.

    gamma function은 factorial function을 continuous values로 확장한 함수이다. 이는 아래와 같이 정의됨. Γ[x]=(x1)! 이다.

    Γ[x]=0tx1etdt.

    Dirac delta function δ[z] 는 총 면적이 1의 크기를 갖고 있으며, 이는 point z=0 에 있다. N개의 원소를 갖는 데이터셋은 1/N 으로 scailing 한 N 개의 delta function 이라고 볼 수 있다. 보통 화살표로 그려지며 아래와 같은 property를 갖는다.

    f[x]δ[xx0]dx=f[x0]

    Stirling’s formula

    Stirling’s formula 는 아래와 같은 식으로 factorial function을 approximation 한다.

    x!2πx(xe)x

    Binomial coefficients

    Binomial coefficients 는 (nk)와 같이 쓰고 “n choose k” 라고 읽는다. 식은 생략.

    Autocorrelation

    연속 함수 f[z] 의 Autocorrelation r[τ] 는 아래와 같이 정의된다.

    r[τ]=f[t+τ]f[t]dt

    여기서 τtime lag (혹은 offset) 이다. r[0] 는 1이다. Autocorrelation은 어떤 함수와 임의의 offset τ 를 갖는 자기 자신과의 correlation을 나타낸다. 만일 어떤 함수가 천천히 바뀌고 예측 가능하다면 autocorrelation 은 τ가 커질 수록 천천히 작아지며 만일 어떤 함수가 빠르고 예측 불가하게 바뀐다면 τ가 커질 수록 빠르게 0에 가까워진다.

    Vector, Matrices, Tensors and Transpose

    생략

    Vector and matrix norms

    vector z 에 대하여 lp norm은 아래와 같이 정의됨.

    zp=(Dd=1zdp)1/p

    p=2 일 때는 우리가 잘 아는 Euclidean norm (l2 norm) 이다. 보통 아래첨자 p를 생략함. p= 이면 vector의 원소들의 절댓값 중 최댓값을 return 한다.

    Norms 은 행렬에서도 비슷하게 계산될 수 있다. 예를 들어 행렬 Z 에 대한 l2 norm은 아래와 같이 계산할 수 있다. (Frobenius norm 으로도 알려져 있다.)

    ZF=(Ii=1Jj=1zij2)1/2

    Product of matrices

    Cij=D2d=1AidBdj

    where, ARD1×D2,BRD2×D3

    Dot product of vectors

    aTb=bTa=Dd=1adbd.
    aTb=a bcos[θ]

    Inverse

    생략.

    Subspace

    가령, 행렬 ARD1×D2 가 있다고 하자. 이때 AxRD1 는 모든 D1차원의 공간에 모두 다다를 수 없다. 예를 들어 A=[1111] 이고 하고, x=[ab] 라고 하면 Ax=[a+ba+b] 이므로 y=x 그래프 위에만 도달할 수 있다. 예를 들어 [33]는 될 수 있지만, [34]는 될 수 없다. 다시 말해, R2 에 모두 도달할 수 없다.

    이렇게 Ax가 도달할 수 있는 space를 subspace라고 하며 그 중에서도 column space 라고 한다. (xArow space를 구성, Ax=0Null space.)


    Uploaded by N2T

    반응형

    'Deep Learning' 카테고리의 다른 글

    Loss functions  (4) 2023.10.02
    Probability (Appendix C)  (0) 2023.09.28
    Deep Neural Network  (0) 2023.09.28
    Shallow Neural Networks  (0) 2023.09.28
    Introduction & Supervised Learning - Deep Learning  (0) 2023.09.28
Designed by Tistory.