ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Math for Deeplearning] More Probability
    A.I/Study 2023. 7. 21. 05:25
    글을 시작하기 앞서, 이 글은 Math for Deeplearning (Ronald T. Kneusel)을 읽고 정리한 글임을 밝힙니다.

    Probability Distributions

    Probability Distributions는 필요에 따라 값를 생성하는 함수로 여겨지곤 한다.

    값은 랜덤하게 생성되며 (어떤 값이 나올지 모르기 때문에 랜덤이라고함), 어떤 값의 likelihood는 일반적인 형태를 따른다.

     

    딥러닝에서는 모델 학습 전에 가중치를 초기화하기위해 probability distributions를 사용한다.

    이때 주로 normal distribution이나 uniform distribution을 사용한다.

    Discrete Probability Distributions

    Discrete distribution은 불연속한 데이터에 대한 probability distribution이다.

    대표적인 Discrete distribution은 모든 가능한 결과의 확률이 같은 uniform distribution이다.

    Binomial Distribution

    두번째로 가장 흔한 Discrete distribution이다.

    각 시도마다 해당 Event의 발생 여부를 예측한다.

    수학적으로, n번의 시도에서 k Event의 발생확률은 다음과 같다.

    이를 probability mass function(pmf)라고도 한다.

    Bernoulli Distribution

    Binomial distribution의 특별한 케이스로 샘플로 0과 1만 가지며, 이는 event의 발생여부를 나타낸다. 

    여기서 n=1로 고정한다.

    Bernoulli distribution을 통해 0과 1의 binary 결과를 도출할 수 있다.

    이때 event의 likelihood는 동일할 필요가 없다.

    Poisson Distribution

    때때로 각 이벤트의 확률을 모르는 대신 일정 간격으로 발생하는 이벤트만 알고 있는 경우가 있다.

    만약 일정 횟수에서 발생한 이벤트 수의 평균이 lambda일 때, 그 간격으로 발생한 k사건의 확률을 다음의 수식으로 나타낼 수 있다.

    Poisson distribution은 일정 기간 동안 X선 검출기에서 방사성 붕괴 또는 광자의 발생과 같은 event를 모델링할 때 유용하다.

    Continuous Probability Distributions

    Discrete distribution와 형태는 비슷하지만, 특정한 값에 대한 확률이 0이다.

    정확한 특정한 정수값이 할당되는 것이아니라 범위를 선택한다.

     

    특정 영역의 샘플링된 값의 확률을 얻기위해서 적분을 사용한다.

    이는 Discrete distribution에서 시그마를 사용하는 것과 다르다.

     

    이러한 모든 분포에는 관련된 probability density functions (pdfs), 분포에서 샘플링이 제공할 확률을 생성하는 폐쇄형 함수가 있습니다. 

     

    Normal curve는 mean (μ)과 standard deviation (σ)를 파라미터로 갖는다.

    Gamma curve는 shape (k)와 scale (θ)을 파라미터로 한다.

    Beta curve는 a와 b를 파라미터로 한다.

    Central Limit Theorem

    확률론과 통계학에서 Central Limit Theorem는 동일한 probability distributio을 가진 independent random variable n개의 평균의 분포는 n이 적당히 크다면 normal distribution에 가까워진다는 정리이다. 

    Law of large numbers

    큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 통계와 확률 분야의 기본 개념이다.

    Bayes' Theorem

    두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리다.

    이미 이전에 다룬적 있는 공식이다.

    여기서 핵심은 두 conditional probability를 다루는 방법이다.

    Bayes' Theorem in Machine Learning

    Bayes' Theorem는 머신 러닝과 딥 러닝 전반에 널리 사용되고 있으며, 가장 대표적인 사례는 Naive Bayes classifier이다.

    Dataset에 포함된 라벨과 feature vector를 통해 추측합니다.

    해당 클레스에 속한 주어진 feature vector의 확률을 구하는 것이 목표이다.

    'A.I > Study' 카테고리의 다른 글

    [밑시딥2] 어텐션  (0) 2023.07.30
    [밑시딥2] RNN을 사용한 문장 생성  (0) 2023.07.25
    [밑시딥2] 게이트가 추가된 RNN  (0) 2023.07.14
    [밑시딥2] 순환 신경망 (RNN)  (0) 2023.07.13
    [Math for Deeplearning] Linear Algebra  (0) 2023.07.08
Designed by Tistory.