A.I/Study

[Math for Deeplearning] Probability

PèreNoël 2023. 7. 1. 19:16
글을 시작하기 앞서, 이 글은 Math for Deeplearning (Ronald T. Kneusel)을 읽고 정리한 글임을 밝힙니다.

기본 컨셉

Probability은 어떤일이 일어날 가능성을 측정하는 0과 1사이의 숫자이다.
만약, 무언가 일어날 가능성이 없다면, Probability는 0이다.

[0, 1]은 각 양끝 값을 포함하는 범위를 의미한다.

Sample space는 discrete set (이산적인 집합) 또는 Event의 모든 결과들을 표현하는 연속적인 범위이다.

Event는 발생하는 무언가, 즉 사건이며, 각 Event들은 Sample space에서 Sample이라고 불린다.

예를 들어 동전 던지기의 결과를 확률로 표현할 때, 앞면을 H, 뒷면을 T로 나타내자.

그럼 Sample space는 다음과 같은 집합으로 표현 가능하다.

$$ \{H, T\} $$

Random Variable은 특정 Sample space의 모든 값을 가질 수 있는 변수이다.

위에서 예를 들었던 동전 던지기를 Random Variable을 사용하여 표현하면 다음과 같다.

$$ P(X=H) = P(X=T) = 0.5 $$

여기서 P는 지정된 Random Variable에 대해 괄호 안에 Event의 Probability를 나타내는 데 보편적으로 사용된다.

Continuous random variable는 x와 같이 소문자로 표시되는 continuous sample spaceRandom Variable입니다.

Probability의 규칙

Event의 probability

Sample space안의 모든 events는 0과 1사이이다.

$$ 0 \leq P(X) < 1 $$

Sample space안의 모든 events의 합은 1이다.

$$ \sum\limits_{i} P(A_i) = 1 $$

어떤 Event가 일어나지 않을 probability는 총합에서 그 event가 일어날 probability로 표현 가능하다.

$$ P(\bar{X}) = 1 - P(A) $$

아래의 기호들은 not의 의미이다.

$$ \bar{A} == \neg A$$

Sum rule

Mutually exclusive는 각 사건이 동시에 읽어나지 않는 또는 둘중에 하나만 발생하는 경우를 의미한다.

영어로 표현하면 다음과 같다.

Mutually exclusive events cannot happen at the same time

At the same time이 중요하다.

나아가, 두 events가 발생할 probability가 완전히 관련이 없다면, 즉 A의 probability가 B의 발생 여부에 영향을 받지 않는다는 것을 의미하는 경우, 두 사건이 독립적(independent)이라고 합니다.

두 random variable가 mutually exclusive하다면, 다음의 법칙이 성립한다.

$$ P(A or B) = P(A \cup B) = P(A) + P(B) $$

여기서 U자 기호는 or 또는 union을 의미한다.

Product rule

sum rule은 두 evnets 중 하나가 일어날 probability를 의미한다면, product rule은 두 evnets이 모두 일어날 probability를 의미한다.

사실 영어로 설명을 본다면 이해가 편하다.

The sum rule tell us about the probabbility of events A or B happening. 
The product rule tell us the probability of events A and B

수식으로 표현하면 다음과 같다.

$$ P(A and B) = P(A \cap B) = P(A)P(B) $$

여기서 n자 같이 생긴 기호는 and 또는 intersection을 의미한다.

만약 A와 B가 mutually exclusive하다면, P(A and B) = 0 이다.

Sum rule revisited

만약 A와 B가 mutually exclusive하지 않다면, 식은 아래와 같이 변경된다.

$$ P(A or B) = P(A) + P(B) - P(A and B) $$

왜냐하면, P(A and B)가 중복으로 고려되기 때문이다.

Combination은 한 번에 k개를 취한 m개 조합의 수라고 볼 수 있다. (m choose k)

$$ C(m, k) = \binom{m}{k} = \frac{ m! }{ k!(m-k)! } $$

Conditional Probability

Conditional probability는 이전 Event가 일어난 이후에 발생하는 Event의 probability이다.

기본적으로 P(B|A)로 표기 가능하며, A event가 발생한 이후에 B event가 발생할 확률을 의미한다.

conditional probability를 사용하면, 서로 mutually exclusive하지 않은 두 사건의 intersection을 구할 수 있다.

$$ P(A and B) = P(B|A)P(A) $$

만약 서로 mutually exclusive하다면, P(A|B) = P(B|A) = 0이다.

하지만 만약 서로 Independent하다면, P(A|B) = P(A) 가 성립한다. 

그 이유는 앞서 언급했듯이, 서로 Independent하다는 것은 결국 서로에게 영향을 주지 않는다는 의미임으로 A가 발생하든 안하든 변화가 발생하지 않는다.

다만, P(A|B)는 P(B|A)와 같지 않다는 것을 잊지 말자.

Total probability

만약 sample space가 B_i(B_1, B_2, ...)으로 완전하게 분리되어 있다면, 서로 겹치지 않는다면, 다음과 같이 합을 구할 수 있다.

$$ P(A) = \sum\limits_{i} P(A|B_i)P(B_i) $$

여기서 P(A)를 Total probability라고 부른다.

Joint and Marginal Probability

두 variables의 Joint probability는 여러 조건들이 동시에 True인 probability를 의미한다.

Joint probability는 아래와 같이 표기 가능하다.

$$ P(X=x, Y=y) $$

Marginal probability는 Joint probabilty처럼 여러 조건이 아니라 하나의 조건에 해당하는 확률을 의미한다.

Joint probability와 Marginal probability의 관계를 다음과 같이 표현할 수 있다.

$$ P(X=x) = \sum\limits_{i} P(X=x, Y=y_i) $$

$$ P(Y=y) = \sum\limits_{i} P(X=x_i, Y=y) $$

Joint probability를 이용하여 conditional probability를 다르게 정의할 수 있다.

$$ P(B|A) = \frac{P(A, B)}{P(A)} $$

Chain rule for Probability

2개 이상의 Random variables를 가지는 joint probability를 계산할 경우 아래와 같이 계산할 수 있다.

$$ P(X_n, X_n-1, ... , X_1) = \prod_{i=1}^{n} P(X_i | \bigcap_{j=1}^{i-1} X_j) $$

굉장히 복잡한 느낌이긴한데 아래의 예시를 보면 이해가 편하다.

$$ P(X, Y, Z) = P(X|Y, Z)P(Y, Z) = P(X|Y, Z)P(Y|Z)P(Z) $$

이렇게 하나하나 바꿔가면 된다.