-
[Math for Deeplearning] ProbabilityA.I/Study 2023. 7. 1. 19:16
글을 시작하기 앞서, 이 글은 Math for Deeplearning (Ronald T. Kneusel)을 읽고 정리한 글임을 밝힙니다.
기본 컨셉
Probability은 어떤일이 일어날 가능성을 측정하는 0과 1사이의 숫자이다.
만약, 무언가 일어날 가능성이 없다면, Probability는 0이다.[0, 1]은 각 양끝 값을 포함하는 범위를 의미한다.
Sample space는 discrete set (이산적인 집합) 또는 Event의 모든 결과들을 표현하는 연속적인 범위이다.
Event는 발생하는 무언가, 즉 사건이며, 각 Event들은 Sample space에서 Sample이라고 불린다.
예를 들어 동전 던지기의 결과를 확률로 표현할 때, 앞면을 H, 뒷면을 T로 나타내자.
그럼 Sample space는 다음과 같은 집합으로 표현 가능하다.
$$ \{H, T\} $$
Random Variable은 특정 Sample space의 모든 값을 가질 수 있는 변수이다.
위에서 예를 들었던 동전 던지기를 Random Variable을 사용하여 표현하면 다음과 같다.
$$ P(X=H) = P(X=T) = 0.5 $$
여기서 P는 지정된 Random Variable에 대해 괄호 안에 Event의 Probability를 나타내는 데 보편적으로 사용된다.
Continuous random variable는 x와 같이 소문자로 표시되는 continuous sample space의 Random Variable입니다.
Probability의 규칙
Event의 probability
Sample space안의 모든 events는 0과 1사이이다.
$$ 0 \leq P(X) < 1 $$
Sample space안의 모든 events의 합은 1이다.
$$ \sum\limits_{i} P(A_i) = 1 $$
어떤 Event가 일어나지 않을 probability는 총합에서 그 event가 일어날 probability로 표현 가능하다.
$$ P(\bar{X}) = 1 - P(A) $$
아래의 기호들은 not의 의미이다.
$$ \bar{A} == \neg A$$
Sum rule
Mutually exclusive는 각 사건이 동시에 읽어나지 않는 또는 둘중에 하나만 발생하는 경우를 의미한다.
영어로 표현하면 다음과 같다.
Mutually exclusive events cannot happen at the same time
At the same time이 중요하다.
나아가, 두 events가 발생할 probability가 완전히 관련이 없다면, 즉 A의 probability가 B의 발생 여부에 영향을 받지 않는다는 것을 의미하는 경우, 두 사건이 독립적(independent)이라고 합니다.
두 random variable가 mutually exclusive하다면, 다음의 법칙이 성립한다.
$$ P(A or B) = P(A \cup B) = P(A) + P(B) $$
여기서 U자 기호는 or 또는 union을 의미한다.
Product rule
sum rule은 두 evnets 중 하나가 일어날 probability를 의미한다면, product rule은 두 evnets이 모두 일어날 probability를 의미한다.
사실 영어로 설명을 본다면 이해가 편하다.
The sum rule tell us about the probabbility of events A or B happening.
The product rule tell us the probability of events A and B수식으로 표현하면 다음과 같다.
$$ P(A and B) = P(A \cap B) = P(A)P(B) $$
여기서 n자 같이 생긴 기호는 and 또는 intersection을 의미한다.
만약 A와 B가 mutually exclusive하다면, P(A and B) = 0 이다.
Sum rule revisited
만약 A와 B가 mutually exclusive하지 않다면, 식은 아래와 같이 변경된다.
$$ P(A or B) = P(A) + P(B) - P(A and B) $$
왜냐하면, P(A and B)가 중복으로 고려되기 때문이다.
Combination은 한 번에 k개를 취한 m개 조합의 수라고 볼 수 있다. (m choose k)
$$ C(m, k) = \binom{m}{k} = \frac{ m! }{ k!(m-k)! } $$
Conditional Probability
Conditional probability는 이전 Event가 일어난 이후에 발생하는 Event의 probability이다.
기본적으로 P(B|A)로 표기 가능하며, A event가 발생한 이후에 B event가 발생할 확률을 의미한다.
conditional probability를 사용하면, 서로 mutually exclusive하지 않은 두 사건의 intersection을 구할 수 있다.
$$ P(A and B) = P(B|A)P(A) $$
만약 서로 mutually exclusive하다면, P(A|B) = P(B|A) = 0이다.
하지만 만약 서로 Independent하다면, P(A|B) = P(A) 가 성립한다.
그 이유는 앞서 언급했듯이, 서로 Independent하다는 것은 결국 서로에게 영향을 주지 않는다는 의미임으로 A가 발생하든 안하든 변화가 발생하지 않는다.
다만, P(A|B)는 P(B|A)와 같지 않다는 것을 잊지 말자.
Total probability
만약 sample space가 B_i(B_1, B_2, ...)으로 완전하게 분리되어 있다면, 서로 겹치지 않는다면, 다음과 같이 합을 구할 수 있다.
$$ P(A) = \sum\limits_{i} P(A|B_i)P(B_i) $$
여기서 P(A)를 Total probability라고 부른다.
Joint and Marginal Probability
두 variables의 Joint probability는 여러 조건들이 동시에 True인 probability를 의미한다.
Joint probability는 아래와 같이 표기 가능하다.
$$ P(X=x, Y=y) $$
Marginal probability는 Joint probabilty처럼 여러 조건이 아니라 하나의 조건에 해당하는 확률을 의미한다.
Joint probability와 Marginal probability의 관계를 다음과 같이 표현할 수 있다.
$$ P(X=x) = \sum\limits_{i} P(X=x, Y=y_i) $$
$$ P(Y=y) = \sum\limits_{i} P(X=x_i, Y=y) $$
Joint probability를 이용하여 conditional probability를 다르게 정의할 수 있다.
$$ P(B|A) = \frac{P(A, B)}{P(A)} $$
Chain rule for Probability
2개 이상의 Random variables를 가지는 joint probability를 계산할 경우 아래와 같이 계산할 수 있다.
$$ P(X_n, X_n-1, ... , X_1) = \prod_{i=1}^{n} P(X_i | \bigcap_{j=1}^{i-1} X_j) $$
굉장히 복잡한 느낌이긴한데 아래의 예시를 보면 이해가 편하다.
$$ P(X, Y, Z) = P(X|Y, Z)P(Y, Z) = P(X|Y, Z)P(Y|Z)P(Z) $$
이렇게 하나하나 바꿔가면 된다.
'A.I > Study' 카테고리의 다른 글
[밑시딥2] 순환 신경망 (RNN) (0) 2023.07.13 [Math for Deeplearning] Linear Algebra (0) 2023.07.08 [밑시딥2] word2vec 속도 개선 (0) 2023.07.02 [밑시딥2] word2vec (0) 2023.06.26 [밑시딥2] 자연어와 단어의 분산 표현 (0) 2023.06.17