나이브 베이즈란?
나이브 베이즈(Naive Bayes)는 베이즈 정리를 기반으로 한 확률 분류기다.
Naive는 순진한 이라는 뜻인데, 데이터가 서로 독립적이라는 가정을 하기 때문이다.
이메일에서 스팸 메일을 찾아내거나,
뉴스 분류, 실시간 감정 분석 등 빠른 처리가 요구되는 분야에서 널리 활용된다.
베이즈정리란?
베이즈 정리(Bayes' Theorem)는 토머스 베이즈라는 영국의 수학자가 제시한 조건부 확률에 관한 수학적 정리를 뜻한다.

즉 사건 A가 발생했다고 가정했을 때, 그 조건에서 B가 일어날 가능성을 계산하는 수식이다.
상황 가정 ) 메일에 '무료'라는 단어가 포함될 때, 그 메일이 스팸일 확률을 계산한다면?
사건 A = 메일에 '무료'라는 특정 단어가 포함된다.
사건 B = 메일이 스팸메일이다.
이때 베이즈 정리는 조건 A에서, B가 일어날 확률이다.
전체 메일이 1000개이다.
전체 메일 중 스팸메일의 개수는 20개이다.
전체 메일중 '무료'가 포함된 메일의 개수는 30개이다.
스팸 메일 중 '무료'가 포함된 메일의 개수는 10개이다.

P(스팸) = 20 / 1000 = 0.02
P('무료') = 30 / 1000 = 0.03
P('무료' | 스팸) = 10 / 20 = 0.5
P(스팸 | '무료') = P('무료' | 스팸) * P(스팸) / P('무료) = 0.5 * 0.02 / 0.03 = 0.333...
사실 베이즈 정리는 간단한 곱셈 정리를 다시 정리한 것이다.

P(A) * P(B|A)와 P(B) * P(A|B)는 같다.
왜냐하면 교집합이기 때문이다.

이를 P(A|B)를 좌변으로 두고 나머지를 우변으로 정리한 것이 베이즈 정리이다.
'Python > 머신러닝' 카테고리의 다른 글
| 머신러닝 개념 정리) 랜덤 포레스트, 유의 확률, 카이제곱 통계량, F 통계량 (0) | 2025.11.28 |
|---|---|
| 머신러닝 개념 정리) 결정 트리, 엔트로피 지수, 지니 지수, CART 알고리즘 (0) | 2025.11.23 |
| 머신러닝 개념 정리) 서포트벡터 머신, 커널 트릭 (0) | 2025.11.22 |
| 머신러닝 개념 정리) K-최근접 이웃, 유클리드 거리, 맨해튼 거리, 체비쇼프 거리, 민코스프키 거리 (0) | 2025.11.22 |
| 머신러닝 개념 정리) 로지스틱 회귀, 시그모이드 함수, 소프트맥스 회귀 (0) | 2025.11.22 |
