머신러닝 개념 정리) 나이브 베이즈

2025. 12. 1. 01:11·Python/머신러닝

나이브 베이즈란?

나이브 베이즈(Naive Bayes)는 베이즈 정리를 기반으로 한 확률 분류기다.
Naive는 순진한 이라는 뜻인데, 데이터가 서로 독립적이라는 가정을 하기 때문이다.

이메일에서 스팸 메일을 찾아내거나,
뉴스 분류, 실시간 감정 분석 등 빠른 처리가 요구되는 분야에서 널리 활용된다.

베이즈정리란?

베이즈 정리(Bayes' Theorem)는 토머스 베이즈라는 영국의 수학자가 제시한 조건부 확률에 관한 수학적 정리를 뜻한다.

베이즈 정리의 수식

즉 사건 A가 발생했다고 가정했을 때, 그 조건에서 B가 일어날 가능성을 계산하는 수식이다.

 

상황 가정 ) 메일에 '무료'라는 단어가 포함될 때, 그 메일이 스팸일 확률을 계산한다면?

사건 A = 메일에 '무료'라는 특정 단어가 포함된다.
사건 B = 메일이 스팸메일이다.
이때 베이즈 정리는 조건 A에서, B가 일어날 확률이다.

전체 메일이 1000개이다.
전체 메일 중 스팸메일의 개수는 20개이다.
전체 메일중  '무료'가 포함된 메일의 개수는 30개이다.
스팸 메일 중 '무료'가 포함된 메일의 개수는 10개이다.

특정 단어가 포함되는 메일이 있을 때, 그 메일이 스팸메일일 확률

P(스팸) = 20 / 1000 = 0.02
P('무료') = 30 / 1000 = 0.03
P('무료' | 스팸) =  10 / 20 = 0.5

P(스팸 | '무료') =  P('무료' | 스팸) * P(스팸) / P('무료) = 0.5 * 0.02 / 0.03 = 0.333...

사실 베이즈 정리는 간단한 곱셈 정리를 다시 정리한 것이다.

곱셈 정리

P(A) * P(B|A)와 P(B) * P(A|B)는 같다.
왜냐하면 교집합이기 때문이다.

베이즈 정리

이를 P(A|B)를 좌변으로 두고 나머지를 우변으로 정리한 것이 베이즈 정리이다.

 

'Python > 머신러닝' 카테고리의 다른 글

머신러닝 개념 정리) 랜덤 포레스트, 유의 확률, 카이제곱 통계량, F 통계량  (0) 2025.11.28
머신러닝 개념 정리) 결정 트리, 엔트로피 지수, 지니 지수, CART 알고리즘  (0) 2025.11.23
머신러닝 개념 정리) 서포트벡터 머신, 커널 트릭  (0) 2025.11.22
머신러닝 개념 정리) K-최근접 이웃, 유클리드 거리, 맨해튼 거리, 체비쇼프 거리, 민코스프키 거리  (0) 2025.11.22
머신러닝 개념 정리) 로지스틱 회귀, 시그모이드 함수, 소프트맥스 회귀  (0) 2025.11.22
'Python/머신러닝' 카테고리의 다른 글
  • 머신러닝 개념 정리) 랜덤 포레스트, 유의 확률, 카이제곱 통계량, F 통계량
  • 머신러닝 개념 정리) 결정 트리, 엔트로피 지수, 지니 지수, CART 알고리즘
  • 머신러닝 개념 정리) 서포트벡터 머신, 커널 트릭
  • 머신러닝 개념 정리) K-최근접 이웃, 유클리드 거리, 맨해튼 거리, 체비쇼프 거리, 민코스프키 거리
MvA
MvA
백엔드 개발자 김재현입니다. 주로 공부하면서 느낀점을 기록합니다.
  • MvA
    Man vs Ai
    MvA
  • 전체
    오늘
    어제
    • 분류 전체보기 (94)
      • Java (6)
      • Python (8)
        • 딥러닝 (1)
        • 머신러닝 (7)
      • JavaScript (2)
      • 내배캠 (60)
      • 개인 프로젝트 (11)
      • 책 후기 (5)
      • 기타 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    내일배움캠프
    Riot API
    머신러닝
    아키텍처
    딥러닝
    TiL
    배포
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
MvA
머신러닝 개념 정리) 나이브 베이즈
상단으로

티스토리툴바