Bayes' sætning: Definition, formel og eksempler

Lær Bayes' sætning: klar definition, formeltrin og praktiske eksempler til at beregne betingede sandsynligheder — ideel for studerende og datafolk.

Forfatter: Leandro Alegsa

I sandsynlighedsteori og -applikationer viser Bayes' sætning forholdet mellem en betinget sandsynlighed og dens omvendte form. F.eks. sandsynligheden for en hypotese i betragtning af nogle observerede beviser og sandsynligheden for disse beviser i betragtning af hypotesen. Dette sætning er opkaldt efter Thomas Bayes (/ˈbeɪz/ eller "bays") og kaldes ofte Bayes' lov eller Bayes' regel.




 

Definition og formel

Bayes' sætning udtrykker sammenhængen mellem to betingede sandsynligheder. For to hændelser A og B, hvor P(B) > 0, lyder reglen:

P(A | B) = P(B | A) · P(A) / P(B)

Her er:

  • P(A | B): den betingede sandsynlighed for A givet B (posterior).
  • P(B | A): sandsynligheden for B givet A (likelihood).
  • P(A): den indledende sandsynlighed for A, før B observeres (prior).
  • P(B): den marginale sandsynlighed for B (evidence), ofte udregnet ved total sandsynlighed.

Begrundelse / Afledning

Afledningen følger fra definitionen af betinget sandsynlighed:

P(A ∩ B) = P(A | B)·P(B) = P(B | A)·P(A).

Ved at isolere P(A | B) får vi Bayes' sætning ovenfor.

Generalisering til flere hypoteser

Hvis der er et endeligt eller tælleligt sæt af disjunkte hypoteser H1, H2, ..., Hn, der udgør alle muligheder, kan man skrive for en bestemt Hi:

P(Hi | E) = P(E | Hi)·P(Hi) / Σj P(E | Hj)·P(Hj)

Den nævnte sum i nævneren er anvendelsen af loven om total sandsynlighed for at beregne P(E).

Komponenter forklaret enkelt

  • Prior (P(H)): Hvad vi troede om hypotesen før vi så de nye data.
  • Likelihood (P(E | H)): Hvor godt hypotesen forklarer de observerede data.
  • Evidence (P(E)): Hvor sandsynlige dataene er under alle overvejede hypoteser.
  • Posterior (P(H | E)): Den opdaterede sandsynlighed for hypotesen efter at have set dataene.

Numerisk eksempel (medicinsk test)

Antag en sygdom med prævalens 1% i befolkningen (P(Syg) = 0,01). En test har sensitivitet 99% (P(Positiv | Syg) = 0,99) og specificitet 95% (P(Negativ | IkkeSyg) = 0,95 → P(Positiv | IkkeSyg) = 0,05).

Spørgsmål: Hvis en person tester positivt, hvad er sandsynligheden for at vedkommende rent faktisk er syg?

Brug Bayes' sætning:

P(Syg | Pos) = P(Pos | Syg)·P(Syg) / P(Pos)

Først beregnes P(Pos) ved total sandsynlighed:

P(Pos) = P(Pos | Syg)·P(Syg) + P(Pos | IkkeSyg)·P(IkkeSyg)

= 0,99·0,01 + 0,05·0,99 = 0,0099 + 0,0495 = 0,0594

Dermed:

P(Syg | Pos) = 0,0099 / 0,0594 ≈ 0,167 = 16,7%

Selvom testen er ret god, betyder den lave prævalens, at de fleste positive resultater er falsk positive. Dette illustrerer vigtigheden af base rate (prioren).

Eksempler på anvendelser

  • Medicinsk diagnostik (som ovenfor).
  • Maskinlæring: Bayesianske modeller og Naive Bayes-klassifikatorer.
  • Forensics: tolkning af DNA-beviser (her kræves omhu for at undgå fejltolkninger).
  • Signalbehandling og robotik, hvor man løbende opdaterer troen om tilstande baseret på sensormålinger.
  • Statistisk inferens: beregning af posteriorfordelinger ved brug af priors og likelihoods.

Udvidelser og praktiske emner

  • Naive Bayes: En simpel, ofte effektiv metode i klassifikation, hvor man antager betinget uafhængighed mellem features givet klassen.
  • Konjugerede priors: For visse sandsynlighedsmodeller (fx binomial → beta) fører valg af prior til en posterior i samme familie, hvilket forenkler beregninger.
  • Numeriske metoder: I komplekse modeller er analytisk løsning umulig; man bruger MCMC (Markov Chain Monte Carlo), variational inference eller andre numeriske algoritmer til at approksimere posterioren.
  • Bayes-faktor: For model- eller hypotese-sammenligninger kan man bruge forholdet mellem marginale likelihoods (evidence) til at vurdere, hvilken model dataene understøtter bedst.

Faldgruber og overvejelser

  • Prior-afhængighed: Resultater kan være følsomme over for valg af prior, især ved lille datamængde. Det er god praksis at teste forskellige priors eller bruge objektive/ikke-informative priors, hvis passende.
  • Prosecutor's fallacy / base rate-fallacy: Forveksling af P(E | H) med P(H | E) kan føre til store fejltolkninger. Altid anvend Bayes' sætning for at få korrekt posterior.
  • Numerisk ustabilitet: Beregninger med meget små sandsynligheder kan være ustabile; i praksis bruges ofte log-sandsynligheder.

Kort opsummering

Bayes' sætning er et grundlæggende værktøj til at opdatere sandsynligheder, når nye data observeres. Den binder sammen prior, likelihood og evidence for at give en posterior sandsynlighed. Den er både teoretisk central og praktisk anvendelig i mange felter, men kræver omtanke omkring valg af priors og korrekt fortolkning af resultater.

Formel

Den anvendte ligning er:

{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}.}

Hvor:

  • P(A) er den forudgående sandsynlighed eller marginale sandsynlighed for A. Den er "forudgående" i den forstand, at den ikke tager hensyn til nogen information om B.
  • P(A|B) er den betingede sandsynlighed for A, givet B. Den kaldes også den efterfølgende sandsynlighed, fordi den er afledt af (eller afhænger af) den angivne værdi af B.
  • P(B|A) er den betingede sandsynlighed for B givet A. Det kaldes også sandsynligheden.
  • P(B) er den forudgående eller marginale sandsynlighed for B og fungerer som en normaliserende konstant.

I mange scenarier beregnes P(B) indirekte ved hjælp af formlen {\displaystyle P(B)=P(B|A)P(A)+P(B|A^{c})P(A^{c})}, som ganske enkelt siger, at sandsynligheden for B er summen af de betingede sandsynligheder baseret på, om A har fundet sted eller ej.


 

Eksempel

Et simpelt eksempel er følgende: Der er 40% chance for regn på søndag. Hvis det regner på søndag, er der 10 % chance for regn på mandag. Hvis det ikke regner søndag, er der 80 % chance for, at det regner mandag.

"Det regner på søndag" er begivenhed A, og "det regner på mandag" er begivenhed B.

  • P( A ) = 0,40 = Sandsynligheden for regn på søndag.
  • P( A` ) = 0,60 = Sandsynligheden for, at det ikke regner på søndag.
  • P( B | A ) = 0,10 = Sandsynligheden for regn på mandag, hvis det regnede søndag.
  • P( B` | A ) = 0,90 = Sandsynligheden for, at det ikke regner mandag, hvis det regnede søndag.
  • P( B | A` ) = 0,80 = Sandsynligheden for regn på mandag, hvis det ikke regnede søndag.
  • P( B` |A` ) = 0,20 = Sandsynligheden for, at det ikke regner mandag, hvis det ikke regnede søndag.

Det første, vi normalt ville beregne, er sandsynligheden for, at det regner på mandag: Dette ville være summen af sandsynligheden for "Regn på søndag og regn på mandag" og "Ingen regn på søndag og regn på mandag":

{\displaystyle 0.40\times 0.10+0.60\times 0.80=0.52=52\%} chance

Men hvis vi blev bedt om at beregne sandsynligheden for, at det regnede om søndagen, hvis det regnede om mandagen, så er det her, Bayes' teorem kommer ind i billedet. Det giver os mulighed for at beregne sandsynligheden for en tidligere begivenhed i betragtning af resultatet af en senere begivenhed.

Den anvendte ligning er:

{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}.}

I vores tilfælde er "Regn på søndag" begivenhed A, og "Regn på mandag" er begivenhed B.

  • P(B|A) = 0,10 = Sandsynligheden for regn på mandag, hvis det regnede søndag.
  • P(A) = 0,40 = Sandsynligheden for regn på søndag.
  • P(B) = 0,52 = Sandsynligheden for regn på mandag.

Så for at beregne sandsynligheden for, at det regnede søndag, når det regnede mandag, bruger vi formlen:

{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}.}

eller:

{\displaystyle P(A|B)={\frac {0.10*0.40}{0.52}}=.0769}

Med andre ord, hvis det regnede i mandags, er der 7,69 % chance for, at det regnede i søndags.


 

Intuitiv forklaring

For at beregne sandsynligheden for, at det har regnet søndag, kan vi tage følgende skridt for at beregne sandsynligheden for, at det har regnet mandag:

  • Vi ved, at det regnede i mandags. Derfor er den samlede sandsynlighed P(B).
  • Sandsynligheden for, at det regnede i søndags, er P(A).
  • Sandsynligheden for, at det regnede mandag, givet at det regnede søndag, er P(B|A).
  • Sandsynligheden for at det regner søndag og mandag er P(A)*P(B|A).
  • Derfor er den samlede sandsynlighed for, at det har regnet søndag, givet at det har regnet mandag, lig med sandsynligheden for, at det har regnet søndag og mandag divideret med den samlede sandsynlighed for, at det har regnet mandag.

Derfor,

{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}.}

En anden måde at se dette på, som viser, hvor Bayes' teorem kommer fra, er at se på sandsynligheden P(AB) for, at det regner både søndag og mandag. Dette kan beregnes på to forskellige måder, som giver det samme svar for P(AB):

{\displaystyle P(A)\,P(B|A)=P(B)\,P(A|B)}

I denne henseende er Bayes' teorem blot en anden måde at skrive denne ligning på.


 

Relaterede sider

 

Spørgsmål og svar

Spørgsmål: Hvad er Bayes' teorem?


A: Bayes' teorem er en matematisk formel, der viser forholdet mellem en betinget sandsynlighed og dens omvendte form.

Spørgsmål: Hvem var Thomas Bayes?


Svar: Thomas Bayes var en britisk matematiker fra det 18. århundrede, som udviklede dette teorem inden for sandsynlighedsteori og anvendelser.

Spørgsmål: Hvordan bruges sætningen?


Svar: Sætningen bruges til at beregne sandsynligheden for en hypotese på baggrund af nogle observerede beviser samt sandsynligheden for disse beviser på baggrund af hypotesen.

Spørgsmål: Hvilke andre navne har dette sætningssætningsled?


Svar: Dette teorem er også kendt som Bayes' lov eller Bayes' regel.

Sp: Hvornår udviklede Thomas Bayes denne sætning?


Svar: Thomas Bayes udviklede denne sætning i det 18. århundrede i forbindelse med sit arbejde med sandsynlighedsteori og -applikationer.


Spørgsmål: Hvordan udtaler man "Bayes"?


Svar: "Bayes" udtales /ˈbeɪz/ eller "bays".


Søge
AlegsaOnline.com - 2020 / 2025 - License CC3