I sandsynlighedsteori og -applikationer viser Bayes' sætning forholdet mellem en betinget sandsynlighed og dens omvendte form. F.eks. sandsynligheden for en hypotese i betragtning af nogle observerede beviser og sandsynligheden for disse beviser i betragtning af hypotesen. Dette sætning er opkaldt efter Thomas Bayes (/ˈbeɪz/ eller "bays") og kaldes ofte Bayes' lov eller Bayes' regel.




 

Definition og formel

Bayes' sætning udtrykker sammenhængen mellem to betingede sandsynligheder. For to hændelser A og B, hvor P(B) > 0, lyder reglen:

P(A | B) = P(B | A) · P(A) / P(B)

Her er:

  • P(A | B): den betingede sandsynlighed for A givet B (posterior).
  • P(B | A): sandsynligheden for B givet A (likelihood).
  • P(A): den indledende sandsynlighed for A, før B observeres (prior).
  • P(B): den marginale sandsynlighed for B (evidence), ofte udregnet ved total sandsynlighed.

Begrundelse / Afledning

Afledningen følger fra definitionen af betinget sandsynlighed:

P(A ∩ B) = P(A | B)·P(B) = P(B | A)·P(A).

Ved at isolere P(A | B) får vi Bayes' sætning ovenfor.

Generalisering til flere hypoteser

Hvis der er et endeligt eller tælleligt sæt af disjunkte hypoteser H1, H2, ..., Hn, der udgør alle muligheder, kan man skrive for en bestemt Hi:

P(Hi | E) = P(E | Hi)·P(Hi) / Σj P(E | Hj)·P(Hj)

Den nævnte sum i nævneren er anvendelsen af loven om total sandsynlighed for at beregne P(E).

Komponenter forklaret enkelt

  • Prior (P(H)): Hvad vi troede om hypotesen før vi så de nye data.
  • Likelihood (P(E | H)): Hvor godt hypotesen forklarer de observerede data.
  • Evidence (P(E)): Hvor sandsynlige dataene er under alle overvejede hypoteser.
  • Posterior (P(H | E)): Den opdaterede sandsynlighed for hypotesen efter at have set dataene.

Numerisk eksempel (medicinsk test)

Antag en sygdom med prævalens 1% i befolkningen (P(Syg) = 0,01). En test har sensitivitet 99% (P(Positiv | Syg) = 0,99) og specificitet 95% (P(Negativ | IkkeSyg) = 0,95 → P(Positiv | IkkeSyg) = 0,05).

Spørgsmål: Hvis en person tester positivt, hvad er sandsynligheden for at vedkommende rent faktisk er syg?

Brug Bayes' sætning:

P(Syg | Pos) = P(Pos | Syg)·P(Syg) / P(Pos)

Først beregnes P(Pos) ved total sandsynlighed:

P(Pos) = P(Pos | Syg)·P(Syg) + P(Pos | IkkeSyg)·P(IkkeSyg)

= 0,99·0,01 + 0,05·0,99 = 0,0099 + 0,0495 = 0,0594

Dermed:

P(Syg | Pos) = 0,0099 / 0,0594 ≈ 0,167 = 16,7%

Selvom testen er ret god, betyder den lave prævalens, at de fleste positive resultater er falsk positive. Dette illustrerer vigtigheden af base rate (prioren).

Eksempler på anvendelser

  • Medicinsk diagnostik (som ovenfor).
  • Maskinlæring: Bayesianske modeller og Naive Bayes-klassifikatorer.
  • Forensics: tolkning af DNA-beviser (her kræves omhu for at undgå fejltolkninger).
  • Signalbehandling og robotik, hvor man løbende opdaterer troen om tilstande baseret på sensormålinger.
  • Statistisk inferens: beregning af posteriorfordelinger ved brug af priors og likelihoods.

Udvidelser og praktiske emner

  • Naive Bayes: En simpel, ofte effektiv metode i klassifikation, hvor man antager betinget uafhængighed mellem features givet klassen.
  • Konjugerede priors: For visse sandsynlighedsmodeller (fx binomial → beta) fører valg af prior til en posterior i samme familie, hvilket forenkler beregninger.
  • Numeriske metoder: I komplekse modeller er analytisk løsning umulig; man bruger MCMC (Markov Chain Monte Carlo), variational inference eller andre numeriske algoritmer til at approksimere posterioren.
  • Bayes-faktor: For model- eller hypotese-sammenligninger kan man bruge forholdet mellem marginale likelihoods (evidence) til at vurdere, hvilken model dataene understøtter bedst.

Faldgruber og overvejelser

  • Prior-afhængighed: Resultater kan være følsomme over for valg af prior, især ved lille datamængde. Det er god praksis at teste forskellige priors eller bruge objektive/ikke-informative priors, hvis passende.
  • Prosecutor's fallacy / base rate-fallacy: Forveksling af P(E | H) med P(H | E) kan føre til store fejltolkninger. Altid anvend Bayes' sætning for at få korrekt posterior.
  • Numerisk ustabilitet: Beregninger med meget små sandsynligheder kan være ustabile; i praksis bruges ofte log-sandsynligheder.

Kort opsummering

Bayes' sætning er et grundlæggende værktøj til at opdatere sandsynligheder, når nye data observeres. Den binder sammen prior, likelihood og evidence for at give en posterior sandsynlighed. Den er både teoretisk central og praktisk anvendelig i mange felter, men kræver omtanke omkring valg af priors og korrekt fortolkning af resultater.