Bayesiansk netværk — definition, DAG, inferens og anvendelser i ML
Lær Bayesianske netværk: definition, DAG-strukturer, inferensmetoder og praktiske anvendelser i maskinlæring — fra klassifikation til billed- og talegenkendelse.
Et bayesiansk netværk (ofte forkortet BN) er en probabilistisk grafisk model, som bruges til at repræsentere og beregne usikker viden. Modellen beskrives ved en rettet acyklisk graf (DAG), hvor hver node svarer til en tilfældig variabel og hver rettet kant angiver en direkte afhængighed mellem variablerne. For hver node angives en betinget sandsynlighed P(node | forældre), typisk som en betinget sandsynlighedstabel (CPT) for diskrete variabler eller som en tæthed for kontinuerte variabler. Den samlede fælles sandsynlighed for alle variabler faktoriseres som produktet af disse betingede sandsynligheder:
P(X1, X2, …, Xn) = ∏i P(Xi | Parents(Xi)).
DAG, uafhængighed og tolkning
DAG-strukturen indkapsler antagelser om betinget uafhængighed mellem variabler (f.eks. at en node er uafhængig af ikke-afkom givet sine forældre). Vigtige begreber er forældre, børn, v-strukturer (colliders) og d-separation, som bruges til at afgøre hvilke variabler der er betinget uafhængige. Ud over at være et redskab til probabilistisk beregning fortolkes bayesianske netværk ofte i årsagsmæssige termer — hvis strukturen er givet af kausale relationer, kan netværket bruges til kausal inferens og interventionsanalyse.
Inferens
Inferens i et bayesiansk netværk handler om at svare på spørgsmål som:
- Marginal sandsynlighed: Hvad er P(A)?
- Betinget sandsynlighed: Hvad er P(A | B = b)?
- MAP (maximum a posteriori): Hvilken tilstand af variabler gør P(X | evidence) størst?
- MPE (most probable explanation): Den mest sandsynlige tildeling givet observationer.
Algoritmer til inferens spænder fra eksakte metoder som variabel-elimination og junction tree (som udnytter grafens struktur) til approksimerede metoder når netværket er stort eller tæt koblet. Eksempler på approksimeret inferens er loopy belief propagation, variational inference og sampling-baserede metoder som Monte Carlo, herunder Gibbs-sampling og importance sampling. Generelt er inferens i generelle bayesianske netværk NP-hårdt, så man vælger metode ud fra netværkets størrelse og krav til nøjagtighed.
Parameterværdi- og strukturindlæring
Hvis netværksstrukturen er kendt, kan parametrene (CPT'er eller tætheder) estimeres fra data med maksimum-likelihood eller bayesianske metoder (priors på parametrene). Hvis strukturen ikke er kendt, lærer man den enten ved:
- Score-baserede metoder (f.eks. BIC, BDeu), hvor man søger efter den struktur der maksimerer en score.
- Constraint-baserede metoder, som undersøger statistiske uafhængighedstests for at bygge strukturen.
- Kombinationer og heuristikker (f.eks. greedy search, hill-climbing, eller brug af domæneviden).
Ved skjulte variabler eller manglende data anvendes ofte EM-algoritmen eller fuldbayesiske metoder. Strukturindlæring er beregningsmæssigt krævende, og ofte bruges begrænsninger eller ekspertviden til at reducere søgepladsen.
Variationer og tidsafhængige modeller
For tidsserier og sekventielle data bruger man dynamiske bayesianske netværk (DBN), som modellerer tilstandsudvikling over tid — HMM (Hidden Markov Models) er en simpel form for DBN. Der findes også blandede modeller med både diskrete og kontinuerte variabler, samt faktorer og hybride tilgange.
Anvendelser
Bayesianske netværk anvendes bredt, især inden for maskinlæring, men også i medicinsk diagnostik, bioinformatik, robotik, beslutningsstøtte og fejlfinding. De er nyttige, når man skal håndtere usikkerhed, kombinere data og domæneviden, og lave årsagsbaseret analyse. Typiske anvendelser inkluderer klassifikation, fejldiagnose og perception (billed-, tale- og dokumentgenkendelse) samt informationssøgning. Modellen bygger på idéer fra pastor Thomas Bayes' opdagelse i 1740'erne, kaldet Bayes' teorem, som er grundlaget for at opdatere sandsynligheder når nye observationer kommer til.
Fordele og begrænsninger
- Fordele: Tydelig og modulær repræsentation af afhængigheder, håndtering af manglende data, mulighed for at kombinere data og ekspertviden, fortolkelige resultater og muligheden for kausal fortolkning hvis betingelserne er opfyldte.
- Begrænsninger: Struktur- og parameterindlæring kan være beregningskrævende; eksakt inferens skalerer dårligt til store, tæt forbundne netværk; valg af passende modelklassifikation og antagelser kan være udfordrende.
Samlet set er bayesianske netværk et fleksibelt værktøj til at modellere usikkerhed og afhængigheder i komplekse systemer — nyttigt både i forskning og i anvendelser inden for maskinlæring og beslægtede felter.
Historie
Udtrykket "Bayesianske netværk" blev skabt af Judea Pearl i 1985 for at fremhæve tre aspekter:
- Den ofte subjektive karakter af de indgående oplysninger.
- Tillid til Bayes' konditionering som grundlag for opdatering af oplysninger.
- Forskellen mellem kausale og evidentielle ræsonnementer, som understreger Thomas Bayes' posthumt offentliggjorte artikel fra 1763.
I slutningen af 1980'erne opsummerede de grundlæggende tekster Probabilistic Reasoning in Intelligent Systems og Probabilistic Reasoning in Expert Systems egenskaberne ved bayesianske netværk og bidrog til at etablere bayesianske netværk som et forskningsområde.
Uformelle varianter af sådanne netværk blev først brugt af retsvidenskabsmanden John Henry Wigmore i form af Wigmore-diagrammer til at analysere bevismateriale fra retssager i 1913. En anden variant, kaldet stidiagrammer, blev udviklet af genetikeren Sewall Wright og anvendt inden for social- og adfærdsvidenskab (hovedsagelig med lineære parametriske modeller).
Spørgsmål og svar
Q: Hvad er et Bayesiansk netværk?
A: Et Bayesiansk netværk er en type graf, der bruges til at modellere uobserverbare hændelser, som kan bruges til inferens.
Q: Hvilken type graf bruges i et Bayesiansk netværk?
A: En rettet graf, som ikke indeholder nogen cyklusser.
Q: Hvad repræsenterer knuderne i grafen i et Bayesiansk netværk?
A: Knudepunkterne repræsenterer tilfældige variabler.
Q: Hvordan forbindes to knudepunkter i et Bayesiansk netværk?
A: To knuder kan forbindes med en kant, og kanten har en tilknyttet sandsynlighed for at sende fra den ene knude til den anden.
Q: Inden for hvilket område bruges bayesianske netværk hovedsageligt?
A: Bayesianske netværk bruges primært inden for (uassisteret) maskinlæring.
Q: Kan Bayesianske netværk bruges til informationsklassifikation?
A: Ja, Bayesianske netværk kan bruges til informationsklassifikation inden for områder som billed-, dokument- eller talegenkendelse og informationssøgning.
Q: Hvad er grundlaget for et Bayesiansk netværk?
A: Et Bayesiansk netværk er baseret på pastor Thomas Bayes' opdagelse i 1740'erne kaldet Bayes' teorem.
Søge