Wahrscheinlichkeitstheorie

Ereignisräume (event spaces)

Raum der möglichen Ergebnisse (outcomes) $\Omega$

Beispiel für diskrete Ergebnisse:

  • Würfel: $\Omega = \{1,2,3,4,5,6\}$
In [25]:
import numpy as np
np.random.randint(1, 7, size=20) # 20 mal würfeln 
Out[25]:
array([5, 6, 5, 2, 4, 5, 2, 4, 6, 5, 6, 4, 1, 6, 1, 2, 6, 3, 5, 6])

Menge der messbaren Ereignisse $\mathcal S$

mit

  • Menge der messbaren Ereignisse $\mathcal S$
    • z.B. für den Würfel $\mathcal S \in \{\dots,\{5\},\{6\},\{1,2\},\dots, \{1,3,5\}\dots\}$
  • dem Ereignis (event) $\alpha \in \mathcal S$, d.h. $\alpha$ ist eine Untermenge von $\Omega$
    • z.B. für den Würfel $\alpha = \{4,5,6\}$

Beispiele für diskrete Ereignisse:

  • $\{6\}$, der Würfel zeigt die Sechs.
  • $\{1, 3 , 5\}$, der Würfel zeigt eine ungerade Zahl.
In [23]:
ungerade_Wuerfelzahlen = {1, 3, 5}

if np.random.randint(1, 7) in ungerade_Wuerfelzahlen:
    print ("Ereignis ungerade Zahl eingetroffen.")
else:
    print ("Ereignis ungerade Zahl nicht eingetroffen.")
Ereignis ungerade Zahl eingetroffen.

Eigenschaften von Ereignisräumen

Die Wahrscheinlichkeitstheorie fordert, dass Ereignisräume folgende drei Grundprinzipien erfüllen:

  1. Ein Ereignisraum muss das leere Ereignis $\emptyset$ beinhalten.
  2. Abgeschlossen unter der Vereinigung:
    • $\alpha, \beta \in \mathcal S \Rightarrow \alpha \cup \beta \in \mathcal S$
  3. Abgeschlossen unter dem Komplement:
    • $\alpha \in \mathcal S \Rightarrow \Omega - \alpha \in \mathcal S$

Aus 1. und 3. folgt, dass der Ereignisraum auch abgeschlossen ist bezüglich anderen booleschen Operatoren, wie z.B. der Schnittmengenbildung.

Wahrscheinlichkeitsverteilungen

Die Wahrscheinlichkeitsverteilung über $(\Omega, \mathcal S)$ ist eine Abbildung von Ereignissen in $\mathcal S$ auf reelle Zahlen. Dabei müssen folgende Bedingungen erfüllt sein:

  • $ \forall \alpha \in \mathcal S: P(\alpha) \geq 0$
  • $P(\Omega) = 1$
  • $\alpha, \beta \in \mathcal S \land \alpha \cap \beta = \emptyset \Rightarrow P(\alpha \cup \beta) = P(\alpha) + P(\beta)$

und von besonderem Interesse:

  • $P(\emptyset) = 0$
  • $P(\alpha \cup \beta) = P(\alpha) + P(\beta) - P(\alpha \cap \beta)$

Beispiele

mit

  • ungerades Ereignis: $\alpha = \{1,3,5\}$
  • "größer als 3"-Ereignis: $\beta = \{4,5, 6\}$

gilt bei einem fairen Würfel:

  • $P(\alpha \cup \beta) = 1/2 + 1/2 - P(\alpha \cap \beta) = 5/6$

Interpretation der Wahrscheinlichkeiten

$P(\alpha)$ "Vertrauensgrad" (degree of confidence) für ein Ereignis

z.B.

  • $P(\alpha)=1$: das Ereignis tritt sicher ein.
  • $P(\alpha)=0$: das Ereignis ist unmöglich.

Zwei gängige Interpretationen, was die Zahlenwerte bedeuten:

  • Frequentistischer Wahrscheinlichkeitsbegriff (objektiver Wahrscheinlichkeitsbegriff): Wahrscheinlichkeiten sind relative Häufigkeiten von Ereignissen, wenn das Experiment unendlich oft wiederholt wird.
  • Bayesscher Wahrscheinlichkeitsbegriff: Wahrscheinlichkeiten sind subjektiv "Grad des persönlichen Glaubens" (degree of belief)

Bedingte Wahrscheinlichkeiten

Definition: $$ \forall P(\alpha)>0 : P(\beta \mid \alpha) := \frac{P(\alpha \cap \beta)}{P(\alpha)} $$

Wahrscheinlichkeit von $\beta$ unter der Bedingung $\alpha$.

  • $P(\beta \mid \alpha)$ ist eine Wahrscheinlichkeitsverteilung.

Beispiel

mit

  • ungerades Ereignis: $\alpha = \{1,3,5\}$
  • "größer als 3"-Ereignis: $\beta = \{4,5, 6\}$
$$ P(\beta \mid \alpha) = \frac{P(\alpha \cap \beta)}{P(\alpha)} = \frac{1/6}{1/2} = 1/3 $$

Kettenregel für Wahrscheinlichkeiten

$$ P(\alpha \cap \beta) = P(\alpha) P(\beta \mid \alpha) $$

folgt direkt aus der Definition der bedingten Wahrscheinlichkeit.

Allgemein mit den Ereignissen $\alpha_1, \alpha_2, \dots \alpha_k$

$$ P(\alpha_1 \cap \alpha_2 \cap \dots \cap \alpha_k) = P(\alpha_1) P(\alpha_2 \mid \alpha_1) P(\alpha_3 \mid \alpha_1 \cap \alpha_2) \dots P(\alpha_k \mid \alpha_1 \cap \dots \cap \alpha_{k-1}) $$

Bayessche Gesetz

$$ P(\alpha \mid \beta) = \frac{P(\beta \mid \alpha) P(\alpha)}{P(\beta)} $$

folgt auch direkt aus der Definition der bedingten Wahrscheinlichkeit.

Allgemeiner mit einem Hintergrundereignis $\gamma$: $$ P(\alpha \mid \beta \cap \gamma) = \frac{P(\beta \mid \alpha \cap \gamma) P(\alpha \mid \gamma)}{P(\beta \mid \gamma)} $$

Das Bayessche Gesetz erlaubt es uns, die bedingte Wahrscheinlichkeit $P(\alpha \mid \beta)$ aus der inversen bedingten Wahrscheinlichkeit $P(\beta \mid \alpha)$ zu berechnen.

$$ P(\alpha \mid \beta) = \frac{P(\beta \mid \alpha) P(\alpha)}{P(\beta)}= \frac{P(\beta \mid \alpha) P(\alpha)}{\sum_{\alpha'}P(\beta\mid \alpha')P(\alpha')} $$

Zufallsvariable

Eine Zufallsvariable ist definiert durch eine Funktion, die zu jedem Ergebnis aus $\Omega$ einen Wert assoziert.

Beispiel: Zufallsvarable $GU$ mit $\text{Val}(GU)=\{gerade, ungerade\}$

  • '$f_{GU} = \text{gerade}$' ist eine Abbkürzung für das Ereignis $\{\omega \in \Omega: f_{GU}(\omega) = \text{gerade}\}$ und

  • '$f_{GU} = \text{ungerade}$' ist eine Abbkürzung für das Ereignis $\{\omega \in \Omega: f_{GU}(\omega) = \text{ungerade}\}$

In der Regel werden für Zufallsvariable Großbuchstaben verwendet.
Oft schreibt man auch weiter verkürzt nur z.B. '$X = \text{gerade}$'.

Für eine definierte Zufallsvariable $X$ kann allen Werten $x$ von $X$ ($x \in \text{Val(X)}$) eine Wahrscheinlichkeitsverteilung zugeordnet werden: $P(X)$.

Multivariate Wahrscheinlichkeitsverteilungen

Einer Menge von Zufallsvariablen $\mathcal X = \{X_1, X_2, \dots, X_n\}$ kann eine Multivariate Wahrscheinlichkeitsverteilung (join probability distribution) zugeordnet werden.

Beispiel für zwei Zufallsvariablen am Würfel:

  • $\text{Val}(X_1) = \{\text{gerade}, \text{ungerade} \}$
  • $\text{Val}(X_2) = \{\text{kleiner_gleich_drei}, \text{größer_drei}\}$

Somit ergeben sich vier Kombinationen für $P(X_1, X_2)$:

  • $P(X_1=\text{gerade}, X_2=\text{kleiner_gleich_drei})=1/6$
  • $P(X_1=\text{gerade}, X_2=\text{größer_drei})=1/3$
  • $P(X_1=\text{ungerade}, X_2=\text{kleiner_gleich_drei})=1/3$
  • $P(X_1=\text{ungerade}, X_2=\text{größer_drei})=1/6$

Summenregel (Marginalisierung)

$$ P(X_1) = \sum_{X_2} P(X_1, X_2) $$

Produktregel

$$ P(X_1, X_2) = P(X_1 \mid X_2) P(X_2) = P(X_2 \mid X_1) P(X_1) $$

Beispiel Studierende:

Ergebnis ist ein konkreter Studierender (Auswahl eines Studierenden):

Zufallsvariablen sind z.B.:

  • Intelligenz des Studierenden (intelligence)
  • Note (Grade)

mit

  • $Val(Intelligence) = \{high, low\}$
  • $Val(Grade) = \{A, B, C\}$

$P(Intelligence = high \cap Grade=A) = 0.07$

als Tabelle:

low high
A 0.07 0.18 0.25
B 0.28 0.09 0.37
C 0.35 0.03 0.38
0.7 0.3 1.00

Marginale Verteilungen:

  • $P(Intelligence = high) = 0.3$
  • $P(Intelligence = low) = 0.7$
  • $P(Grade = A) = 0.25$
  • $P(Grade = B) = 0.37$
  • $P(Grade = C) = 0.38$

Bedingte Wahrscheinlichkeit

z.B. $$ P(Intelligence \mid Grade=A) $$

$$ P(Intelligence = high \mid Grade=A) = \frac{P(Intelligence , Grade=A)}{P(Grade=A)} = \frac{0.18}{0.25}= 0.72 $$

vs.

$$ P(Intelligence = high ) = 0.3 $$

So ändert das Wissen über die Note $Grade=A$ die Wahrscheinlichkeit für $Intelligence=high$.

Unabhängige Ereignisse

Definition:

Ein Ereignis $\alpha$ ist unabhängig von einem Ereignis $\beta$ bezüglich der Wahrscheinlichkeitsverteilung $P$, wenn $$ P(\alpha \mid \beta) = P(\alpha). $$

Notation für "$P$ erfüllt, dass $\alpha$ und $\beta$ statistisch unabhängig sind":

$$ P \models (\alpha \perp \beta) $$
Alternative Definition (Faktorisierungseigenschaft):

Eine Wahrscheinlichkeitsverteilung $P$ erfüllt $\alpha \perp \beta$, wenn und nur wenn (iff)

$$ P(\alpha \cap \beta) = P(\alpha) P(\beta) $$

Unabhängigkeit ist eine symmetrische Notation:

$$ \alpha \perp \beta = \beta \perp \alpha $$

Bedingte (statistische) Unabängigkeit

Ein Ereigniss $\alpha$ ist bedingt unabhängig von dem Ereignis $\beta$ gegeben ein zusätzliches Ereignis $\gamma$, wenn $$ P(\alpha \mid \beta \cap \gamma) = P(\alpha \mid \gamma) $$ oder wenn $$ P(\beta \cap \gamma) = 0 $$

Notation für "$P$ erfüllt, dass $\alpha$ und $\beta$ statistisch unabhängig sind unter $\gamma$":

$$ P \models (\alpha \perp \beta \mid \gamma) $$
Alternative Definition

Eine Wahrscheinlichkeitsverteilung $P$ erfüllt $\alpha \perp \beta \mid \gamma$, wenn und nur wenn (iff)

$$ P(\alpha \cap \beta \mid \gamma) = P(\alpha\mid\gamma) P(\beta\mid\gamma) $$

Unabhängigkeit von Zufallsvariablen

Für Zufallsvariablen müssen alle Ergbnisswerte betrachtet werden.

Für die Zufallsvariablen $X, Y$ und $Z$:
$X$ ist bedingt unabhängig von $Y$ gegeben $Z$ bezüglich einer Wahrscheinlichketsverteilung $P$, wenn $P$ für alle Werte $x\in \text{Val}(X), y\in \text{Val}(Y)$ und $z\in \text{Val}(Z)$ die Unabhängigkeiten $(X=x \perp Y=y \mid Z=z)$ erfüllt.

Anfragen an (Wahrscheinlichkeits-)Verteilungen

Mittel multivariater Wahrscheinlichkeitsverteilungen können unterschiedliche Fragen beantwortet werden.

Geg.: Modell mit Menge von Zufallsvariablen $\mathcal X$

Bedingte Wahrscheinlichkeitsfragen (conditional probability query)

Zwei Teile:

  • Evidenz (evidence): Eine Untermenge von Zufallsvariablen $\mathcal E$ (als Vektor $\vec E$) des Modells und einer Instanziierung $\vec{e}$ der Variablen.
  • Fragevariablen $\mathcal Y$ bzw. $\vec Y$

mit

  • $\mathcal X = \mathcal Y \cup \mathcal W \cup \mathcal E$
  • $\mathcal Y \cap \mathcal W = \emptyset$
  • $\mathcal Y \cap \mathcal E = \emptyset$
  • $\mathcal W \cap \mathcal E = \emptyset$

Aufgabe:
Berechne $P(\vec Y \mid \vec E = \vec e)$, d.h. berechne die Wahrscheinlichkeiten der verschiedenen Belegungen von $\vec Y$.

Beispiel: Klassifikation des Iris Datensatzes $P(Y \mid \vec X)$ mit

  • $\vec X$= (sepal_length, sepal_width, petal_length, petal_width)
  • $Y$: Wahrschinlichkeit für die drei Klassen

MAP-Anfragen (MAP queries)

MAP: Maximum-a-Posteriori (oder MPE: most probable explanation)

hier (keine explizite Query-Variablen):

  • $\mathcal W = \mathcal X -\mathcal E$

Aufgabe: Finde die wahrscheinlichste Belegung der Nicht-Evidenzvariablen $\mathcal W$ gegeben die Evidenz $\vec E = \vec e$.

$$ \text{MAP}(\vec W \mid \vec e) = \text{arg}\max_{\vec w} P(\vec w, \vec e) $$

Marginale MAP-Anfragen (marginal MAP queries)

Wahrscheinlichste Belegung für eine Untermenge der Nicht-Evidenzvariablen, d.h. für Fragevariable $\mathcal Y$ (wie bei den Bedingten Wahrscheinlichkeitsfragen).

  • mit $\mathcal W = \mathcal X -\mathcal Y - \mathcal E$
$$ \text{marginal MAP}(\vec Y \mid \vec e) = \text{arg}\max_{\vec y} \sum_{\vec w} P(\vec Y = \vec y , \vec W = \vec w \mid \vec E = \vec e) $$

Beispiel für den Unterschied MAP und marginal MAP

Medizinische Diagnose:

  • Symptom $A$ (beobachtet, d.h. man weiß ob es auftritt oder nicht); $Val(A)=\{a^0, a^1\}$
  • Symptom $B$ (nicht-beobachtete Variable. Man weiß den Wert nicht, z.B. Test zu teuer); $Val(B)=\{b^0, b^1\}$
  • Krankheit $K$ (nicht-beobachtet); $Val(K)=\{k^0, k^1\}$

$P(B,K \mid A)$:

$a^0$ $a^1$
$b^0$; $k^0$ 0.3
$b^0$; $k^1$ 0.4
$b^1$; $k^0$ 0.29
$b^1$; $k^1$ 0.01
  • $\text{MAP}(B,K \mid a^0) = \text{arg}\max_{B,K}P(B,K\mid a^0)=(b^0,k^1)$
  • $\text{(marginal) MAP}(K \mid a^0) = \text{arg}\max_{K}P(K\mid a^0)=(k^0)$

Beispiel für (marginale) MAP-Anfragen:

  • Spracherkennung (speech recognition, speech-to-text): Finde die wahrscheinlichste Wort-Sequenz $\vec w$ für ein gegebenes Audio-Signal
    • $\text{arg}\max_{\vec w} P(\vec w \mid \text{audio features})$
  • Bildverarbeitung, z.B. Segmentierung: Finde die wahrscheinlichsten Pixel-Klassenlabels $\vec l$ gegeben ein RGB-Bild (image):
    • $\text{arg}\max_{\vec l} P(\vec l \mid \text{image})$
  • Medizinische Diagnose: Wahrscheinlichste Diagnose $d$ für einen Patienten gegeben die Symptome:
    • $\text{arg}\max_{\vec d} P(\vec d \mid \text{Symptome})$

Erwartungswerte

Der Erwartungswert (expectation value) einer numerischen, diskreten Zufallsvariablen ist:

$$ \mathbb{E}[X] = \sum_{x \in Val(X)} x p(x) $$

für eine Funktion $f(x)$ $$ \mathbb{E}[f(X)] = \sum_{x \in Val(X)} f(x) p(x) $$

Varianz

$$ \text{Var}[X] = \mathbb{E} \left[ (X - \mathbb{E}[X] )^2\right] $$

Kontinuierliche Variablen

Wahrscheinlichkeitsdichte (probability density)

Für kontinuierliche Variablen ist $p(x)$ eine Wahrscheinlichkeitsdichtefunktion (probability density function, pdf):

$$ p(x) \geq 0, \int_{-\infty}^\infty p(x) dx = 1 $$

Mit der Wahrscheinlichkeit, dass der Wert $x$ im Intervall $[a,b]$ liegt:

$$ P(a \leq x \leq b) = \int_a^b p(x) dx $$

Erwartungswert

Der Erwartungswert (expectation value) einer Funktion $f(x)$ ist:

$$ \mathbb{E}_{\mathcal{X}}[f(x)] = \int_\infty^\infty f(x) p(x) dx = \int_\mathcal{X} f(x) dp(x) $$

Erwartungswert einer multivariaten Wahrscheinlichkeitsdichte

Der Erwartungswerte einer Funktion $f(x_1, x_2)$ ist: $$ \mathbb{E}_{\mathcal{X_1,X_2}}[f(x_1,x_2)] = \int_\mathcal{X_1} \int_\mathcal{x_2} f(x_1,x_2) p(x_1,x_2) dx_1 dx_2 = \int_{\mathcal{X_1}\times\mathcal{X_2}} f(x_1,x_2) dp(x_1,x_2) $$

Literatur

  • Koller, Daphne, and Nir Friedman. Probabilistic graphical models: principles and techniques. MIT press, 2009.