(Grundlegende) Wahrscheinlichkeitsrechung¶
in einer Nussschale
Ergebnisse / Ereignisse¶
Raum der möglichen Ergebnisse (outcomes) $\Omega$¶
Alle möglichen Ergebnisse eines Zufallsexperimentes in einer Menge zusammengefasst nennt man die Ergebnismenge $\Omega$.
Beispiel für diskrete Ergebnisse:
- Würfel: $\Omega = \{1,2,3,4,5,6\}$
20-mal Würfeln mit numpy:
import numpy as np
np.random.randint(1, 7, size=20)
array([4, 5, 2, 6, 1, 2, 3, 1, 3, 2, 3, 4, 1, 2, 3, 6, 3, 4, 5, 6])
Ereignisse (events)¶
Jede Zusammenfassung von einem oder mehreren Ergebnissen eines Zufallsexperimentes in einer Menge nennt man Ereignis.
Menge der messbaren Ereignisse $\mathcal S$¶
mit
- Menge der messbaren Ereignisse $\mathcal S$
- z.B. für den Würfel $\mathcal S = \{\dots,\{5\},\{6\},\{1,2\},\dots, \{1,3,5\}\dots\}$
- dem Ereignis (event) $\alpha \in \mathcal S$, d.h. $\alpha$ ist eine Untermenge von $\Omega$
- z.B. für den Würfel $\alpha = \{4,5,6\}$
Beispiele für diskrete Ereignisse:
- $\{6\}$, der Würfel zeigt die Sechs.
- $\{1, 3 , 5\}$, der Würfel zeigt eine ungerade Zahl.
ungerade_Wuerfelzahlen = {1, 3, 5}
if np.random.randint(1, 7) in ungerade_Wuerfelzahlen:
print ("Ereignis ungerade Zahl eingetroffen.")
else:
print ("Ereignis ungerade Zahl nicht eingetroffen.")
Ereignis ungerade Zahl nicht eingetroffen.
Eigenschaften von Ereignisräumen¶
Die Wahrscheinlichkeitstheorie fordert, dass Ereignisräume folgende drei Grundprinzipien erfüllen: 3. Abgeschlossen unter dem Komplement:
- Ein Ereignisraum muss das leere Ereignis $\emptyset$ beinhalten.
- Abgeschlossen unter der Vereinigung:
- $\alpha, \beta \in \mathcal S \Rightarrow \alpha \cup \beta \in \mathcal S$
- $\alpha \in \mathcal S \Rightarrow \Omega - \alpha \in \mathcal S$
Aus 1. und 3. folgt, dass der Ereignisraum auch abgeschlossen ist bezüglich anderen booleschen Operatoren, wie z.B. der Schnittmengenbildung.
Wahrscheinlichkeitsverteilungen¶
Die Wahrscheinlichkeitsverteilung über $(\Omega, \mathcal S)$ ist eine Abbildung von Ereignissen in $\mathcal S$ auf reelle Zahlen. Dabei müssen folgende Bedingungen erfüllt sein:
- $ \forall \alpha \in \mathcal S: P(\alpha) \geq 0$
- $P(\Omega) = 1$
- $\alpha, \beta \in \mathcal S \land \alpha \cap \beta = \emptyset \Rightarrow P(\alpha \cup \beta) = P(\alpha) + P(\beta)$
und von besonderem Interesse:
- $P(\emptyset) = 0$
- $P(\alpha \cup \beta) = P(\alpha) + P(\beta) - P(\alpha \cap \beta)$
Beispiel
mit
- ungerades Ereignis: $\alpha = \{1,3,5\}$
- "größer als 3"-Ereignis: $\beta = \{4,5, 6\}$
gilt bei einem fairen Würfel (Wk für alle sechs Ergebnisse ist $1/6$):
- $P(\alpha \cup \beta) = 1/2 + 1/2 - P(\alpha \cap \beta) = 5/6$
Interpretation der Wahrscheinlichkeiten¶
$P(\alpha)$ "Vertrauensgrad" (degree of confidence) für ein Ereignis
z.B.
- $P(\alpha)=1$: das Ereignis tritt sicher ein.
- $P(\alpha)=0$: das Ereignis ist unmöglich.
Zwei gängige Interpretationen, was die Zahlenwerte bedeuten:
- Frequentistischer Wahrscheinlichkeitsbegriff (objektiver Wahrscheinlichkeitsbegriff): Wahrscheinlichkeiten sind relative Häufigkeiten von Ereignissen, wenn das Experiment unendlich oft wiederholt wird.
- Bayesscher Wahrscheinlichkeitsbegriff: Wahrscheinlichkeiten sind subjektiv "Grad des persönlichen Glaubens" (degree of belief)
Bedingte Wahrscheinlichkeiten¶
Definition: $$ \forall P(\alpha)>0 : P(\beta \mid \alpha) := \frac{P(\alpha \cap \beta)}{P(\alpha)} $$
Wahrscheinlichkeit von $\beta$ unter der Bedingung $\alpha$.
- $P(\beta \mid \alpha)$ ist eine Wahrscheinlichkeitsverteilung.
Beispiel für fairen Würfel¶
mit
- ungerades Ereignis: $\alpha = \{1,3,5\}$
- "größer als 3"-Ereignis: $\beta = \{4,5, 6\}$
$$ P(\beta \mid \alpha) = \frac{P(\alpha \cap \beta)}{P(\alpha)} = \frac{1/6}{1/2} = 1/3 $$
Kettenregel für Wahrscheinlichkeiten¶
$$ P(\alpha \cap \beta) = P(\alpha) P(\beta \mid \alpha) $$
folgt direkt aus der Definition der bedingten Wahrscheinlichkeit.
Allgemein mit den Ereignissen $\alpha_1, \alpha_2, \dots \alpha_k$
$$ P(\alpha_1 \cap \alpha_2 \cap \dots \cap \alpha_k) = P(\alpha_1) P(\alpha_2 \mid \alpha_1) P(\alpha_3 \mid \alpha_1 \cap \alpha_2) \dots P(\alpha_k \mid \alpha_1 \cap \dots \cap \alpha_{k-1}) $$
Bayessches Gesetz¶
$$ P(\alpha \mid \beta) = \frac{P(\beta \mid \alpha) P(\alpha)}{P(\beta)} $$
folgt auch direkt aus der Definition der bedingten Wahrscheinlichkeit.
Allgemeiner mit einem Hintergrundereignis $\gamma$: $$ P(\alpha \mid \beta \cap \gamma) = \frac{P(\beta \mid \alpha \cap \gamma) P(\alpha \mid \gamma)}{P(\beta \mid \gamma)} $$
Das Bayessche Gesetz erlaubt es uns, die bedingte Wahrscheinlichkeit $P(\alpha \mid \beta)$ aus der inversen bedingten Wahrscheinlichkeit $P(\beta \mid \alpha)$ zu berechnen.
$$ P(\alpha \mid \beta) = \frac{P(\beta \mid \alpha) P(\alpha)}{P(\beta)} $$
Zufallsvariable¶
Eine Zufallsvariable ist definiert durch eine Funktion, die jedem Ergebnis aus $\Omega$ einen Wert assoziert.
Beispiel: Zufallsvariable $X$ mit $\text{Val}(X)=\{gerade, ungerade\}$ für den Ergbnisraum des Würfels.
'$f_{X} = \text{gerade}$' ist eine Abbkürzung für das Ereignis $\{\omega \in \Omega: f_{X}(\omega) = \text{gerade}\}$ und
'$f_{X} = \text{ungerade}$' ist eine Abbkürzung für das Ereignis $\{\omega \in \Omega: f_{X}(\omega) = \text{ungerade}\}$
z.B. $f_{X}(\omega=1) = \text{ungerade}$
In der Regel werden für Zufallsvariable Großbuchstaben verwendet.
Oft schreibt man auch weiter verkürzt nur z.B. '$X = \text{gerade}$'.
Für eine definierte Zufallsvariable $X$ kann allen Werten $x$ von $X$ ($x \in \text{Val(X)}$) eine Wahrscheinlichkeitsverteilung zugeordnet werden: $P(X)$.
Multivariate Wahrscheinlichkeitsverteilungen¶
Einer Menge von Zufallsvariablen $\mathcal X = \{X_1, X_2, \dots, X_n\}$ kann eine multivariate Wahrscheinlichkeitsverteilung (join probability distribution) zugeordnet werden.
Beispiel für zwei Zufallsvariablen am Würfel:
$\text{Val}(X_1) = \{\text{gerade}, \text{ungerade}\}$
$\text{Val}(X_2) = \{\text{kleinerVier}, \text{größerDrei}\}$
Somit ergeben sich vier Kombinationen für $P(X_1, X_2)$:
- $P(X_1=\text{gerade}, X_2=\text{kleinerVier})=1/6$
- $P(X_1=\text{gerade}, X_2=\text{größerDrei})=1/3$
- $P(X_1=\text{ungerade}, X_2=\text{kleinerVier})=1/3$
- $P(X_1=\text{ungerade}, X_2=\text{größerDrei})=1/6$
Summenregel (Marginalisierung)¶
$$ P(X_1) = \sum_{X_2} P(X_1, X_2) $$
Produktregel¶
$$ P(X_1, X_2) = P(X_1 \mid X_2) P(X_2) = P(X_2 \mid X_1) P(X_1) $$
Beispiel Studierende:¶
Ergebnis ist ein konkreter Studierender (Auswahl eines Studierenden):
Zufallsvariablen sind z.B.:
- Intelligenz des Studierenden (intelligence)
- Note (Grade)
mit
- $Val(Intelligence) = \{high, low\}$
- $Val(Grade) = \{A, B, C\}$
$P(Intelligence = high \cap Grade=A) = 0.07$
als Tabelle:
low | high | ||
---|---|---|---|
$A$ | 0.07 | 0.18 | 0.25 |
$B$ | 0.28 | 0.09 | 0.37 |
$C$ | 0.35 | 0.03 | 0.38 |
0.7 | 0.3 | 1.00 |
Marginale Verteilungen:¶
$P(Intelligence = high) = 0.3$
$P(Intelligence = low) = 0.7$
$P(Grade = A) = 0.25$
$P(Grade = B) = 0.37$
$P(Grade = C) = 0.38$
Bedingte Wahrscheinlichkeit¶
z.B. $$ P(Intelligence \mid Grade=A) $$
$$ P(Intelligence = high \mid Grade=A) = \frac{P(Intelligence , Grade=A)}{P(Grade=A)} = \frac{0.18}{0.25}= 0.72 $$
vs.
$$ P(Intelligence = high ) = 0.3 $$
Beachte: Das Wissen über die Note $Grade=A$ ändert die Wahrscheinlichkeit für $Intelligence=high$.
Beispiel: Bugs in Code¶
Notation für "$P$ erfüllt, dass $\alpha$ und $\beta$ statistisch unabhängig sind":
$$ P \models (\alpha \perp \beta) $$
Alternative Definition (Faktorisierungseigenschaft):¶
Eine Wahrscheinlichkeitsverteilung $P$ erfüllt $\alpha \perp \beta$, wenn und nur wenn (iff)
$$ P(\alpha \cap \beta) = P(\alpha) P(\beta) $$
Unabhängigkeit ist symmetrisch:
$$ \alpha \perp \beta = \beta \perp \alpha $$
Bedingte (statistische) Unabängigkeit¶
Ein Ereignis $\alpha$ ist bedingt unabhängig von dem Ereignis $\beta$ gegeben ein zusätzliches Ereignis $\gamma$, wenn $$ P(\alpha \mid \beta \cap \gamma) = P(\alpha \mid \gamma) $$ oder wenn $$ P(\beta \cap \gamma) = 0 $$
Notation für "$P$ erfüllt, dass $\alpha$ und $\beta$ statistisch unabhängig sind unter $\gamma$":
$$ P \models (\alpha \perp \beta \mid \gamma) $$
Alternative Definition¶
Eine Wahrscheinlichkeitsverteilung $P$ erfüllt $\alpha \perp \beta \mid \gamma$, wenn und nur wenn (iff)
$$ P(\alpha \cap \beta \mid \gamma) = P(\alpha\mid\gamma) P(\beta\mid\gamma) $$
Unabhängigkeit von Zufallsvariablen¶
Für Zufallsvariablen müssen alle Ergbniswerte betrachtet werden.
Für die Zufallsvariablen $X, Y$ und $Z$:
$X$ ist bedingt unabhängig von $Y$ gegeben $Z$ bezüglich einer Wahrscheinlichketsverteilung $P$, wenn $P$ für alle Werte $x\in \text{Val}(X), y\in \text{Val}(Y)$ und $z\in \text{Val}(Z)$ die Unabhängigkeiten $(X=x \perp Y=y \mid Z=z)$ erfüllt sind.
Anfragen an (Wahrscheinlichkeits-)Verteilungen¶
Mittel multivariater Wahrscheinlichkeitsverteilungen können unterschiedliche Fragen beantwortet werden.
Geg.: Modell mit Menge von Zufallsvariablen $\mathcal X$
Bedingte Wahrscheinlichkeitsfragen (conditional probability query)¶
Zwei Teile:
- Evidenz (evidence): Eine Untermenge von Zufallsvariablen $\mathcal E$ (als Vektor $\vec E$) des Modells und einer Instanziierung $\vec{e}$ der Variablen.
- Fragevariablen $\mathcal Y$ bzw. $\vec Y$
mit
- $\mathcal X = \mathcal Y \cup \mathcal W \cup \mathcal E$
- $\mathcal Y \cap \mathcal W = \emptyset$
- $\mathcal Y \cap \mathcal E = \emptyset$
- $\mathcal W \cap \mathcal E = \emptyset$
$W$: weitere unbeobachtete Variablen im Modell (siehe unten).
Aufgabe:
Berechne $P(\vec Y \mid \vec E = \vec e)$, d.h. berechne die Wahrscheinlichkeiten der verschiedenen Belegungen von $\vec Y$.
Beispiel: Klassifikation des Iris-Datensatzes $P(Y \mid \vec E)$ mit
- $\vec E$= (sepal_length, sepal_width, petal_length, petal_width)
- $Y$: Wahrscheinlichkeit für die drei Klassen
MAP-Anfragen (MAP queries)¶
MAP: Maximum-a-Posteriori (oder MPE: most probable explanation)
hier (keine explizite Query-Variablen):
- $\mathcal W = \mathcal X -\mathcal E$
Aufgabe: Finde die wahrscheinlichste Belegung der Nicht-Evidenzvariablen $\mathcal W$ gegeben die Evidenz $\vec E = \vec e$.
$$ \text{MAP}(\vec W \mid \vec e) = \text{arg}\max_{\vec w} P(\vec w, \vec e) $$
Marginale MAP-Anfragen (marginal MAP queries)¶
Wahrscheinlichste Belegung für eine Untermenge der Nicht-Evidenzvariablen, d.h. für Fragevariable $\mathcal Y$ (wie bei den bedingten Wahrscheinlichkeitsfragen).
- mit $\mathcal W = \mathcal X -\mathcal Y - \mathcal E$
$$ \text{marginal MAP}(\vec Y \mid \vec e) = \text{arg}\max_{\vec y} \sum_{\vec w} P(\vec Y = \vec y , \vec W = \vec w \mid \vec E = \vec e) $$
Beispiel für den Unterschied MAP und marginal MAP¶
Medizinische Diagnose:
- Symptom $A$ (beobachtet, d.h. man weiß ob es auftritt oder nicht); $Val(A)=\{a^0, a^1\}$
- Symptom $B$ (nicht-beobachtete Variable. Man weiß den Wert nicht, z.B. Test zu teuer); $Val(B)=\{b^0, b^1\}$
- Krankheit $K$ (nicht-beobachtet); $Val(K)=\{k^0, k^1\}$
$P(B,K \mid A)$:
$a^0$ | $a^1$ | |
---|---|---|
$b^0$; $k^0$ | 0.3 | |
$b^0$; $k^1$ | 0.4 | |
$b^1$; $k^0$ | 0.29 | |
$b^1$; $k^1$ | 0.01 |
- $\text{MAP}(B,K \mid a^0) = \text{arg}\max_{B,K}P(B,K\mid a^0)=(b^0,k^1)$
- $\text{(marginal) MAP}(K \mid a^0) = \text{arg}\max_{K}P(K\mid a^0)=(k^0)$
Beispiel für (marginale) MAP-Anfragen:¶
- Spracherkennung (speech recognition, speech-to-text): Finde die wahrscheinlichste Wort-Sequenz $\vec w$ für ein gegebenes Audio-Signal
- $\text{arg}\max_{\vec w} P(\vec w \mid \text{audio features})$
- Bildverarbeitung, z.B. Segmentierung: Finde die wahrscheinlichsten Pixel-Klassenlabels $\vec l$ gegeben ein RGB-Bild (image):
- $\text{arg}\max_{\vec l} P(\vec l \mid \text{image})$
- Medizinische Diagnose: Wahrscheinlichste Diagnose $d$ für einen Patienten gegeben die Symptome:
- $\text{arg}\max_{\vec d} P(\vec d \mid \text{symptome})$
Erwartungswerte¶
Der Erwartungswert (expectation value) einer numerischen, diskreten Zufallsvariablen ist:
$$ \mathbb{E}[X] = \sum_{x \in Val(X)} x p(x) $$
für eine Funktion $f(x)$ $$ \mathbb{E}[f(X)] = \sum_{x \in Val(X)} f(x) p(x) $$
Varianz¶
$$ \text{Var}[X] = \mathbb{E} \left[ (X - \mathbb{E}[X] )^2\right] $$
Bedingte Erwartungswert¶
Analog zum Erwartungswert durch Ersetzen der Wahrscheinlichkeit durch die bedingte Wahrscheinlichkeit:
$$ \mathbb{E}[X \mid A=a] = \sum_{x \in Val(X)} x p(X=x\mid A=a) $$
Kontinuierliche Variablen¶
Wahrscheinlichkeitsdichte (probability density)¶
Für kontinuierliche Variablen ist $p(x)$ eine Wahrscheinlichkeitsdichtefunktion (probability density function, pdf):
$$ p(x) \geq 0, \int_{-\infty}^\infty p(x) dx = 1 $$
Mit der Wahrscheinlichkeit, dass der Wert $x$ im Intervall $[a,b]$ liegt:
$$ P(a \leq x \leq b) = \int_a^b p(x) dx $$
Erwartungswert¶
Der Erwartungswert (expectation value) einer Funktion $f(x)$ ist:
$$ \mathbb{E}_{\mathcal{X}}[f(x)] = \int_{-\infty}^\infty f(x) p(x) dx = \int_\mathcal{X} f(x) dp(x) $$
- es reicht aus über den Support von $X$ zu integrieren, d.h. über alle Bereiche in denen $p(x) \neq 0$ ist.
Erwartungswert einer multivariaten Wahrscheinlichkeitsdichte¶
Der Erwartungswert einer Funktion $f(x_1, x_2)$ ist: $$ \mathbb{E}_{\mathcal{X_1, X_2}}[f(x_1,x_2)] = \int_\mathcal{X_1} \int_\mathcal{X_2} f(x_1,x_2) p(x_1,x_2) dx_1 dx_2 = \int_{\mathcal{X_1}\times\mathcal{X_2}} f(x_1,x_2) dp(x_1,x_2) $$
Literatur¶
- Koller, Daphne, and Nir Friedman. Probabilistic graphical models: principles and techniques. MIT press, 2009.