Beispiel für diskrete Ergebnisse:
import numpy as np
np.random.randint(1, 7, size=20) # 20 mal würfeln
mit
Beispiele für diskrete Ereignisse:
ungerade_Wuerfelzahlen = {1, 3, 5}
if np.random.randint(1, 7) in ungerade_Wuerfelzahlen:
print ("Ereignis ungerade Zahl eingetroffen.")
else:
print ("Ereignis ungerade Zahl nicht eingetroffen.")
Die Wahrscheinlichkeitstheorie fordert, dass Ereignisräume folgende drei Grundprinzipien erfüllen:
Aus 1. und 3. folgt, dass der Ereignisraum auch abgeschlossen ist bezüglich anderen booleschen Operatoren, wie z.B. der Schnittmengenbildung.
Die Wahrscheinlichkeitsverteilung über $(\Omega, \mathcal S)$ ist eine Abbildung von Ereignissen in $\mathcal S$ auf reelle Zahlen. Dabei müssen folgende Bedingungen erfüllt sein:
und von besonderem Interesse:
mit
gilt bei einem fairen Würfel:
$P(\alpha)$ "Vertrauensgrad" (degree of confidence) für ein Ereignis
z.B.
Zwei gängige Interpretationen, was die Zahlenwerte bedeuten:
Definition: $$ \forall P(\alpha)>0 : P(\beta \mid \alpha) := \frac{P(\alpha \cap \beta)}{P(\alpha)} $$
Wahrscheinlichkeit von $\beta$ unter der Bedingung $\alpha$.
mit
folgt direkt aus der Definition der bedingten Wahrscheinlichkeit.
Allgemein mit den Ereignissen $\alpha_1, \alpha_2, \dots \alpha_k$
$$ P(\alpha_1 \cap \alpha_2 \cap \dots \cap \alpha_k) = P(\alpha_1) P(\alpha_2 \mid \alpha_1) P(\alpha_3 \mid \alpha_1 \cap \alpha_2) \dots P(\alpha_k \mid \alpha_1 \cap \dots \cap \alpha_{k-1}) $$folgt auch direkt aus der Definition der bedingten Wahrscheinlichkeit.
Allgemeiner mit einem Hintergrundereignis $\gamma$: $$ P(\alpha \mid \beta \cap \gamma) = \frac{P(\beta \mid \alpha \cap \gamma) P(\alpha \mid \gamma)}{P(\beta \mid \gamma)} $$
Das Bayessche Gesetz erlaubt es uns, die bedingte Wahrscheinlichkeit $P(\alpha \mid \beta)$ aus der inversen bedingten Wahrscheinlichkeit $P(\beta \mid \alpha)$ zu berechnen.
Eine Zufallsvariable ist definiert durch eine Funktion, die zu jedem Ergebnis aus $\Omega$ einen Wert assoziert.
Beispiel: Zufallsvarable $GU$ mit $\text{Val}(GU)=\{gerade, ungerade\}$
'$f_{GU} = \text{gerade}$' ist eine Abbkürzung für das Ereignis $\{\omega \in \Omega: f_{GU}(\omega) = \text{gerade}\}$ und
'$f_{GU} = \text{ungerade}$' ist eine Abbkürzung für das Ereignis $\{\omega \in \Omega: f_{GU}(\omega) = \text{ungerade}\}$
In der Regel werden für Zufallsvariable Großbuchstaben verwendet.
Oft schreibt man auch weiter verkürzt nur z.B. '$X = \text{gerade}$'.
Für eine definierte Zufallsvariable $X$ kann allen Werten $x$ von $X$ ($x \in \text{Val(X)}$) eine Wahrscheinlichkeitsverteilung zugeordnet werden: $P(X)$.
Einer Menge von Zufallsvariablen $\mathcal X = \{X_1, X_2, \dots, X_n\}$ kann eine Multivariate Wahrscheinlichkeitsverteilung (join probability distribution) zugeordnet werden.
Beispiel für zwei Zufallsvariablen am Würfel:
Somit ergeben sich vier Kombinationen für $P(X_1, X_2)$:
Ergebnis ist ein konkreter Studierender (Auswahl eines Studierenden):
Zufallsvariablen sind z.B.:
mit
$P(Intelligence = high \cap Grade=A) = 0.07$
als Tabelle:
low | high | ||||
---|---|---|---|---|---|
A | 0.07 | 0.18 | 0.25 | ||
B | 0.28 | 0.09 | 0.37 | ||
C | 0.35 | 0.03 | 0.38 | ||
0.7 | 0.3 | 1.00 |
z.B. $$ P(Intelligence \mid Grade=A) $$
$$ P(Intelligence = high \mid Grade=A) = \frac{P(Intelligence , Grade=A)}{P(Grade=A)} = \frac{0.18}{0.25}= 0.72 $$vs.
$$ P(Intelligence = high ) = 0.3 $$So ändert das Wissen über die Note $Grade=A$ die Wahrscheinlichkeit für $Intelligence=high$.
Notation für "$P$ erfüllt, dass $\alpha$ und $\beta$ statistisch unabhängig sind":
$$ P \models (\alpha \perp \beta) $$Eine Wahrscheinlichkeitsverteilung $P$ erfüllt $\alpha \perp \beta$, wenn und nur wenn (iff)
$$ P(\alpha \cap \beta) = P(\alpha) P(\beta) $$Unabhängigkeit ist eine symmetrische Notation:
$$ \alpha \perp \beta = \beta \perp \alpha $$Ein Ereigniss $\alpha$ ist bedingt unabhängig von dem Ereignis $\beta$ gegeben ein zusätzliches Ereignis $\gamma$, wenn $$ P(\alpha \mid \beta \cap \gamma) = P(\alpha \mid \gamma) $$ oder wenn $$ P(\beta \cap \gamma) = 0 $$
Notation für "$P$ erfüllt, dass $\alpha$ und $\beta$ statistisch unabhängig sind unter $\gamma$":
$$ P \models (\alpha \perp \beta \mid \gamma) $$Eine Wahrscheinlichkeitsverteilung $P$ erfüllt $\alpha \perp \beta \mid \gamma$, wenn und nur wenn (iff)
$$ P(\alpha \cap \beta \mid \gamma) = P(\alpha\mid\gamma) P(\beta\mid\gamma) $$Für Zufallsvariablen müssen alle Ergbnisswerte betrachtet werden.
Für die Zufallsvariablen $X, Y$ und $Z$:
$X$ ist bedingt unabhängig von $Y$ gegeben $Z$ bezüglich einer Wahrscheinlichketsverteilung $P$, wenn $P$ für alle Werte $x\in \text{Val}(X), y\in \text{Val}(Y)$ und $z\in \text{Val}(Z)$ die Unabhängigkeiten $(X=x \perp Y=y \mid Z=z)$ erfüllt.
Mittel multivariater Wahrscheinlichkeitsverteilungen können unterschiedliche Fragen beantwortet werden.
Geg.: Modell mit Menge von Zufallsvariablen $\mathcal X$
Zwei Teile:
mit
Aufgabe:
Berechne $P(\vec Y \mid \vec E = \vec e)$, d.h. berechne die Wahrscheinlichkeiten der verschiedenen Belegungen von $\vec Y$.
Beispiel: Klassifikation des Iris Datensatzes $P(Y \mid \vec X)$ mit
MAP: Maximum-a-Posteriori (oder MPE: most probable explanation)
hier (keine explizite Query-Variablen):
Aufgabe: Finde die wahrscheinlichste Belegung der Nicht-Evidenzvariablen $\mathcal W$ gegeben die Evidenz $\vec E = \vec e$.
$$ \text{MAP}(\vec W \mid \vec e) = \text{arg}\max_{\vec w} P(\vec w, \vec e) $$Wahrscheinlichste Belegung für eine Untermenge der Nicht-Evidenzvariablen, d.h. für Fragevariable $\mathcal Y$ (wie bei den Bedingten Wahrscheinlichkeitsfragen).
Medizinische Diagnose:
$P(B,K \mid A)$:
$a^0$ | $a^1$ | ||
---|---|---|---|
$b^0$; $k^0$ | 0.3 | ||
$b^0$; $k^1$ | 0.4 | ||
$b^1$; $k^0$ | 0.29 | ||
$b^1$; $k^1$ | 0.01 |
Der Erwartungswert (expectation value) einer numerischen, diskreten Zufallsvariablen ist:
$$ \mathbb{E}[X] = \sum_{x \in Val(X)} x p(x) $$für eine Funktion $f(x)$ $$ \mathbb{E}[f(X)] = \sum_{x \in Val(X)} f(x) p(x) $$
Für kontinuierliche Variablen ist $p(x)$ eine Wahrscheinlichkeitsdichtefunktion (probability density function, pdf):
$$ p(x) \geq 0, \int_{-\infty}^\infty p(x) dx = 1 $$Mit der Wahrscheinlichkeit, dass der Wert $x$ im Intervall $[a,b]$ liegt:
$$ P(a \leq x \leq b) = \int_a^b p(x) dx $$Der Erwartungswert (expectation value) einer Funktion $f(x)$ ist:
$$ \mathbb{E}_{\mathcal{X}}[f(x)] = \int_\infty^\infty f(x) p(x) dx = \int_\mathcal{X} f(x) dp(x) $$Der Erwartungswerte einer Funktion $f(x_1, x_2)$ ist: $$ \mathbb{E}_{\mathcal{X_1,X_2}}[f(x_1,x_2)] = \int_\mathcal{X_1} \int_\mathcal{x_2} f(x_1,x_2) p(x_1,x_2) dx_1 dx_2 = \int_{\mathcal{X_1}\times\mathcal{X_2}} f(x_1,x_2) dp(x_1,x_2) $$