Clustering algorithm that models each cluster as a Gaussian

$p (x) = k = 1 \sum K ω_{k} N (x ∣ μ_{k}, Σ_{k}) : \forall k, ω_{k} > 0 \land k \sum ω_{k} = 1$

The probability density function for observing a data point $x$ in our feature space
$K$ is the number of Gaussians/classes/clusters

$p (x_{n} ∣ z_{n} = k) = N (x_{n} ∣ μ_{k}, Σ_{k})$

The conditional distribution
$N (x_{n} ∣ μ_{k}, Σ_{k})$ is the Multivariate Gaussian Distribution
$x_{n}$ is the position of point $n$

Parameter Estimation

γ_{nk} = {1, 0, z_{n} = k otherwise

Indicator function for whether data point $x_{n}$ belongs to cluster $k$ .
Kind of like the Kronecker Delta in this case

$γ_{nk} = p (z_{n} = k ∣ x_{n}) = \frac{p ( x _{n} ∣ z _{n} = k ) p ( z _{n} = k )}{\sum _{k^{'} = 1}^{K} p ( x _{n} ∣ z _{n} = k ^{'} )} = \frac{N ( x _{n} ∣ μ _{k} , Σ _{k} ) \cdot ω _{k}}{\sum _{k^{'} = 1}^{K} N ( x _{n} ∣ μ _{k} , Σ _{k} )}$

Non-binary “soft” version, used when actually training the Gaussian Mixture Model
Expanded by Bayes’ Theorem

$ω_{k} = p (z = k) = \frac{\sum _{n} γ _{nk}}{\sum _{k^{'}} \sum _{n} γ _{n k^{'}}}$

The weight associated with a particular Gaussian
The probability of a particular class
Proportion of points with $z_{n} =$ to a particular $k$

$μ_{k} = \frac{1}{\sum _{n} γ _{nk}} n \sum γ_{nk} x_{n}$

The mean position of all points in cluster $k$

$Σ_{k} = \frac{1}{\sum _{n} γ _{nk}} n \sum γ_{nk} (x_{n} - μ_{k}) (x_{n} - μ_{k})^{^{⊤}}$

The covariance matrix for all points with $z_{n} = k$

Training

Called expectation-maximization

Very similar to K-Means, except that it is considered a “soft” version and also with a non zero $σ$
The E step corresponds to step 1 while the M step corresponds to step 2

Knowledge

Explorer

Gaussian Mixture Models

$p (x) = k = 1 \sum K ω_{k} N (x ∣ μ_{k}, Σ_{k}) : \forall k, ω_{k} > 0 \land k \sum ω_{k} = 1$

$p (x_{n} ∣ z_{n} = k) = N (x_{n} ∣ μ_{k}, Σ_{k})$

Parameter Estimation

$γ_{nk} = p (z_{n} = k ∣ x_{n}) = \frac{p ( x _{n} ∣ z _{n} = k ) p ( z _{n} = k )}{\sum _{k^{'} = 1}^{K} p ( x _{n} ∣ z _{n} = k ^{'} )} = \frac{N ( x _{n} ∣ μ _{k} , Σ _{k} ) \cdot ω _{k}}{\sum _{k^{'} = 1}^{K} N ( x _{n} ∣ μ _{k} , Σ _{k} )}$

$ω_{k} = p (z = k) = \frac{\sum _{n} γ _{nk}}{\sum _{k^{'}} \sum _{n} γ _{n k^{'}}}$

$μ_{k} = \frac{1}{\sum _{n} γ _{nk}} n \sum γ_{nk} x_{n}$

$Σ_{k} = \frac{1}{\sum _{n} γ _{nk}} n \sum γ_{nk} (x_{n} - μ_{k}) (x_{n} - μ_{k})^{^{⊤}}$

Training

Graph View

Table of Contents

Backlinks

Knowledge

Explorer

Gaussian Mixture Models

p(x)=k=1∑K​ωk​N(x∣μk​,Σk​): ∀ k,ωk​>0∧k∑​ωk​=1

p(xn​∣zn​=k)=N(xn​∣μk​,Σk​)

Parameter Estimation

γnk​=p(zn​=k∣xn​)=∑k′=1K​p(xn​∣zn​=k′)p(xn​∣zn​=k)p(zn​=k)​=∑k′=1K​N(xn​∣μk​,Σk​)N(xn​∣μk​,Σk​)⋅ωk​​

ωk​=p(z=k)=∑k′​∑n​γnk′​∑n​γnk​​

μk​=∑n​γnk​1​n∑​γnk​xn​

Σk​=∑n​γnk​1​n∑​γnk​(xn​−μk​)(xn​−μk​)⊤

Training

Graph View

Table of Contents

Backlinks

$p (x) = k = 1 \sum K ω_{k} N (x ∣ μ_{k}, Σ_{k}) : \forall k, ω_{k} > 0 \land k \sum ω_{k} = 1$

$p (x_{n} ∣ z_{n} = k) = N (x_{n} ∣ μ_{k}, Σ_{k})$

$γ_{nk} = p (z_{n} = k ∣ x_{n}) = \frac{p ( x _{n} ∣ z _{n} = k ) p ( z _{n} = k )}{\sum _{k^{'} = 1}^{K} p ( x _{n} ∣ z _{n} = k ^{'} )} = \frac{N ( x _{n} ∣ μ _{k} , Σ _{k} ) \cdot ω _{k}}{\sum _{k^{'} = 1}^{K} N ( x _{n} ∣ μ _{k} , Σ _{k} )}$

$ω_{k} = p (z = k) = \frac{\sum _{n} γ _{nk}}{\sum _{k^{'}} \sum _{n} γ _{n k^{'}}}$

$μ_{k} = \frac{1}{\sum _{n} γ _{nk}} n \sum γ_{nk} x_{n}$

$Σ_{k} = \frac{1}{\sum _{n} γ _{nk}} n \sum γ_{nk} (x_{n} - μ_{k}) (x_{n} - μ_{k})^{^{⊤}}$