Xi-Vector Embedding for Speaker Recognition
1. Introduction
๐ง Assumption [speech signal ์ ๊ตฌ์ฑ]
โ ๏ธ Problem
๐ณ Motivation (Why?)
2. Neural Speaker Embeddings
3. Uncertainty Modeling in the Latent Sapce
3. Xi-Vector Embedding with Uncertainty

Frame Uncertainty
- ๊ธฐ์กด์ x-vector ๋ชจ๋ธ์ ๊ฐ ํ๋ ์(frame)์ ๋ํด ๋จ์ผ ๊ฐ์ธ "point estimate"๋ฅผ ์ถ๋ ฅ
- ๊ทธ๋ฌ๋ xi-vector ๋ชจ๋ธ์ ์ฌ๊ธฐ์ ๋ํด "frame uncertainty"๋ ๊ฐ์ด ์ถ๋ ฅ
- ์ด๋ ๋ชจ๋ธ์ด ๊ฐ ํ๋ ์์ ์ผ๋ง๋ ํ์ ํ๋์ง๋ฅผ ํํํ๋ ๋ถํ์ค์ฑ ์ธก์ ์น
Gaussian Posterior Inference
- ์ด ๋ชจ๋ธ์์๋ ์๊ฐ์ ๋ฐ๋ฅธ ํ๋ ์ ๋ฐ์ดํฐ๋ฅผ ์ง๊ณ(aggregate)ํ ๋, Gaussian posterior inference ๋ฐฉ์์ ์ฌ์ฉ
- ์ด ๋ฐฉ๋ฒ์ ๊ฐ ํ๋ ์์ point estimate์ frame uncertainty๋ฅผ ํจ๊ป ์ฌ์ฉํ์ฌ ๋ ์ ํํ "posterior mean vector"๋ฅผ ๊ณ์ฐ
Decoder Input
- xi-vector์์๋ ๊ธฐ์กด์ x-vector์์ ์ฌ์ฉ๋๋ ์ฒซ ๋ฒ์งธ์ ๋ ๋ฒ์งธ ์์์ ํต๊ณ ๋ชจ๋ฉํธ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , ๋์ ์์์ ๊ณ์ฐ๋ "posterior mean vector"๋ฅผ ๋์ฝ๋์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ