Abstract & Conclustion

speech segment에서 오직 하나의 embedding만 extraction
Sliding Window approach
- 하나의 segment에 두명 이상의 화자 (speaker change point가 있을 수 있으므로)
Window size trade-off
- 너무 짧은 embedding은 reliability를 떨어트리고, 너무 긴 embedding은 두 명 이상의 화자가 포함될 수 있기 때문에 malicious 해짐

High resolution embedding extractor (HEE)
- 각각의 speech segment에서 여러개의 high resoultion embedding를 extraction
- Feature-map extractor와 enhancer로 구성
  - Enhancer는 self-attention을 통해 aggregation process를 대체
- 추출된 dense frame-level embedding에는 한명의 화자만을 대표할 것
Generating mixture data

2. Proposed system pipeline

HEE, feature enahancement module, clustering module
- 기존의 naver에서 사용하던 구조에서 embedding extractor만 바뀐 형태
Procedure
1. VAD
2. Sliding winodow (3.2s, 0.8s)
  1. overlapping embedding들은 avereged (무슨 말이지?)
3. Feature enahnacement (2021, Interspeech)
  1. Auto-encoder 기반의 dimension reduction과 attention aggregation을 통한 refinement
    1. 처리 속도와 향상, more compact representation, affinity matrix에서 noise 감소
4. Spetral clustering
  1. eigenvalue threshold를 통한 speaker 수 결정
    
    이거 시간 꽤걸리던데