High-resolution embedding extractor for speaker diarisation
Abstract & Conclustion
Problem
- speech segment에서 오직 하나의 embedding만 extraction
- Sliding Window approach
- 하나의 segment에 두명 이상의 화자 (speaker change point가 있을 수 있으므로)
- Window size trade-off
- 너무 짧은 embedding은 reliability를 떨어트리고, 너무 긴 embedding은 두 명 이상의 화자가 포함될 수 있기 때문에 malicious 해짐
Proposal
- High resolution embedding extractor (HEE)
- 각각의 speech segment에서 여러개의 high resoultion embedding를 extraction
- Feature-map extractor와 enhancer로 구성
- Enhancer는 self-attention을 통해 aggregation process를 대체
- 추출된 dense frame-level embedding에는 한명의 화자만을 대표할 것
- Generating mixture data
Results
- 5개의 evalutation set에 대해서 실험 진행 (4개는 public dataset)
- 적어도 10%의 향상을 보여줬음
- speaker chaning가 적은 1개의 데이터 셋에서는 그렇지 못하였음
2. Proposed system pipeline
Three sub-module
- HEE, feature enahancement module, clustering module
- 기존의 naver에서 사용하던 구조에서 embedding extractor만 바뀐 형태
- Procedure
- VAD
- Sliding winodow (3.2s, 0.8s)
- overlapping embedding들은 avereged (무슨 말이지?)
- Feature enahnacement (2021, Interspeech)
- Auto-encoder 기반의 dimension reduction과 attention aggregation을 통한 refinement
- 처리 속도와 향상, more compact representation, affinity matrix에서 noise 감소
- Spetral clustering
-
eigenvalue threshold를 통한 speaker 수 결정
이거 시간 꽤걸리던데
2.1. HEE Architecture