Fem alternativer til pyannote: speaker diarization til telefonopkald (2026)
Pyannote-audio 3.1 virker, men kræver en Hugging Face-token og tager 5 sekunder pr. opkald. Benchmark af fem alternativer på 8 rigtige 2-parts telefonopkald: WeSpeaker + spectral clustering (0,2 s), multi-scale AHC (0,6 s), PLDA + spectral (0,3 s), Silero VAD + spectral (2,1 s) og cross-call gallery nearest-neighbour (0,2 s). Silero VAD-tilgangen vandt med 76,1 % agreement og er 2,4× hurtigere. Overraskelse: alle fem kollapserede på mono-kald — pyannote forbliver i produktion.