Whisper-backend-dyst: faster-whisper vs HF Transformers vs whisper.cpp (2026)
Tre måder at køre Whisper på — faster-whisper (CTranslate2), Hugging Face Transformers (batched, SDPA) og whisper.cpp (ggml) — benchmarket på rigtig dansk telefonlyd på et RTX 4070 Ti. faster-whisper + large-v3-turbo er hurtigst samlet (~56× realtid); whisper.cpp CUDA er tæt på med en brøkdel af VRAM'en og matcher endda GPU-hastighed på CPU for korte filer. Fulde tabeller for hastighed (RTF), VRAM og konsensus-WER-kvalitet, plus en anbefaling pr. use case.