Apple M1 Pro vs RTX 4070 Ti til lokal AI — GPU-matmul og LLM-benchmarks (2026)
RTX 4070 Ti rammer 75 TFLOPS ved fp16 via tensor cores; M1 Pro MPS når 4,2 TFLOPS — et 18× beregningsgab. Men på rigtig LLM-inferens (minicpm-v4.6, qwen3.5, gemma4:12b via ollama) er RTX kun 3–4× hurtigere. LLM-inferens ved batch=1 er hukommelsesbåndbredde-begrænset, ikke beregnings-begrænset, og M1's unified-memory-arkitektur lukker det meste af gabet. Apple's AMX-udvidelser giver også dens CPU 2,7× bedre matmul-gennemstrømning end en Intel i5 med samme tråd-antal.