TurboTensors: Optimizing CPU LLM Performance

sixfingerdev · December 31, 2025, 1:07pm

I developed an open-source CPU-based inference engine called TurboTensors:

- Python + Numba JIT

- Optimized memory access, kernel fusion, separate prefill/decode paths

- Significant speed improvements on low-to-mid range CPUs for Turkish LLMs (e.g., Kayra-1)

Looking for technical feedback on:

1. Kernel fusion and memory alignment strategies

2. KV caching and parallel execution optimizations

3. Real-world applicability for edge or CPU-heavy systems

Any feedback or suggestions are highly appreciated.

Topic		Replies	Views
I don't get it why Llama.cpp / GGML is so much faster than PyTorch 🤗Transformers	3	593	September 27, 2025
Offloading LLM models to CPU uses only single core 🤗Transformers	1	4084	June 3, 2024
To keep python alive I created "Python5" It's FAST! Show and Tell	2	42	November 26, 2025
Speed up the prediction in transformers models 🤗Transformers	0	681	November 23, 2021
Inference optimization with HPC Research	2	631	January 8, 2024