llama.cpp

Beschreibung: Eine C++-Implementierung von LLaMA für effiziente lokale Inferenz

Website: https://github.com/ggerganov/llama.cpp

llama.cpp ist eine Portierung von Facebooks LLaMA-Modell in C/C++. Es ermöglicht das lokale Ausführen großer Sprachmodelle mit minimalen Abhängigkeiten.

Features

Schnelle Inferenz auf CPU
Unterstützung für verschiedene Quantisierungsformate
Plattformübergreifende Kompatibilität
Minimaler Speicherbedarf

Installation

Lade die neueste Version von GitHub herunter und kompiliere sie für deine Plattform.