QAware Blog

Lokale Modelle, große Hürden: Wie bezahlbar KI auf eigener Hardware ist

Geschrieben von Dr. Sebastian Macke | 8.5.2026

Am 16. März war es mal wieder so weit: Die GPU Technology Conference, kurz GTC, öffnete ihre Pforten. Das eigentliche Highlight war wie immer die Keynote von Jensen Huang, dem CEO von NVIDIA. Mit rund 35 Millionen Aufrufen auf YouTube gehören diese Auftritte inzwischen zu den meistgesehenen Tech-Keynotes überhaupt. Nur manche Apple-Events mit großen Produktpräsentationen erreichen eine ähnliche Dimension.

In diesem Jahr drehte sich vieles um Vera Rubin, NVIDIAs neuesten Supercomputer. Das System besteht aus 40 Racks, also einer rund 30 Meter langen Schrankwand, die als Komplettlösung verkauft werden soll. Neu ist dabei, dass nun auch Spezialhardware für Inferenz integriert wird: sogenannte LPUs, also Language Processing Units, aus dem Umfeld der übernommenen Firma Groq. Sie sollen vor allem die Ausführung von Sprachmodellen beschleunigen.

Vera Rubin Supercomputer: So ein System werden wohl nur die wenigsten Menschen jemals zu Gesicht bekommen. Verwenden werden wir Vera Rubin aber irgendwann alle – bei jeder Frage an den Chatbot.

 

Wie so oft bei NVIDIA gilt allerdings auch hier: Die gezeigten Benchmarks in dieser Keynote vergleichen nicht immer sauber Gleiches mit Gleichem. Der tatsächliche Leistungsgewinn lässt sich deshalb nur schwer einschätzen. Eine Beschleunigung der Inferenz, also des eigentlichen Chats, um den Faktor 10 erscheint durchaus plausibel.

Verfügbar sein soll das System im zweiten Quartal dieses Jahres. Bis solche Maschinen dann tatsächlich produktiv im Einsatz sind, dürfte allerdings noch einige Zeit vergehen. Wahrscheinlich werden sie zunächst intern für das Training genutzt oder später als besonders teure Fast-Modi auch extern angeboten.

Konkrete Preise nannte NVIDIA nicht. Dass ein solches System unter 100 Millionen Dollar zu haben sein wird, darf aber bezweifelt werden. Und dabei sind die Kosten für das nötige Rechenzentrum, Wasserkühlung und eigene Stromversorgung noch gar nicht berücksichtigt.

Für die allermeisten Besucher der Konferenz spielte diese Hardware ohnehin in einer völlig anderen Liga. Wer sich ein solches System leisten kann, gehört kaum zur typischen GTC-Zielgruppe. Für normale Anwender bot die zweistündige Keynote daher wenig.

Stattdessen drängt sich eine andere Frage auf, die mir inzwischen immer häufiger begegnet: Lassen sich Sprachmodelle nicht auch lokal betreiben?

Die Motive dafür sind vielfältig. Manche reizt einfach die technische Neugier, andere wünschen sich mehr Kontrolle, Stabilität, Anpassbarkeit oder Offlinefähigkeit. Dazu kommen Datenschutz, Vertraulichkeit und nicht zuletzt der Wunsch nach mehr Unabhängigkeit von amerikanischen Anbietern.

Auch die Hoffnung auf geringere Kosten spielt dabei eine Rolle. Viele vermuten, dass lokale Modelle am Ende günstiger sein könnten als die Angebote der Hyperscaler.

Ohne RAM wird es eng

Die Antwort auf diese Frage fällt allerdings ernüchternd aus. Wer lokale Modelle einsetzen will, landet sehr schnell bei der Frage nach der passenden Hardware. Diese ist, gelinde gesagt, teuer.

Grundsätzlich gilt: Mit genügend Arbeitsspeicher lässt sich praktisch jedes Modell auch auf einer CPU betreiben. Ohne Hardwarebeschleunigung, insbesondere für Matrixmultiplikationen, ist das jedoch oft so langsam, dass es kaum praxistauglich ist.

Bleibt die Frage: Was bedeutet eigentlich genügend RAM? Die kleinsten vernünftigen Modelle zum freien herunterladen liegen heute bei etwa 20-30 Milliarden Parametern, wie etwa das Modell Gemma 4. Am anderen Ende des Spektrums steht beispielsweise das neu erschienene Coding-Modell GLM-5.1 mit 754 Milliarden Parametern. Unter der Annahme einer 4-Bit-Quantisierung lässt sich der benötigte Speicher grob mit einer einfachen Faustformel abschätzen:

Arbeitsspeicher in Gigabyte = Anzahl der Parameter in Milliarden × 0,7

Für GLM-5.1 bedeutet das: Schon für einen einzelnen Nutzer bräuchte man ungefähr ein halbes Terabyte RAM. Allein das entspräche zu heutigen Marktpreisen etwa 7000 Euro, und das auch nur bei normalem langsamen Arbeitsspeicher wie DDR5. GLM-5.1 würde hier mit schneckenlahmen 1–3 Tokens pro Sekunde berechnet werden.

Der deutlich schnellere Speicher, wie er in solchen Systemen typischerweise eingesetzt wird, kostet noch einmal Faktor 5–10 mehr. Es hat einen guten Grund, warum man diese Modelle so gut wie nie im lokalen Einsatz findet.

Und mit Speicher und RAM-Geschwindigkeit ist es noch nicht getan. Wer nicht nur Sprachmodelle ausführen, sondern vielleicht auch andere Modelle trainieren oder finetunen will, braucht ein möglichst breites und verlässliches Software-Ökosystem. Genau an diesem Punkt führt derzeit kaum ein Weg an NVIDIA vorbei. Dort ist am ehesten sichergestellt, dass die zahllosen Libraries und Werkzeuge, die in den vergangenen Jahren entstanden sind, auch tatsächlich funktionieren. CUDA und das dazugehörige Ökosystem dominieren diesen Bereich weiterhin klar. Bei anderen Anbietern kann das gutgehen. Oft muss man aber mit Einschränkungen rechnen.

NVIDIA

Schaut man sich das NVIDIA-Line-up jenseits von Vera Rubin an, wird es zunächst nicht wirklich alltagstauglicher. Ein GB300-Rack kostet etwa 3 Millionen Euro und richtet sich damit klar an Hyperscaler – also an große KI-Rechenzentren oder Cloud-Anbieter.

Das erste System, das eher für Forschungszentren oder größere Unternehmen infrage kommt, für die technologische Souveränität eine wichtige Rolle spielt, ist dann die DGX B200 beziehungsweise DGX B300. Diese Systeme kosten pro Stück etwa 300.000 bis 500.000 Dollar und sind ebenfalls nur für den Einsatz im Rechenzentrum gedacht. Entsprechende Kühlung und ein 17-kW-Stromanschluss werden dabei vorausgesetzt. Mit 2 TB GPU-RAM dürfte dies vermutlich auch die letzte Ausbaustufe sein, die theoretisch in der Lage ist, selbst die derzeit größten Sprachmodelle zu betreiben. Dazu zählen die großen chinesischen Modelle, aber möglicherweise auch Systeme von Google, OpenAI oder Anthropic, sofern man Zugang zu ihnen hätte. Zudem sind diese Maschinen schnell genug, um mehrere Nutzer parallel zu bedienen.

Nicht ganz ernst gemeint. Aber der DGX-B200 ist das kleinste System in der Data-Center_Liga, welches Sie sich für grob 300.000 Dollar kaufen könnten.

 

Das erste System, das sich tatsächlich an Einzelanwender richtet, ist die DGX Station. Sie kommt in Form eines größeren Desktop-Rechners, kostet etwa 95.000 Dollar und benötigt immerhin nur noch einen normalen Stromanschluss. Unter dem Schreibtisch sollte man die Maschine trotzdem besser nicht betreiben, denn ihre Abwärme dürfte in etwa der eines Wäschetrockners entsprechen. Mit gerade einmal 252 GB GPU-RAM muss man allerdings bereits deutliche Kompromisse eingehen. An der Geschwindigkeit mangelt es dafür nicht: Der Speicher erreicht eine Bandbreite von 7,1 TB pro Sekunde. Das ist ungefähr zehnmal schneller als der Arbeitsspeicher eines typischen PCs.

Ab hier beginnt dann langsam der Consumer-Markt der Grafikkarten. Natürlich führt zunächst kein Weg an den klassischen Gaming RTX-Karten vorbei, die derzeit mit bis zu 32 GB Speicher erhältlich sind. Das ist für viele Modelle eigentlich zu wenig. In der Praxis behelfen sich deshalb viele Nutzer damit, zusätzlich den normalen Arbeitsspeicher des Rechners einzubinden und immer nur die gerade benötigten Daten in den GPU-Speicher zu laden. Das funktioniert zwar grundsätzlich, kostet aber massiv Leistung. Dennoch gilt oft: Lieber langsam als gar nicht.

Eine Sonderstellung nimmt auch hier die RTX 6000 ein, die mit 96 GB RAM ausgestattet ist. Ursprünglich wurde diese Reihe eher für professionelle Grafik- und Designanwendungen konzipiert, sie eignet sich aber ebenso gut für KI-Workloads. Der Preis ist allerdings auch entsprechend hoch: Rund 10.000 Euro muss man dafür einplanen.

Die RTX-6000 mit 96 GB schnellem RAM.

 

Ein interessantes Experiment hat NVIDIA vor einigen Monaten mit der DGX Spark vorgestellt, beziehungsweise in einer leicht abgewandelten Form mit Jetson Thor. Dabei handelt es sich um einen Mini-PC mit integrierter GPU, deren Leistung eher im Bereich günstiger Grafikkarten liegt, der dafür aber mit 128 GB RAM ausgestattet ist. Das System ist nicht besonders schnell, läuft unter Linux, eröffnet dafür aber die Möglichkeit, auch mittelgroße Sprachmodelle lokal zu betreiben.

 

DGX Spark Mini PC kommt von vielen OEMs. Vielleicht der beste Kompromiss.

 

Genau diese kleinen Systeme ab etwa 3200 Euro könnten sich deshalb für viele als Sweet Spot zwischen Preis, Speicher und Geschwindigkeit erweisen. Sie sind bezahlbarer als professionelle Workstations, deutlich alltagstauglicher als große Rechenzentrumslösungen und leistungsfähig genug, um lokal ernsthaft mit Modellen zu experimentieren. Ich selbst nutze eine DGX Spark.

Apple und AMD

Nach inzwischen rund drei Jahren rasanter Entwicklung gibt es mittlerweile deutlich mehr Auswahl als nur NVIDIA. Beispielsweise bieten auch Apple und AMD inzwischen Systeme mit KI-Beschleunigung an. Allerdings mit sehr unterschiedlichen Schwerpunkten.

Apple spielt im Servermarkt praktisch keine Rolle, hat dafür aber im Consumer-Bereich früh damit begonnen, KI-Beschleuniger in die eigene Chiplinie zu integrieren. In den M-Chips (M1–M5) sind gleich drei Beschleuniger verbaut: in der CPU, GPU und NPU.

Welches Apple-Gerät man konkret kauft, ist dabei erst mal zweitrangig. Der entscheidende Faktor ist auch hier vor allem der Speicherausbau. Ein Mac Studio mit 256 GB RAM kostet derzeit etwa 7300 Euro. Die Variante mit 512 GB RAM wurde leider erst vor wenigen Wochen eingestellt. Bei der Geschwindigkeit dürfte ein solches System insgesamt in einer ähnlichen Größenordnung wie eine DGX Spark liegen, denn auch hier kommt LPDDR5-Speicher zum Einsatz, also Speicher mit relativ niedriger Bandbreite.

Auch AMD möchte im Data-Center-Markt mitspielen und bietet mit der Instinct-Reihe eigene Beschleuniger an, die inzwischen immerhin mit bis zu 256 GB RAM erhältlich sind. Im Consumer- und Workstation-Bereich gibt es ebenfalls interessante Optionen. Die stärkste Karte in diesem Segment ist derzeit die Radeon PRO W7900 mit 48 GB Speicher, die bei ungefähr 4000 Euro liegt.

Besonders interessant im Hinblick auf den Preis sind inzwischen auch Systeme mit CPUs aus der Ryzen-AI-Max-Reihe. Wirklich billig sind sie zwar nicht, aber oft noch günstiger als spezialisierte KI-Workstations. Bei der Geschwindigkeit dürften sie ebenfalls in einer ähnlichen Liga wie die DGX Spark spielen, denn auch hier sind viele Systeme mit 128 GB LPDDR5 RAM ausgestattet.

Lokale Modelle holen auf

Ganz gleich, wie man sich entscheidet: Eines dürfte klar sein: Keines der Modelle, die heute auf halbwegs bezahlbarer Hardware laufen, erreicht die Qualität der Systeme der großen Anbieter.

Für Rechtschreibkorrekturen taugen sie. Kleine Logikaufgaben lösen sie ebenfalls. Beim agentischen Handeln bewegen sie sich jedoch eher auf Schulniveau. Als Coding Agenten bewältigen sie die Übungsaufgaben der ersten paar Semester eines Informatikstudiums. Viel mehr aber nicht.

Unternehmen, die solche Modelle trainieren können, verfolgen selbstverständlich wirtschaftliche Interessen. Sobald ein Modell wirklich konkurrenzfähig ist, sinkt die Wahrscheinlichkeit, dass es zum lokalen Ausführen veröffentlicht wird. Gleichzeitig verschiebt sich jedoch die Schwelle dessen, was überhaupt als konkurrenzfähig gilt, immer weiter nach oben.

Deshalb sind im Vergleich zum vergangenen Jahr lokale Modelle inzwischen deutlich brauchbarer geworden. Und genau das ist vielleicht die beste Nachricht: Derzeit arbeitet die Zeit für den Käufer. Gut möglich also, dass spezialisierte kleine Modelle den großen Modellen in ihrer jeweiligen Nische schon bald ebenbürtig sind.