Edge AI erklärt: Wie lokale KI-Hardware funktioniert
KI muss nicht in der Cloud laufen. Edge AI bringt künstliche Intelligenz direkt ins Unternehmen, auf kompakter Hardware, ohne Internetabhängigkeit.
KI ist kein Cloud-Monopol mehr
Wenn die meisten Menschen an künstliche Intelligenz denken, denken sie an ChatGPT, Google Gemini oder Claude. Dienste, die auf riesigen Rechenzentren laufen, Hunderte Megawatt Strom verbrauchen und Daten über den halben Globus schicken.
Aber das ist nur eine Hälfte der Geschichte. Die andere Hälfte spielt sich auf kompakter Hardware ab, die auf einen Schreibtisch passt, weniger Strom verbraucht als ein Wasserkocher und Daten verarbeitet, ohne dass sie das Gebäude verlassen.
Diese andere Hälfte heißt Edge AI. Und sie verändert gerade die Art, wie Unternehmen KI einsetzen.
Der Edge-AI-Markt in Deutschland lag 2024 bei rund 981 Millionen US-Dollar. Bis 2030 wird er auf über 3,2 Milliarden US-Dollar wachsen, ein jährliches Wachstum von 22,6 Prozent. Das ist kein Nischentrend. Das ist eine Verschiebung.
Was ist Edge AI?
Edge AI bedeutet, dass künstliche Intelligenz direkt dort läuft, wo die Daten entstehen, am „Rand" (Edge) des Netzwerks. Statt Daten an ein Rechenzentrum zu schicken und auf eine Antwort zu warten, verarbeitet ein lokales Gerät die Anfrage selbst.
Das Grundprinzip ist einfach: Ein KI-Modell wird einmal trainiert (das passiert weiterhin auf großen Servern) und dann auf lokale Hardware übertragen. Dort führt es sogenannte Inferenz durch, es wendet das Gelernte auf neue Daten an. Und genau diese Inferenz ist es, die im Unternehmensalltag zählt: Texte zusammenfassen, Dokumente analysieren, E-Mails beantworten, Daten extrahieren.
| Phase | Was passiert | Wo | Rechenaufwand |
|---|---|---|---|
| Training | Modell lernt aus Milliarden von Texten | Rechenzentrum (Cloud) | Extrem hoch (Wochen, Tausende GPUs) |
| Inferenz | Modell wendet Gelerntes auf neue Daten an | Lokal möglich (Edge) | Moderat (Sekunden, eine GPU) |
Der entscheidende Punkt: Für die allermeisten Unternehmensanwendungen brauchst du kein Training. Du brauchst Inferenz. Und die läuft längst auf Hardware, die in ein Bücherregal passt.
Welche KI-Modelle laufen lokal?
Vor zwei Jahren wäre die Antwort gewesen: keine brauchbaren. Heute sieht das völlig anders aus. Die Open-Source-Community hat eine Generation von Modellen hervorgebracht, die für die meisten Business-Aufgaben mit Cloud-Diensten mithalten können.
| Modell | Entwickler | Größen | Stärken |
|---|---|---|---|
| Llama 3 | Meta | 8B, 70B, 405B | Allrounder, stark bei Textgenerierung |
| Mistral | Mistral AI (Frankreich) | 7B, 8x7B, Large | Effizient, gut bei europäischen Sprachen |
| Qwen 2.5 | Alibaba | 1.5B bis 72B | Sehr gut bei strukturierten Aufgaben |
| Gemma 2 | 2B, 9B, 27B | Kompakt, schnell, gut für Edge |
Die Zahl hinter dem Namen (8B, 70B) steht für die Anzahl der Parameter in Milliarden. Mehr Parameter bedeuten in der Regel bessere Qualität, aber auch höhere Hardware-Anforderungen.
Was bedeutet Quantisierung?
Ein 70-Milliarden-Parameter-Modell braucht in voller Präzision über 140 GB Arbeitsspeicher. Das ist selbst für leistungsstarke Hardware zu viel. Hier kommt Quantisierung ins Spiel: Eine Technik, die die Präzision der Gewichte reduziert, zum Beispiel von 16 Bit auf 4 Bit, und damit den Speicherbedarf um den Faktor 4 senkt.
| Quantisierung | Speicherbedarf (70B-Modell) | Qualitätsverlust |
|---|---|---|
| FP16 (voll) | ~140 GB | Keiner |
| Q8 (8 Bit) | ~70 GB | Minimal |
| Q4 (4 Bit) | ~35 GB | Gering (1-3%) |
In der Praxis bedeutet das: Ein quantisiertes 70B-Modell läuft auf Hardware mit 64 GB Arbeitsspeicher und liefert dabei 90 bis 95 Prozent der Qualität des vollen Modells. Für Aufgaben wie Textzusammenfassung, Datenextraktion oder E-Mail-Entwürfe ist der Unterschied kaum messbar.
Die Hardware dahinter
Edge AI braucht spezialisierte Hardware. Normale Büro-PCs haben weder die GPU-Leistung noch den nötig schnellen Arbeitsspeicher, um KI-Modelle effizient auszuführen. Die führende Plattform für Edge AI kommt von NVIDIA: die Jetson-Serie.
| Modul | GPU-Leistung | RAM | Energieverbrauch | Einsatzbereich |
|---|---|---|---|---|
| Jetson Orin Nano | 40 TOPS | 8 GB | 7-15 W | Einstieg, einfache Modelle |
| Jetson AGX Orin | 275 TOPS | 32-64 GB | 15-60 W | Mittelklasse, mehrere Modelle parallel |
| Jetson AGX Thor | 2.070 TFLOPS | 128 GB | 40-130 W | High-End, große Modelle, hoher Durchsatz |
Zum Vergleich: Eine NVIDIA H100, wie sie in Cloud-Rechenzentren steht, verbraucht 700 Watt, eine einzige Karte. Ein Jetson AGX Thor leistet für typische Inferenz-Aufgaben Vergleichbares bei einem Bruchteil des Stromverbrauchs.
Warum GPU-Speicher entscheidend ist
Der wichtigste Faktor für lokale KI ist nicht die Rechenleistung, es ist der Arbeitsspeicher (VRAM). Das KI-Modell muss komplett in den Speicher geladen werden, bevor es antworten kann. Die Faustregel:
- 8 GB VRAM: Kleine Modelle (7-8B Parameter, quantisiert), gut für einzelne Aufgaben
- 32-64 GB VRAM: Mittlere bis große Modelle (30-70B, quantisiert), gut für Unternehmenseinsatz
- 128 GB VRAM: Mehrere große Modelle gleichzeitig oder sehr große Modelle (70B+ in hoher Qualität)
Edge AI vs. Cloud AI: Der ehrliche Vergleich
Weder Edge AI noch Cloud AI ist pauschal besser. Beide Ansätze haben klare Stärken und Grenzen.
| Kriterium | Edge AI (lokal) | Cloud AI (z.B. ChatGPT, Gemini) |
|---|---|---|
| Latenz | 1-5 Sekunden (keine Netzwerk-Verzögerung) | 2-10 Sekunden (abhängig von Auslastung) |
| Datenschutz | Daten verlassen das Netzwerk nie | Daten werden an Dritte übermittelt |
| Internetabhängigkeit | Keine | Zwingend |
| Modellgröße | Begrenzt durch lokalen Speicher | Nahezu unbegrenzt |
| Kosten bei hohem Volumen | Fix (Hardware-Investition) | Variabel (pro Token/Anfrage) |
| Skalierbarkeit | Begrenzt durch Hardware | Nahezu unbegrenzt |
| Aktualität der Modelle | Manuelles Update nötig | Automatisch aktuell |
| DSGVO-Konformität | Von Haus aus gegeben | Aufwändig, oft problematisch |
Die Qualität lokaler Modelle hat sich dramatisch verbessert. Für strukturierte Business-Aufgaben wie Textzusammenfassung, Datenextraktion, Dokumentenanalyse und E-Mail-Entwürfe erreichen lokale Modelle wie Llama 3 70B oder Qwen 2.5 72B ein Niveau, das für den Unternehmenseinsatz mehr als ausreichend ist.
Wo Cloud AI weiterhin überlegen bleibt: bei sehr kreativen Aufgaben, bei Aufgaben die aktuelles Weltwissen erfordern, und bei extrem großen Kontextfenstern (100.000+ Tokens).
Kostenvergleich: Wann rechnet sich lokale Hardware?
Die häufigste Frage: Was kostet das im Vergleich zur Cloud? Die Antwort hängt vom Volumen ab.
Die Preise für Cloud-KI liegen je nach Anbieter und Modell zwischen 1 und 15 US-Dollar pro Million Tokens. Für ein typisches Unternehmen, das KI für Dokumentenverarbeitung, E-Mail-Entwürfe und interne Recherche nutzt, kommen schnell 5 bis 15 Millionen Tokens pro Monat zusammen.
| Nutzung | Cloud-Kosten (ca.) | Lokale Hardware (Strom + Abschreibung) |
|---|---|---|
| 1 Mio. Tokens/Monat | 5-15 EUR/Monat | 50-80 EUR/Monat (überdimensioniert) |
| 10 Mio. Tokens/Monat | 50-150 EUR/Monat | 50-80 EUR/Monat |
| 50 Mio. Tokens/Monat | 250-750 EUR/Monat | 60-100 EUR/Monat |
| 100 Mio. Tokens/Monat | 500-1.500 EUR/Monat | 70-120 EUR/Monat |
Bei geringem Volumen (unter 5 Millionen Tokens pro Monat) ist Cloud AI günstiger, die Hardware-Investition lohnt sich nicht. Ab etwa 10 Millionen Tokens pro Monat dreht sich das Verhältnis: Die fixen Kosten der lokalen Hardware (Strom: 105-340 EUR pro Jahr bei 40-130 Watt Dauerbetrieb, plus Abschreibung) bleiben konstant, während Cloud-Kosten linear steigen.
Für ein Unternehmen mit 10-50 Mitarbeitern, das KI aktiv nutzt, liegt der Break-even typischerweise bei 1 bis 6 Monaten nach der Anschaffung. Ab dann läuft die lokale Hardware im Vorteil, und der Abstand wächst mit jedem Monat.
Nicht eingepreist: Der Wert von Datenschutz-Konformität. Kein DPIA-Aufwand für Cloud-Dienste, kein Risiko bei Schrems-III, keine Abhängigkeit von US-Anbietern. Das lässt sich schwer in Euro beziffern, ist aber für viele Unternehmen der eigentliche Entscheidungsfaktor.
Wann Edge AI Sinn macht
Ehrliche Einordnung: Edge AI ist nicht für jeden Anwendungsfall die richtige Wahl.
Edge AI ist sinnvoll wenn:
- Datenschutz kritisch ist. Kanzleien, Arztpraxen, Steuerberater, Finanzdienstleister. Überall dort, wo sensible Daten verarbeitet werden und eine Cloud-Übermittlung rechtlich oder ethisch problematisch ist.
- Vorhersehbare Workloads. Rechnungsverarbeitung, Angebotskalkulationen, Dokumentenanalyse. Wiederkehrende Aufgaben mit konstantem Volumen.
- Unabhängigkeit gewünscht ist. Kein Vendor Lock-in, keine plötzlichen Preiserhöhungen, keine Abhängigkeit von der Verfügbarkeit eines Cloud-Dienstes.
- Compliance im Fokus steht. EU AI Act, DSGVO, GoBD, berufsrechtliche Pflichten. Lokale Verarbeitung vereinfacht die Compliance erheblich.
Edge AI ist weniger sinnvoll wenn:
- Gelegentliche Nutzung. Wenn du KI nur sporadisch nutzt, ist ein Cloud-Abo günstiger und einfacher.
- Maximale Modellgröße nötig. Die größten Modelle (GPT-4-Klasse, 1+ Billionen Parameter) laufen nicht auf Edge-Hardware.
- Schnelle Skalierung nötig. Wenn die Nutzung stark schwankt oder schnell wachsen muss, ist Cloud flexibler.
- Aktuelles Weltwissen entscheidend. Lokale Modelle haben einen Wissensstand zum Zeitpunkt ihres Trainings. Für Aufgaben, die tagesaktuelle Informationen erfordern, braucht es Cloud-Dienste oder RAG-Systeme.
In der Praxis setzen die meisten Unternehmen auf eine Kombination. 78 Prozent der Unternehmen, die Edge AI evaluieren, planen einen Hybrid-Ansatz: sensible Daten lokal verarbeiten, unkritische Aufgaben in der Cloud.
Das ist kein Entweder-oder. Ein Steuerberater kann Mandantenakten lokal analysieren lassen und gleichzeitig einen Cloud-Dienst für allgemeine Recherchefragen nutzen. Ein Maschinenbauer kann Wartungsprotokolle lokal auswerten und die Marketing-Abteilung mit Cloud-KI arbeiten lassen.
Fazit: Die Zukunft der KI ist dezentral
Gartner prognostiziert, dass bis 2026 über 80 Prozent der Unternehmen generative KI-Modelle in Edge-Umgebungen einsetzen werden, gegenüber weniger als 1 Prozent in 2023. Die Verschiebung ist massiv und sie hat gerade erst begonnen.
Die Gründe sind klar: Datenschutz, Kosten, Unabhängigkeit. Und die technischen Hürden sinken mit jedem Quartal. Open-Source-Modelle werden besser. Hardware wird leistungsfähiger und erschwinglicher. Die Werkzeuge zur Bereitstellung werden einfacher.
Edge AI ersetzt die Cloud nicht. Aber sie gibt Unternehmen eine Wahl. Und für alle, die mit sensiblen Daten arbeiten, regulatorische Anforderungen erfüllen müssen oder einfach die Kontrolle über ihre KI-Infrastruktur behalten wollen, ist diese Wahl längst keine Zukunftsmusik mehr.
Die Technologie ist da. Die Modelle sind da. Die Hardware ist da. Die Frage ist nicht mehr ob, sondern wie schnell du sie nutzt.