Dieser Artikel kann Affiliate-Links enthalten. Wenn du über diese Links einkaufst, erhalten wir möglicherweise eine kleine Provision — ohne Mehrkosten für dich. Das hilft uns, weiterhin kostenlose Inhalte zu erstellen.

„Hey Alexa, Licht an", so bequem Sprachsteuerung ist, so unbequem ist der Gedanke, dass jedes Wort in die Cloud geschickt, gespeichert und analysiert wird. Home Assistant bietet seit 2024 eine vollständig lokale Alternative: Sprachsteuerung, die dein Zuhause nie verlässt. Keine Cloud, keine Abhörung, keine Abhängigkeit von Amazon oder Google.

Wie funktioniert lokale Sprachsteuerung?

Die Sprachsteuerung in Home Assistant besteht aus vier Bausteinen:

Wake Word Detection: Ein Schlüsselwort (z. B. „Hey Jarvis" oder „Ok Nabu") aktiviert die Spracherkennung. Läuft lokal auf dem Gerät oder auf dem Home-Assistant-Server.
Speech-to-Text (STT): Dein gesprochener Befehl wird in Text umgewandelt. Whisper (von OpenAI, lokal lauffähig) ist die Standardlösung. Unterstützt Deutsch, Englisch und viele weitere Sprachen.
Intent Recognition: Home Assistant versteht den Text und ordnet ihn einem Gerät/Befehl zu („Licht im Wohnzimmer einschalten").
Text-to-Speech (TTS): Die Antwort wird als Sprache ausgegeben. Piper ist die lokale TTS-Engine mit natürlich klingenden deutschen Stimmen.

Lokale sprachsteuerung home assistant ohne cloud: practical guide overview — Lokale sprachsteuerung home assistant ohne cloud

🎵

Amazon Echo Dot 5. GenerationKompakter Smart Speaker mit Alexa, Sprachsteuerung, Musik und Smart-Home-Zentrale.* Affiliate-Link, wir erhalten eine kleine Provision

Bei Amazon ansehen →

Das Wyoming-Protokoll verbindet diese Bausteine. Es definiert, wie Mikrofone, STT-Engines, TTS-Engines und Home Assistant miteinander kommunizieren, alles lokal über dein Netzwerk.

Privacy-Vorteil: Bei Alexa und Google wird jeder Sprachbefehl an Server in den USA gesendet, dort verarbeitet und gespeichert (oft 18+ Monate). Bei der lokalen Lösung verlassen die Audiodaten nie dein Netzwerk. Es gibt keine Cloud-Abhängigkeit, deine Sprachsteuerung funktioniert auch bei Internet-Ausfall. Mehr zum Thema Datenschutz im Smart Home findest du im Ratgeber Smart Home Datenschutz und DSGVO.

Option 1: ESP32-S3-BOX als Sprachsatellit

Der ESP32-S3-BOX-3 (ca. 45 EUR) ist die einfachste Lösung. Das Gerät hat Mikrofon, Lautsprecher und Display, alles in einem kompakten Gehäuse. Du flashst ESPHome darauf und hast in 15 Minuten einen fertigen Sprachsatelliten.

Schritt-für-Schritt-Einrichtung:

Lokale sprachsteuerung home assistant ohne cloud: step-by-step visual example — Lokale sprachsteuerung home assistant ohne cloud

ESPHome-Firmware flashen: Gehe zu voice-pe.esphome.io im Browser, verbinde den ESP32-S3-BOX per USB und flashe die Voice-PE-Firmware.
WiFi konfigurieren: Nach dem Flash erscheint ein Hotspot. Verbinde dich und gib deine WLAN-Daten ein.
In Home Assistant hinzufügen: Der ESP32-S3-BOX wird automatisch unter Einstellungen → Geräte & Dienste erkannt. Klicke auf „Konfigurieren".
Assist-Pipeline zuweisen: Unter Einstellungen → Sprachassistenten erstellst du eine neue Pipeline mit Whisper (STT), Piper (TTS) und dem gewünschten Wake Word.

Performance-Tipp: Die Whisper-Spracherkennung läuft auf deinem Home-Assistant-Server. Auf einem Raspberry Pi 4 dauert die Erkennung ca. 3–5 Sekunden, auf einem Mini-PC mit x86 (z. B. Intel N100) unter 1 Sekunde. Für ein flüssiges Spracherlebnis empfehle ich einen Mini-PC oder mindestens einen Pi 5.

Option 2: Raspberry Pi mit USB-Mikrofon

Du kannst auch einen Raspberry Pi (3B+, 4 oder 5) mit einem USB-Mikrofon und Lautsprecher als Sprachsatelliten nutzen. Das ist flexibler, aber erfordert etwas mehr Konfiguration.

Benötigte Hardware:

Raspberry Pi (Zero 2 W für kompakte Lösung, Pi 4/5 für mehr Leistung)
USB-Konferenzmikrofon (z. B. ReSpeaker Mic Array v2.0, ca. 25 EUR) oder USB-Headset
Lautsprecher (3,5-mm-Klinke oder Bluetooth)
MicroSD-Karte mit Raspberry Pi OS Lite

Lokale sprachsteuerung home assistant ohne cloud: helpful reference illustration — Lokale sprachsteuerung home assistant ohne cloud

Installiere den Wyoming Satellite als Docker-Container oder als Home-Assistant-Add-on:

# Docker-Variante docker run -d \ --name wyoming-satellite \ --restart unless-stopped \ --device /dev/snd \ -p 10700:10700 \ -v wyoming-satellite-data:/data \ rhasspy/wyoming-satellite:latest \ --name "Kueche Satellit" \ --wake-uri tcp://homeassistant.local:10400 \ --stt-uri tcp://homeassistant.local:10300 \ --tts-uri tcp://homeassistant.local:10200

Piper und Whisper installieren

Auf deinem Home-Assistant-Server installierst du die STT- und TTS-Engines als Add-ons (wenn du HAOS nutzt) oder als Docker-Container:

# Whisper (Speech-to-Text) docker run -d \ --name whisper \ -p 10300:10300 \ -v whisper-data:/data \ rhasspy/wyoming-whisper:latest \ --model small --language de # Piper (Text-to-Speech) docker run -d \ --name piper \ -p 10200:10200 \ -v piper-data:/data \ rhasspy/wyoming-piper:latest \ --voice de_DE-thorsten-high

Wichtig zum Whisper-Modell: Das Modell small bietet einen guten Kompromiss zwischen Geschwindigkeit und Genauigkeit. tiny ist schneller, aber ungenauer (vor allem bei deutschen Gerätenamen). medium ist genauer, braucht aber deutlich mehr RAM und CPU. Auf einem Pi 4 mit 4 GB RAM empfehle ich small, auf einem Mini-PC mit 8+ GB RAM kannst du medium verwenden.

Sprachbefehle auf Deutsch

Home Assistant versteht deutsche Befehle nativ. Beispiele:

„Schalte das Licht im Wohnzimmer ein"
„Stelle die Temperatur im Büro auf 22 Grad"
„Wie warm ist es draußen?"
„Rollläden im Schlafzimmer runterfahren"
„Timer auf 10 Minuten stellen"

Die Intent-Erkennung basiert auf den Gerätenamen und Raumnamen in Home Assistant. Benenne deine Entities also verständlich: „Licht Wohnzimmer" funktioniert besser als „light.shelly_1_relay_0". Einen Vergleich der lokalen Lösung mit Alexa und Google findest du im Ratgeber Sprachsteuerung: Alexa, Google und Siri im Vergleich.

Lokale Sprachsteuerung vs. Alexa/Google

Aspekt	Lokal (HA)	Alexa/Google
Datenschutz	Daten bleiben lokal	Cloud-Verarbeitung
Internet nötig	Nein	Ja
Erkennungsqualität	Gut (abh. vom Modell)	Sehr gut
Stimmqualität	Gut (Piper)	Sehr gut
Reaktionszeit	1–5 Sek. (hardwareabh.)	1–2 Sek.
Skills/Routinen	HA-Automationen	Tausende Skills
Kosten	45–80 EUR (einmalig)	30–60 EUR pro Gerät

Fazit: Die lokale Sprachsteuerung mit Home Assistant ist 2026 alltagstauglich. Die Erkennungsqualität von Whisper ist beeindruckend, Piper klingt natürlich, und der ESP32-S3-BOX macht die Einrichtung kinderleicht. Wer Wert auf Privacy legt und kein Problem mit 1–2 Sekunden längerer Reaktionszeit hat, bekommt eine hervorragende Alternative zu Alexa und Google, völlig ohne Cloud.

Lokale Sprachsteuerung mit Home Assistant: Ohne Cloud sprechen

Wie funktioniert lokale Sprachsteuerung?

Option 1: ESP32-S3-BOX als Sprachsatellit

Option 2: Raspberry Pi mit USB-Mikrofon

Piper und Whisper installieren

Sprachbefehle auf Deutsch

Lokale Sprachsteuerung vs. Alexa/Google

Smart-Home-Tipps direkt ins Postfach

Das könnte dich auch interessieren

Bewegungsgesteuerte Beleuchtung einrichten

Heizkosten senken mit smarten Thermostaten — so geht’s

Kommentare (0)

Kommentar schreiben