Ratgeber/Lokale Sprachsteuerung mit Home Assistant: Ohne Cloud sprechen
Lokale Sprachsteuerung mit Home Assistant: Ohne Cloud sprechen

Lokale Sprachsteuerung mit Home Assistant: Ohne Cloud sprechen

·0 Aufrufe

Dieser Artikel kann Affiliate-Links enthalten. Wenn du über diese Links einkaufst, erhalten wir möglicherweise eine kleine Provision — ohne Mehrkosten für dich. Das hilft uns, weiterhin kostenlose Inhalte zu erstellen.

home assistantsprachsteuerungprivacyanleitung

„Hey Alexa, Licht an", so bequem Sprachsteuerung ist, so unbequem ist der Gedanke, dass jedes Wort in die Cloud geschickt, gespeichert und analysiert wird. Home Assistant bietet seit 2024 eine vollständig lokale Alternative: Sprachsteuerung, die dein Zuhause nie verlässt. Keine Cloud, keine Abhörung, keine Abhängigkeit von Amazon oder Google.

In dieser Anleitung zeige ich dir, wie du die lokale Sprachsteuerung mit dem Wyoming-Protokoll, Piper TTS (Text-to-Speech) und Whisper STT (Speech-to-Text) einrichtest, entweder mit einem ESP32-S3-BOX als fertigem Sprachsatelliten oder einem Raspberry Pi mit USB-Mikrofon.

Wie funktioniert lokale Sprachsteuerung?

Die Sprachsteuerung in Home Assistant besteht aus vier Bausteinen:

  1. Wake Word Detection: Ein Schlüsselwort (z. B. „Hey Jarvis" oder „Ok Nabu") aktiviert die Spracherkennung. Läuft lokal auf dem Gerät oder auf dem Home-Assistant-Server.
  2. Speech-to-Text (STT): Dein gesprochener Befehl wird in Text umgewandelt. Whisper (von OpenAI, lokal lauffähig) ist die Standardlösung. Unterstützt Deutsch, Englisch und viele weitere Sprachen.
  3. Intent Recognition: Home Assistant versteht den Text und ordnet ihn einem Gerät/Befehl zu („Licht im Wohnzimmer einschalten").
  4. Text-to-Speech (TTS): Die Antwort wird als Sprache ausgegeben. Piper ist die lokale TTS-Engine mit natürlich klingenden deutschen Stimmen.
Lokale sprachsteuerung home assistant ohne cloud — practical guide overview
Lokale sprachsteuerung home assistant ohne cloud
🎵
Amazon Echo Dot 5. GenerationKompakter Smart Speaker mit Alexa, Sprachsteuerung, Musik und Smart-Home-Zentrale.* Affiliate-Link, wir erhalten eine kleine Provision
Bei Amazon ansehen →

Das Wyoming-Protokoll verbindet diese Bausteine. Es definiert, wie Mikrofone, STT-Engines, TTS-Engines und Home Assistant miteinander kommunizieren, alles lokal über dein Netzwerk.

Privacy-Vorteil: Bei Alexa und Google wird jeder Sprachbefehl an Server in den USA gesendet, dort verarbeitet und gespeichert (oft 18+ Monate). Bei der lokalen Lösung verlassen die Audiodaten nie dein Netzwerk. Es gibt keine Cloud-Abhängigkeit, deine Sprachsteuerung funktioniert auch bei Internet-Ausfall. Mehr zum Thema Datenschutz im Smart Home findest du im Ratgeber Smart Home Datenschutz und DSGVO.

Option 1: ESP32-S3-BOX als Sprachsatellit

Der ESP32-S3-BOX-3 (ca. 45 EUR) ist die einfachste Lösung. Das Gerät hat Mikrofon, Lautsprecher und Display, alles in einem kompakten Gehäuse. Du flashst ESPHome darauf und hast in 15 Minuten einen fertigen Sprachsatelliten.

Schritt-für-Schritt-Einrichtung:

Lokale sprachsteuerung home assistant ohne cloud — step-by-step visual example
Lokale sprachsteuerung home assistant ohne cloud
  1. ESPHome-Firmware flashen: Gehe zu voice-pe.esphome.io im Browser, verbinde den ESP32-S3-BOX per USB und flashe die Voice-PE-Firmware.
  2. WiFi konfigurieren: Nach dem Flash erscheint ein Hotspot. Verbinde dich und gib deine WLAN-Daten ein.
  3. In Home Assistant hinzufügen: Der ESP32-S3-BOX wird automatisch unter Einstellungen → Geräte & Dienste erkannt. Klicke auf „Konfigurieren".
  4. Assist-Pipeline zuweisen: Unter Einstellungen → Sprachassistenten erstellst du eine neue Pipeline mit Whisper (STT), Piper (TTS) und dem gewünschten Wake Word.
Performance-Tipp: Die Whisper-Spracherkennung läuft auf deinem Home-Assistant-Server. Auf einem Raspberry Pi 4 dauert die Erkennung ca. 3–5 Sekunden, auf einem Mini-PC mit x86 (z. B. Intel N100) unter 1 Sekunde. Für ein flüssiges Spracherlebnis empfehle ich einen Mini-PC oder mindestens einen Pi 5.

Option 2: Raspberry Pi mit USB-Mikrofon

Du kannst auch einen Raspberry Pi (3B+, 4 oder 5) mit einem USB-Mikrofon und Lautsprecher als Sprachsatelliten nutzen. Das ist flexibler, aber erfordert etwas mehr Konfiguration.

Benötigte Hardware:

  • Raspberry Pi (Zero 2 W für kompakte Lösung, Pi 4/5 für mehr Leistung)
  • USB-Konferenzmikrofon (z. B. ReSpeaker Mic Array v2.0, ca. 25 EUR) oder USB-Headset
  • Lautsprecher (3,5-mm-Klinke oder Bluetooth)
  • MicroSD-Karte mit Raspberry Pi OS Lite
Lokale sprachsteuerung home assistant ohne cloud — helpful reference illustration
Lokale sprachsteuerung home assistant ohne cloud

Installiere den Wyoming Satellite als Docker-Container oder als Home-Assistant-Add-on:

# Docker-Variante docker run -d \ --name wyoming-satellite \ --restart unless-stopped \ --device /dev/snd \ -p 10700:10700 \ -v wyoming-satellite-data:/data \ rhasspy/wyoming-satellite:latest \ --name "Kueche Satellit" \ --wake-uri tcp://homeassistant.local:10400 \ --stt-uri tcp://homeassistant.local:10300 \ --tts-uri tcp://homeassistant.local:10200

Piper und Whisper installieren

Auf deinem Home-Assistant-Server installierst du die STT- und TTS-Engines als Add-ons (wenn du HAOS nutzt) oder als Docker-Container:

# Whisper (Speech-to-Text) docker run -d \ --name whisper \ -p 10300:10300 \ -v whisper-data:/data \ rhasspy/wyoming-whisper:latest \ --model small --language de # Piper (Text-to-Speech) docker run -d \ --name piper \ -p 10200:10200 \ -v piper-data:/data \ rhasspy/wyoming-piper:latest \ --voice de_DE-thorsten-high
Wichtig zum Whisper-Modell: Das Modell small bietet einen guten Kompromiss zwischen Geschwindigkeit und Genauigkeit. tiny ist schneller, aber ungenauer (vor allem bei deutschen Gerätenamen). medium ist genauer, braucht aber deutlich mehr RAM und CPU. Auf einem Pi 4 mit 4 GB RAM empfehle ich small, auf einem Mini-PC mit 8+ GB RAM kannst du medium verwenden.

Sprachbefehle auf Deutsch

Home Assistant versteht deutsche Befehle nativ. Beispiele:

  • „Schalte das Licht im Wohnzimmer ein"
  • „Stelle die Temperatur im Büro auf 22 Grad"
  • „Wie warm ist es draußen?"
  • „Rollläden im Schlafzimmer runterfahren"
  • „Timer auf 10 Minuten stellen"

Die Intent-Erkennung basiert auf den Gerätenamen und Raumnamen in Home Assistant. Benenne deine Entities also verständlich: „Licht Wohnzimmer" funktioniert besser als „light.shelly_1_relay_0". Einen Vergleich der lokalen Lösung mit Alexa und Google findest du im Ratgeber Sprachsteuerung: Alexa, Google und Siri im Vergleich.

Lokale Sprachsteuerung vs. Alexa/Google

Aspekt Lokal (HA) Alexa/Google
DatenschutzDaten bleiben lokalCloud-Verarbeitung
Internet nötigNeinJa
ErkennungsqualitätGut (abh. vom Modell)Sehr gut
StimmqualitätGut (Piper)Sehr gut
Reaktionszeit1–5 Sek. (hardwareabh.)1–2 Sek.
Skills/RoutinenHA-AutomationenTausende Skills
Kosten45–80 EUR (einmalig)30–60 EUR pro Gerät
Fazit: Die lokale Sprachsteuerung mit Home Assistant ist 2026 alltagstauglich. Die Erkennungsqualität von Whisper ist beeindruckend, Piper klingt natürlich, und der ESP32-S3-BOX macht die Einrichtung kinderleicht. Wer Wert auf Privacy legt und kein Problem mit 1–2 Sekunden längerer Reaktionszeit hat, bekommt eine hervorragende Alternative zu Alexa und Google, völlig ohne Cloud.

Veröffentlicht durch die SmartHomePraxis-Redaktion. Veröffentlicht am 24. Mai 2026.

Verantwortlich i.S.d. § 18 MStV: siehe Impressum.

Fehler entdeckt oder ergänzende Erfahrung? korrektur@smarthomepraxis.de

Artikel teilen
🏠

Smart-Home-Tipps direkt ins Postfach

Neue Anleitungen, Vergleiche und Praxis-Tipps – kein Spam, jederzeit abbestellbar.

🎁 Gratis dazu: Smart-Home-Starter-Guide (PDF)

Das könnte dich auch interessieren

Kommentare (0)

Kommentar schreiben

Kommentare werden vor der Veröffentlichung geprüft.