Este dispositivo evita que Alexa y otros asistentes de voz te espíen

LeakyPick monitorea una red que tiene un Amazon Echo conectado.

Mitev y col.

A medida que crece la popularidad de Amazon Alexa y otros asistentes de voz, también lo hace la cantidad de formas en que estos asistentes interfieren y pueden interferir con la privacidad de los usuarios. Los ejemplos incluyen piratas informáticos que usan láseres para desbloquear puertas conectadas y arrancar automóviles, asistentes malintencionados que espían y roban contraseñas y discusiones que son monitoreadas subrepticiamente por empleados de ISP o citadas para su uso en juicios penales. Ahora, los investigadores han desarrollado un dispositivo que algún día podría permitir a los usuarios recuperar su privacidad, haciéndoles saber cuando esos dispositivos están espiando por error o intencionalmente a personas cercanas.

LeakyPick se coloca en varias habitaciones de una casa u oficina para detectar la presencia de dispositivos que transmiten audio cerca de Internet. Al emitir sonidos periódicamente y monitorear el tráfico de red subsiguiente (se puede configurar para enviar sonidos cuando los usuarios están fuera), el prototipo de aproximadamente $ 40 detecta la transmisión de audio con una precisión del 94 por ciento. El dispositivo monitorea el tráfico de la red y proporciona una alerta cada vez que los dispositivos identificados transmiten sonidos ambientales.

LeakyPick también prueba los dispositivos en busca de falsos positivos de palabras de activación, es decir, palabras que activan asistentes incorrectamente. Hasta ahora, el dispositivo de los investigadores ha encontrado 89 palabras que inesperadamente hicieron que Alexa transmitiera audio a Amazon. Hace dos semanas, un equipo diferente de investigadores publicó más de 1,000 palabras o frases que producen disparadores falsos que hacen que los dispositivos envíen audio a la nube.

«Para muchos consumidores preocupados por la privacidad, tener asistentes de voz conectados a Internet [with] Los micrófonos esparcidos por sus hogares es una perspectiva preocupante, a pesar de que los dispositivos inteligentes prometen tecnología para mejorar la automatización del hogar y la seguridad física «, dijo Ahmad-Reza Sadeghi, uno de los investigadores que diseñó el dispositivo, por correo electrónico». El dispositivo LeakyPick identifica los dispositivos domésticos inteligentes que graban y envían audio inesperadamente a Internet y advierte al usuario al respecto. «

Recuperando la privacidad del usuario

Los dispositivos controlados por voz generalmente utilizan el reconocimiento de voz local para detectar palabras de activación y, para mayor facilidad de uso, los dispositivos suelen estar programados para aceptar palabras con un sonido similar. Cuando una expresión cercana se parece a una palabra de activación, los asistentes envían audio a un servidor que tiene un reconocimiento de voz más completo. Además de caer en estas transmisiones inadvertidas, los asistentes también son vulnerables a los ataques que activan deliberadamente palabras de activación que envían audio a los atacantes o realizan otras tareas que comprometen la seguridad.

En un artículo publicado a principios de este mes, Sadeghi y otros investigadores, de la Universidad de Darmstadt, la Universidad de Paris Saclay y la Universidad Estatal de Carolina del Norte, escribieron:

El propósito de este artículo es desarrollar un método para que los usuarios habituales identifiquen de manera confiable los dispositivos de IoT que 1) están equipados con un micrófono y 2) envían audio grabado desde el hogar del usuario a servicios externos sin el conocimiento del usuario. Si LeakyPick puede identificar qué paquetes de red contienen grabaciones de audio, puede informar al usuario qué dispositivos están enviando audio a la nube, ya que la fuente de los paquetes de red puede identificarse mediante direcciones de red de hardware. Esto proporciona una forma de identificar transmisiones de audio no deseadas a la nube, así como los ataques mencionados anteriormente, en los que los oponentes buscan invocar acciones específicas inyectando audio en el entorno del dispositivo.

Lograr todo esto requirió que los investigadores superaran dos desafíos. La primera es que la mayor parte del tráfico del asistente está cifrado. Esto evita que LeakyPick inspeccione las cargas útiles de los paquetes para detectar códecs de audio u otras señales de datos de audio. En segundo lugar, con nuevos asistentes de voz nunca vistos que aparecen todo el tiempo, LeakyPick también necesita detectar transmisiones de audio de dispositivos sin capacitación previa para cada dispositivo. Los enfoques anteriores, incluido el llamado HomeSnitch, requerían capacitación avanzada para cada modelo de dispositivo.

Publicidad

Para superar obstáculos, LeakyPick transmite audio periódicamente en una habitación y monitorea el tráfico de red resultante de los dispositivos conectados. Al correlacionar temporalmente las sondas de audio con las características observadas del tráfico de red que sigue, LeakyPick enumera los dispositivos conectados que probablemente transmitan audio. Una forma en que el dispositivo ha identificado posibles transmisiones de audio es buscando picos repentinos en el tráfico saliente. Los dispositivos activados por voz generalmente envían cantidades limitadas de datos cuando están inactivos. Una ola repentina generalmente indica que un dispositivo se ha activado y está enviando audio a través de Internet.

El uso de ráfagas solo está sujeto a falsos positivos. Para eliminarlos, LeakyPick emplea un enfoque estadístico basado en una prueba t independiente de dos muestras para comparar las capacidades del tráfico de red de un dispositivo cuando está inactivo y cuando responde a las sondas de audio. Este método tiene la ventaja adicional de trabajar en dispositivos que los investigadores nunca analizaron. El método también permite que LeakyPick funcione no solo para asistentes de voz que usan palabras de activación, sino también para cámaras de seguridad y otros dispositivos de IoT que transmiten audio sin palabras de activación.

Los investigadores resumieron su trabajo de esta manera:

A un alto nivel, LeakyPick supera los desafíos de la investigación al transmitir periódicamente audio a una habitación y monitorear el tráfico de red posterior desde los dispositivos. Como se muestra en la Figura 2, el componente principal de LeakyPick es un dispositivo de sonido que emite sondas de audio en su vecindad. Al correlacionar temporalmente estas sondas de audio con las características observadas del tráfico de red posterior, LeakyPick identifica los dispositivos que han reaccionado potencialmente a las sondas de audio mediante el envío de grabaciones de audio.

LeakyPick identifica flujos de red que contienen grabaciones de audio utilizando dos ideas principales. Primero, busca ráfagas de tráfico después de una sonda de audio. Nuestra observación es que los dispositivos activados por voz normalmente no envían muchos datos a menos que estén activos. Por ejemplo, nuestro análisis muestra que cuando están inactivos, los dispositivos habilitados para Alexa envían periódicamente pequeñas ráfagas de datos cada 20 segundos, ráfagas promedio cada 300 segundos y ráfagas grandes cada 10 horas. Además, descubrimos que cuando se activa mediante un estímulo de audio, la ráfaga de transmisión de audio resultante tiene características distintas. Sin embargo, usar solo ráfagas de tráfico da como resultado altas tasas de falsos positivos.

En segundo lugar, LeakyPick utiliza encuestas estadísticas. Conceptualmente, primero registra una medición de referencia del tráfico inactivo para cada dispositivo monitoreado. Luego utiliza una prueba t independiente de dos muestras para comparar las capacidades de tráfico de red del dispositivo mientras está inactivo y el tráfico cuando el dispositivo se comunica después de la sonda de audio. Este enfoque estadístico tiene la ventaja de ser inherentemente agnóstico sobre el dispositivo. Como mostramos en la Sección 5, este enfoque estadístico funciona tan bien como los enfoques de aprendizaje automático, pero no está limitado por el conocimiento a priori del dispositivo. Por lo tanto, supera los enfoques de aprendizaje automático en los casos en los que no existe un modelo previamente entrenado para el tipo de dispositivo específico disponible.

Finalmente, LeakyPick funciona tanto para dispositivos que usan una palabra de inicio de sesión como para dispositivos que no. Para dispositivos como cámaras de seguridad que no usan una palabra de activación, LeakyPick no necesita realizar ninguna operación especial. La transmisión de cualquier audio activará la transmisión de audio. Para manejar dispositivos que usan una palabra o sonido de activación, por ejemplo, asistentes de voz, sistemas de seguridad que reaccionan a vidrios rotos o ladridos de perros, LeakyPick está configurado para prefijar sus sondas con palabras de activación y ruidos conocidos (por ejemplo , «Alexa», «Hey Google») También se puede utilizar para las palabras de activación de prueba de fuzz para identificar palabras que transmitirán grabaciones de audio sin querer.

Protección contra fugas accidentales y maliciosas

Hasta ahora, LeakyPick, que lleva el nombre de su misión de detectar fugas de audio de dispositivos conectados a la red, ha descubierto 89 palabras no activas que pueden hacer que Alexa envíe audio a Amazon. Con más uso, LeakyPick probablemente encontrará palabras adicionales en Alexa y otros asistentes de voz. Los investigadores ya han encontrado varios falsos positivos en Google Home. Las 89 palabras aparecen en la página 13 del artículo vinculado anteriormente.

Además de detectar transmisiones de audio inadvertidas, el dispositivo detectará prácticamente cualquier activación de un asistente de voz, incluidas aquellas que sean maliciosas. Un ataque demostrado el año pasado hizo que los dispositivos abrieran puertas y arrancaran autos cuando estaban conectados a una casa inteligente mediante láseres brillantes en los dispositivos Alexa, Google Home y Apple Siri. Sadeghi dijo que LeakyPick detectaría fácilmente tal hack.

El prototipo de hardware consta de una Raspberry Pi 3B conectada vía Ethernet a la red local. También se conecta mediante un auricular a una placa amplificadora PAM8403, que a su vez se conecta a un solo altavoz genérico de 3W. El dispositivo captura el tráfico de la red usando un dongle USB Wi-Fi TP-LINK TL-WN722N que crea un punto de acceso inalámbrico usando hostapd y dnsmasq como servidor DHCP. Todos los dispositivos de IoT inalámbricos en las cercanías se conectarán a ese punto de acceso.

Para dar acceso a Internet a LeakyPick, los investigadores activaron el reenvío de paquetes entre Ethernet (conectado a la puerta de enlace de la red) y las interfaces de red inalámbrica. Los investigadores escribieron LeakyPick en Python. Usan tcpdump para grabar paquetes y el motor de conversión de texto a voz de Google para generar el audio reproducido por el dispositivo de sondeo.

Con el uso cada vez mayor de dispositivos que transmiten audio cercano y el número creciente de formas en que pueden fallar o ser pirateados, es bueno ver investigaciones que proponen una forma simple y de bajo costo de evitar fugas. Hasta que estén disponibles dispositivos como LeakyPick, e incluso después de eso, las personas deben preguntarse cuidadosamente si los beneficios de los asistentes de voz superan los riesgos. Cuando hay asistentes, los usuarios deben mantenerlos apagados o desconectados, excepto cuando están en uso activo.