当前位置:首页电脑音频硬件新闻音频新闻音频正文

保护音频隐私：语音过滤技术平衡智能设备的隐私和实用性

发布时间：04-22 编辑：21dB声学人

本文要介绍的Kirigami 是卡内基梅隆大学研究人员开发的一种设备端语音过滤器，用于在声学活动识别等应用中保护用户隐私。它具有以下特点：

基于逻辑回归的轻量级语言检测器：能将短时傅里叶变换（STFT）后的音频每一帧分类为语音或非语音，并去除可能是语音的帧。 640_wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1.webp (4).png

自适应噪声掩蔽：针对设备可能遇到的环境噪声变化影响语音检测性能的问题，采用自适应噪声掩蔽方法，通过识别背景周期自适应构建背景轮廓，利用频谱门控技术在音频数据到达语音检测器前进行掩蔽处理。

交互式工具：Kirigami 还包括一个交互式音频隐私评估工具，允许用户实验不同的音频变换和语音过滤配置，以评估隐私风险和应用效用。

部署设备广泛：可部署在多种设备上，如配备边缘微控制器 ARM Cortex - M4F（256 KB RAM 和 1 MB 闪存）的传感器节点和笔记本电脑等，应用场景涵盖人类活动识别和环境监测等。

亚历克斯

来源：Unsplash/CC0 Public Domain

声音是一种强大的信息来源。通过训练算法识别独特的声音特征，声音可以揭示一个人正在做什么，比如做饭、吸尘或者洗碗。虽然在某些情况下这很有价值，但利用声音来识别活动也带来了隐私方面的问题，因为麦克风可能会泄露敏感信息。

为了在不侵犯隐私的情况下实现音频感知，卡内基梅隆大学的研究人员开发了一种名为“剪纸”（Kirigami）的设备端过滤器，它可以在音频传感器收集到人类语音片段后、用于活动识别之前，检测并删除这些片段。

“声音中包含的数据可以为活动识别、健康监测甚至环境感知等有价值的应用提供支持。然而，这些数据也可能被用来侵犯人们的隐私，” Sudershan Boovaraghavan 说道。他在卡内基梅隆大学计算机科学学院的软件与社会系统系（S3D）获得了博士学位。“Kirigami 可以安装在各种配有麦克风的传感器上，这些传感器部署在实际场景中，能够在数据从传感器发送出去之前过滤掉语音，从而保护人们的隐私。”

许多现有的在音频感知中保护隐私的技术都涉及对数据进行修改或转换，比如从音频频谱中排除某些频率，或者训练计算机忽略人类语音。虽然这些方法在让人类难以理解对话内容方面相当有效，但生成式人工智能使情况变得复杂起来。像 OpenAI 的 Whisper 这样的语音识别程序可以从曾经难以理解的已处理音频中拼凑出对话片段。

“考虑到这些模型所拥有的数据量巨大，一些先前的技术会留下足够的残余信息，即小片段信息，这些信息可能有助于恢复部分语音内容，” Yuvraj Agarwal 说道。他是软件与社会系统系、人机交互研究所（HCII）以及工程学院电气与计算机工程系的副教授。“Kirigami 可以阻止这些模型获取那些片段信息。”

在当今世界，像智能音箱这样优先考虑实用性而非隐私的设备，基本上可以窃听人们所说的一切。虽然最极端的保护隐私的做法是避免使用麦克风，但这样做会让人们无法享受强大感知媒介带来的好处。Agarwal 和他的合作者们希望为开发者找到一种解决方案，使他们能够在隐私和实用性之间取得平衡。

研究人员的想法是设计一种轻量级的过滤器，即使是在最小巧、最经济实惠的微控制器上也能运行。然后，这个过滤器可以识别并删除可能存在的语音内容，这样敏感数据就永远不会离开设备，这通常被称为边缘处理。

具有设备端语音过滤功能的隐私感知声学传感系统概述

该过滤器的工作原理是一个简单的二进制分类器，用于判断音频中是否存在语音。研究团队通过对基于深度学习的自动语音识别模型的语音内容泄露识别率进行实证分析，设计出了这个过滤器。

Kirigami 还通过一个可配置的阈值来平衡其删除可能语音内容的激进程度。如果阈值设置得比较激进，过滤器会优先删除语音，但也可能会剪掉一些对其他应用可能有用的非语音音频。如果阈值设置得不太激进，过滤器会允许更多的环境和活动声音通过，以获得更好的应用价值，但也会增加一些与语音相关的内容从传感器中泄露出去的风险。

交互式音频隐私评估工具概述。用户可以尝试语音过滤和音频转换，以找到满足其隐私和效用要求的合适配置。

“Kirigami 会去除大部分语音内容，但不会去除你在活动识别中所关注的其他环境声音，” Haozhe Zhou 说道。他是软件与社会系统系的博士生，与 Boovaraghavan 共同领导了这个项目。“你仍然可以将它与先前的技术结合使用，以提供额外的隐私保护。”

具有设备端语音过滤功能的原型声学传感设备：(A) 笔记本电脑，(B) 传感器节点。笔记本电脑屏幕上显示传感器节点或笔记本电脑传输的音频以及语音去除的实时可视化效果。

研究人员目前正在探索活动感知的许多应用。例如，软件与社会系统系和人机交互研究所的副教授 Mayank Goel 利用音频感知来提醒患有痴呆症的人完成日常任务，监测患有注意力缺陷多动障碍的儿童的行为异常情况，并评估学生是否有抑郁迹象。

“这些只是我们实验室正在进行的一些例子，” Goel 说。“在世界各地，你会发现类似的场景，在这些场景中，你需要从人们那里获取关于他们日常生活的非侵入性数据。”

随着人们对智能家居基础设施和物联网的兴趣持续增长，该团队认为开发者可以轻松调整 Kirigami，以满足他们独特的隐私需求。

详细介绍 Kirigami 的论文发表在《ACM交互式、移动、可穿戴和普适技术汇刊》以及《美国计算机协会移动计算与网络会议（ACM MobiCom）2024 年会议录：第 30 届移动计算与网络年度国际会议论文集》上。

论文信息：Haozhe Zhou et al, On-Device Speech Filtering for Privacy-Preserving Acoustic Activity Recognition, Proceedings of the 30th Annual International Conference on Mobile Computing and Networking (2024). DOI: 10.1145/3636534.3698865

Sudershan Boovaraghavan et al, Kirigami: Lightweight Speech Filtering for Privacy-Preserving Activity Recognition using Audio, Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (2024). DOI: 10.1145/3643502