发布时间:11-29
编辑:21dB声学人
目前,行人检测主要依赖视频数据分析或红外计数器,但这些技术成本高昂。更复杂的替代方案,如雷达、无线电波束、感应线圈和压电条,部署和维护成本也较高。
音频传感器作为一种新兴的技术手段,引起了研究者的关注。与传统的视频分析、红外计数器等方法相比,音频传感器具有成本低、功耗低、覆盖范围广等优点。
近期的研究表明,通过音频设备检测到的声音景观提供了与视觉信息相同的地方的足够信息。这些优势需要通过开发更先进的处理算法来平衡,以从多声音信号中提取有意义的信息;优化音频传感器的定位以优化数据收集;以及解决隐私、匿名性和数据清洗等技术之外的挑战。
数据收集与处理
为了验证音频传感器在行人感知中的有效性,佐治亚理工学院的研究者们收集了一个名为ASPED(Audio Sensing for PEdestrian Detection)的大规模数据集。
收集数据时,使用了多种设备,包括 Tascam DR - 05X 录音机、Saramonic SR - XM1 麦克风、5L OverBoard Dry Flat Bags、GoPro HERO9 Black 相机、Anker PowerCore III Elite 26K 充电宝、Seahorse 56 OEM Micro Hard Cases 等,并采用特定方式同步时间。
录制设备设置在佐治亚理工学院校园的 Cadell Courtyard 和 Tech Walkway 两个地点,每个录制会话约持续两天。通过 Mask2Former 模型从视频帧中提取行人计数,用圆形缓冲区分析行人与音频记录器的接近程度,并标注每一帧是否有行人。
数据集包含大量视频帧和音频,录制时间主要为工作日。其显著特点是不平衡,大部分时间麦克风附近无行人,行人事件多发生在白天,中午 12 点左右有小高峰,凌晨 1 - 4 点几乎无行人。这种不平衡性要求机器学习模型设计、训练策略和评估方法需谨慎,以防模型简单预测无行人而未学习到有意义信息。
行人检测模型
研究者们采用了三种不同的音频编码模型:VGGish 预训练特征模型、卷积神经网络(CNN,Convolutional Neural Network)和音频频谱图变换器(AST,Audio Spectrogram Transformer)来训练行人检测模型。
前两种模型需将音频分块、转换为 Mel 谱图后输入音频编码器网络,再经时间聚合模型添加上下文信息,最后由分类器估计行人出现概率;AST 模型无需时间聚合模型,直接产生每秒概率。所有模型使用二元交叉熵损失进行二元分类训练。
在实验过程中,研究者们发现CNN和AST在行人检测任务上表现较好,尤其是在中等半径范围内(3至6米)。这可能是因为这两种模型能够更好地捕捉音频信号中的复杂特征和上下文信息。
行人流量预测模型
为了实现行人流量预测,研究者们采用了 CNN 作为基础架构。CNN在处理空间和时间序列数据方面具有显著优势,能够有效地捕捉行人流量在不同时间和空间尺度上的变化规律。
在模型训练过程中,研究者们使用了滑动窗口方法来处理时间序列数据。具体来说,他们将过去11帧(即11秒)内的行人检测结果作为输入,同时预测每个记录器位置和不同径向距离(1米、3米、6米和9米)处的行人数量。通过这种方式,模型能够捕捉到行人流量的短期动态变化。
实验结果与分析
实验结果表明,基于音频传感器的行人检测模型在中等半径范围内具有较高的检测精度。同时,行人流量预测模型也能够在不同径向距离上实现较为准确的预测。然而,随着预测范围的扩大(如9米半径),预测精度有所下降。这可能是由于更大范围内的行人流量受到更多不确定因素的影响,如环境噪声、天气条件等。
尽管本研究中的音频传感器系统有一定的成效,但其基本算法的性能尚未达到与基于视频的系统相媲美的水平。研究人员表示,他们的目标是提高音频传感的准确性,并计划开发一个专门针对识别行人声音的模型,通过识别数据中的独特模式来实现。此外,由于研究人员的数据集主要在校园中收集,缺乏城市环境的复杂性,例如车辆噪声。为了使系统在城市环境中有效,它必须能够在不同场景中准确检测行人。
隐私问题也是音频数据的一个关注点,因为音频可能会捕捉到人的声音,甚至包含敏感信息的对话片段。为了解决这个问题,研究人员使用了OpenAI的Whisper语音转文本模型来分析数据集中的可听对话。结果显示,在初始数据集中,对话要么不存在,要么不足以清晰地转录。通常,只捕捉到孤立的单词,而不是形成连贯的句子,这可能是因为人们一直在行走,或者没有足够接近录音机。然而,当个体决定在录音机附近停下并进行实质性对话时,仍然存在泄露私人对话的风险。为了尽可能规避这种情况,研究人员提出了修改声音足够清晰以供转录的音频段。通过使用源分离算法去除声音,可以掩盖任何可识别或私人的对话,同时保持数据的完整性,以便模型使用。
总结
本研究通过音频传感技术在城市感知中的应用,为理解和预测行人运动提供了新的视角。通过结合先进的深度学习算法和大规模数据集,研究人员展示了音频传感器在行人跟踪和流动预测中的潜力。尽管音频传感技术仍处于发展阶段,但其在提供城市数据、增强城市规划和交通管理方面的潜力不容忽视。
本文信息:Han, C., Seshadri, P., Ding, Y. et al. Understanding pedestrian movement using urban sensing technologies: the promise of audio-based sensors. Urban Info 3, 22 (2024). https://doi.org/10.1007/s44212-024-00053-9
我对产品很感兴趣,请尽快联系我!
请问我所在的地区有商家吗?
我想详细了解购买流程!
购买该产品享受八折优惠,还能得到技术支持?
我想购买请电话联系我!
购买所需要的费用有哪些?
产品很好,请尽快联系我详谈!
声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布
发布
电话
微博
公众号
回顶部