admin 管理员组

文章数量: 1184232

本文介绍硬件设备通过 WebSocket 实现语音交互的完整流程。WebSocket 技术为硬件设备提供了低延迟的语音交互能力,支持按键说话和自由对话两种模式,适用于智能音箱、车载系统、智能家居控制、在线客服、游戏语音聊天等场景,满足不同使用场景的需求。

WebSocket 语音功能介绍

扣子 WebSocket 提供了高效且灵活的语音交互解决方案,以下是其核心功能:

  • 支持按键说话与自由对话
    • 按键说话(客户端按键判停):用户通过按键控制录音的开始和结束,适用于需要精准控制对话的场景。
    • 自由对话(扣子云端判停):扣子云端通过语音活动检测(VAD)自动判断语音的开始和结束,实现无缝的自然对话体验。
  • 支持多种音频编码格式

扣子 WebSocket 支持多种音频编码格式,以满足不同设备和网络环境的需求:

    • 输入音频:支持 PCM、OPUS、G711A 和 G711U 格式。
    • 输出音频:支持 PCM、OPUS、G711A 和 G711U 格式,默认为采样率 24000 的 PCM 片段。
  • 低延迟交互

扣子 WebSocket 具备低延迟的语音交互体验, 按键说话场景的时延低至 1.2

本文标签: 语音 智能 Coze websocket