文字转语音(TTS)
功能简介
TTS(Text-To-Speech,文本转语音)是一种将输入的文字自动转换为可听语音的技术。它通过语言学分析、声学建模和语音合成等步骤,将自然语言文本生成流畅、自然的人声输出。TTS 技术在智能语音助手、服务机器人、人机交互、无障碍阅读等场景中具有广泛应用。
本示例使用 SpacemiT 智算核进行 TTS 模型推理,并将计算结果通过 ROS2 消息发布。
环境准备
- 建议使用 Bianbu ROS 操作系统
- 请确保所有终端默认已经执行了
source /opt/bros/humble/setup.bash
硬件连接

这里使用的是轮趣科技的 USB 声卡 + 扬声器来验证 TTS 生成的音频,也可以使用其他 USB 扬声器设备。
设备选型注意:
- 设备应可在 Linux ALSA/PipeWire 下即插即用,无需额外驱动。
- 需至少支持 44.1 kHz 与 48 kHz 两种采样率,以兼容常见语音模型与音频库(如 PortAudio、PyAudio、librosa 等)。
安装系统依赖项
sudo apt update
sudo apt install -y libopenblas-dev \
portaudio19-dev libsndfile1-dev libcurl4-openssl-dev libfftw3-dev espeak-ng \
python3-dev \
ffmpeg \
python3-spacemit-ort \
libcjson-dev \
libasound2-dev \
python3-pip \
python3-venv
查看播放设备信息
audioscan
输出示例:

- 输出设备中 USB Audio Device 为 USB 声卡接口,提供标准双通道(立体声)播放能力,支持 44.1kHz 与 48kHz 两种常用采样率。
- 注意:在更换 USB 接口或重新插拔设备后,请重新运行设备扫描以确认编号是否发生变化。