5. 机器人应用开发5.2 功能体验5.2.7 视觉语言模型本页总览5.2.7 视觉语言模型 功能介绍 本章节介绍如何使用视觉语言模型 (VLM, Vision-Language Model)完成图像理解与文本生成任务。以 SmolVLM 为例,模型具备图像输入与自然语言输出的能力,支持本地离线推理。 克隆代码仓库 git clone https://gitee.com/bianbu/spacemit-demo.gitcd spacemit_demo/examples/NLP 安装依赖