5 岁多的娃喜欢拿着豆包问东问西,还跟豆包打电话你一言我一语聊个不停。他字不识几个,却爱开启字幕盯着手机屏幕看。时间一长我就提醒他:“盯着屏幕的时间要算进看动画片的时长里面哟。”他反问:“那你不能把小爱同学换成豆包吗?”

臭小子和我想到一块儿去了。

家里的小米 AI 音箱是 2017 年发布的初代产品,已经用了 8 年。如今我常用的指令只剩下“小爱同学,今天天气”、“小爱同学,提醒安安 10 分钟后洗澡”、“小爱同学,打开/关闭电视机”、“小爱同学,20 分钟后关闭电视机”这么几个。稍微换个说法问,就回答"还在学习"。在 AI 如火如荼的今天,没接入大语言模型的小爱同学堪称智障。

在 Github 上发现一个项目——将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。看了下,我的初代小米 AI 音箱也在支持范围内。项目可以用 Docker 方式运行,巧了,我有一台吃灰的群晖。

说干就干,开始折腾。在群晖拉取 Docker 镜像、申请豆包 API KEY、创建接入点等环节花了些时间,最后 Docker 容器成功启动运行。

下班回家后,我开始测试提问。牛刀小试:“小爱同学,请问地球为什么是方的?”小爱原本的回答是“这个我暂时还不会”,但因为接入了豆包,回复被打断,后面几个字被吞掉了。我满怀期待地等着小爱用语音播报豆包的回答,然而等啊等,只等来沉默——小爱再也没蹦出一个字。

查看容器日志,对话的文字内容都有显示,豆包也成功调用了,文字回复很完整,可音箱就是不播报这个内容。在项目 issues 中,我看到不少人遇到了同样的问题,解决与否很玄学。

再深入排查就超出我的折腾能力范围了。就此打住,宣告小爱音箱接入豆包行动折戟。