一文看懂 Echo 和 Alexa

盖大楼 · 发表于 2017-3-31 14:30:09

当然， Echo 是一个来自美国的智能产品，所以在中国的确很难买到。很多同学也看过多篇有关 Echo 的文章，但是并没有体验过这款产品，所以经常被各种概念弄得「云里雾里」，很多文章一边说 Echo，然后又提到 Alexa，如果你在网上搜索亚马逊 Alexa，可以发现有用户中心，有开发者中心，甚至还有基金会。笔者希望通过本篇文章来阐述一下 Echo 系列产品的关系，以及亚马逊的战略，希望能够对大家有所帮助，以下：

1，Echo 和 Alexa 的关系：你中有我

简单而言，其实 Echo 和 Alexa 的关系，就像 iPhone 和 Siri 的关系一样：一个是硬件产品，一个是语音服务。Echo 音箱使用的语音服务是 Alexa，所以 Echo 音箱的唤醒词可以是Echo，也可以是 Alexa。值得一提的是，亚马逊的 Alexa 是对外开放的，不仅 Echo 能用，其他硬件也有用，在今年 CES 展上很多智能硬件都在用 Alexa，这项服务对外开放使用，开发者可以为 Alexa 开发插件，贡献更多的功能，如果星巴克希望用户通过 Alexa 来订购他们家的咖啡，只需要开发一个小插件就行，现在已经有成千上万家企业在这么干。

可以说，亚马逊是在用苹果的玩法来玩转语音服务。如果你进入 Alexa 的开发者中心（https://developer.amazon.com/alexa），就可以清晰的看到三个大产品，包括 Alexa Skills Kit（技能插件），Alexa Voice Service（语音服务），以及 Alexa Fund（基金会） 。他们各自都有什么功能呢？下面一一为大家介绍。

2，Alexa Skills Kit（技能插件）

用户刚买来 Echo 音箱时，其实功能很少，只能问问天气（what's the weather），即不能听歌，也不能控制家电，这些功能都需要去 Alexa 的 APP 开启相应技能（Skill）才能使用。因为在美国听歌是收费的，所以开启听歌的功能时，用户就需要绑定信用卡。 Alexa APP 并未上架到苹果 Appstore 的中国市场，如果要体验，可以浏览 Alexa 的 Web APP ：http://alexa.amazon.com。

进入 Web APP 后，右侧菜单 Music&Books 处可以设置听音乐、听书的功能，点击菜单 Skills 可以设置技能插件，这里有上万个技能插件，基本都是第三方开发者为 Alexa 开发的功能。

在菜单 Home 下，可以看到和音箱对话的历史记录，并可对每次对话的答案标记是否满意，这样可以帮助 Alexa 完成「机器学习」。用户和 Alexa的聊天记录只有自己可见，对开发者是封闭的。而国内一些语音语义平台，能让开发者在平台上面就看见用户的聊天记录，相信很多普通用户知道了这点，就都不敢再跟智能产品当那种「无话不谈」的朋友了。

如果你希望 Alexa 智能设备能控制家里的电器，也要开启相应的技能插件才行。比如你用的是美国快思聪（Crestron）的智能家居系统，则可以开启技能插件 Crestron Home Automation for SmartHome ，开启时需要 Oauth 帐号授权，这样 Echo 音箱就能知道你家里连接了多少Crestron 的设备，然后就可以通过语音来控制它们。

而如果你是一个开发者，如何给 Alexa开发技能插件呢？

首选，你要登录亚马逊的开发者中心（developer.amazon.com），进入 Alexa 的菜单后，会让你选择是开发插件（Alexa Skills Kit），还是接入语音服务（Alexa Voice Service）。这里我们选择 Alexa Skills Kit 即可，接下来按操作步骤进行即可。

Alexa 可以开发三种类型的插件：自定义（custom）、智能家居（smart home）、快报（flash briefing）。当然， Alexa 并不要求开发者将自己的内容资源（如音视频、问答对等）上传到亚马逊，而只是在 Alexa 中定义「意图」，当用户触发「意图」时调用开发者定义的接口，类似于微信公众号的开发者模式，开发者自己在接口中返回 Alexa 要回答用户的答案， Alexa 做到了「意图」和「回答」的分离，在 Alexa 平台定义「意图」，而在开发者自己服务器上面实现回答。而国内很多语音语义平台，没有实现「意图」和「回答」的分离，要求开发者将「答案」上传到平台，所以给开发者感觉不太好，总认为将自己的核心机密数据上传到了第三方。

亚马逊通过 Alexa 吸引普通用户与它对话，同时也吸引了更多的开发者为它贡献插件，同时保障了普通用户和开发者的权益，而且产品也做到了：不会「索取」开发者的核心数据，更不会把普通用户的对话记录开放给开发者。笔者相信，这也是 Alexa 能够获得成功的一个非常重要的原因。

3，Alexa Voice Service（语音服务）

如果我们想开发一款拥有像 Echo 音箱一样，具有语音交互功能的产品，那么，我们直接接入Alexa 的语音服务即可。产品的接入方式也十分简单，在开发者中心创建一个语音服务的应用，就可以获得两个 KEY： Client ID 和 Client Secret，这两个 KEY 值是调用接口时需要用到的。接口地址为： https://avs-alexa-na.amazon.com ，请求接口时传递录音文件， Alexa的云端同时进行了语音识别和语义理解，将音频文件转换为文字，然后对文字进行理解，如果触发了某个技能插件的「意图」，则调用开发者的定义第三方服务器的接口，如果是听歌或听书等「意图」，则调用亚马逊自家的资源。语义理解后 Alexa 将需要返回的文字内容合成为音频文件，所以接口的返回内容也是音频文件。

Alexa语音服务这么简单？核心功能就是一个接口？没有唤醒模块？没有麦克风阵列？很多国内做开发的同学，可能会有这些疑问。其实，Alexa 并没有像国内的语音平台那样，将语音、语义、唤醒、麦克风阵列打包在一起，然后收一个很高的 License 费用。Alexa 只专注于云端识别，而唤醒、麦克风阵列等技术是开放的。

这是官方的示例代码 https://github.com/alexa/alexa-avs-sample-app ，示例代码中唤醒用了Sensory 和 KITT.AI，麦克风阵列用了科声讯的两麦方案。Alexa 不绑定任何硬件方案，唤醒和录音的技术方案完全掌握由开发者自己决定。Alexa 只是对录音的质量提出要求：

因为 Alexa 不绑定任何硬件方案，这就使得硬件成本可以降下来，Alexa 也并没有在语音技术上收费，用户是在使用产品过程中对内容进行付费。而国内的语音平台总想着在语音技术本身上收费，语音技术还要绑定自家的唤醒模块、麦克风阵列或者 SDK，也并没有开放 API。一个 License 费用就能收 60多块钱，这使得智能语音技术成本一直也降不下来，当然这可能因为国内外的开发环境不同，还有文化差异所导致。

笔者认为，虽然人工智能被炒得很热，但普通用户目前还是尝鲜的态度，并没有形成强烈的刚需，市场并未打开。如果智能产品要想要打开市场，那么应该有两点基础要求：第一，就是真正意义上能替代「人工」，比如工业机器人、智能客服，他们真的能替代人工，所以它们会有市场；第二点，就是让普通用户能够用低成本「尝鲜」。很多服务机器人或者智能音箱产品就比较尴尬，既然不能替代人工，那么用户只能把它作为「娱乐产品」来消遣，但价格又这么贵，普通用户只能「望而却步」了。

4，Alexa Fund（基金会）

Alexa 基金会孵化是使用该项技术的创业项目，它要求所有项目按照他们规定的时间点进行，4月9号之前报名，7月17日开始开发，经历13周时间，10月12日演示产品。