
为什么语音输入作为主要界面输入方式存在缺陷
技术正在推动我们越来越多地将语音输入作为主要输入模式,但我们遗漏了哪些缺陷?

Rabbit 和 Teenage Engineering最近发布的r1 配套产品已促使该产品一再售空,并且成为挑战智能设备中基于应用程序的界面设计惯例的少数设备之一。
不仅如此,该设备的主要输入方法是语音,对于许多人来说,这感觉像是智能设备主要输入模式的自然演变,并且通过有针对性和具体的任务,当然可以将大语言人工智能模型发挥到新的高度。集中交互,将多应用程序流程简化为简单、自然的交互。
但语音真的是下一代界面设计的正确选择吗?我们真的可以采用语音作为智能设备的主要输入模式吗?
我认为我们还没有达到这一目标,r1 以及其他设备(例如Humane 的 AI Pin)虽然成功挑战了传统,但肯定不会成为打破语音障碍的设备。
也许语音永远不会成为主要的输入方式。
在这种情况下,我预见到以下 3 个主要缺陷(或者我们必须克服的主要障碍,具体取决于您的前景有多乐观)……
语音本质上不是私有的(除非满足某些标准)
不可避免的是,语音根本就不是私密的,除非您独自一人,在隔音房间里。如果没有静音隐私和可见隐私,用户将永远不想执行某些任务。
我相信你能想到你每天使用手机做的很多事情,你不想让公众知道——不一定是出于任何下流或令人毛骨悚然的原因——而只是因为没有人希望每个人都在身边他们确切地知道自己正在浏览或正在做什么,即使周围的人是亲密的家人或朋友。
例如,我为什么要向拥挤的火车乘客广播我的假期计划,或者让参加活动的人知道我正在预订优步提前离开,或者冒着别人无意中听到我为他们购买礼物的风险,或者他们认识的人。
当涉及到某些交互时,语音根本不适合目的。
正因为如此,随着许多设备的出现,这些设备无疑将在未来几年专注于采用大语言模型的更深入集成,他们将需要采用多输入方法,或者至少继续专注于文本输入作为主要的交互类型,以便得到更广泛的采用。
然而,这是一个复杂的决定,其中包括许多内置的上下文。作为用户,如果价格明显较低,我可能愿意中途停留,或者,我可能不相信助手。或者,如果价格明显较低,我可能想改天飞行。
当然,人工智能可以从用户那里学习这些行为模式,但决策过程中所需的细节深度可能很难通过纯粹的语音输入来克服,尤其是在有限的视觉或文本输出的情况下。
我们还没有达到那个程度,也许我们永远也不会达到那个程度?
这里的一个大问题是语音是否可以成为智能设备的主要输入模式,如果是的话,什么类型的设备可以最好地利用这种输入方法?
这个问题的答案取决于很多很多因素:
语音助手能否以自然、人性化的方式进行交互?
用户能否克服与技术实体交互的非人类障碍?
语音助手能否为我们提供做出关键、复杂决策所需的所有数据和反馈?或者说有必要吗?

为什么语音输入作为主要界面输入方式存在缺陷
- 数据收集:语音输入需要将用户的语音转化为文本,这意味着用户的语音数据需要被收集和处理。这可能引发用户对个人隐私的担忧,特别是当语音数据被发送到云端进行处理时。
- 数据存储:语音输入系统通常需要将用户的语音数据存储在云端服务器上,以便进行语音识别和改进系统性能。这可能导致用户的语音数据被存储在第三方服务器上,增加了数据泄露的风险。
- 数据滥用:语音输入系统可能会被滥用来监听用户的私人对话或获取敏感信息。虽然大多数语音输入系统声称不会滥用用户数据,但仍然存在潜在的滥用风险。

我们如何解决语音输入的隐私问题,或者可以解决吗?
无论情况如何,随着人工智能技术不仅越来越嵌入到软件中,而且越来越嵌入到硬件中,并且语音越来越成为我们界面交互的最前沿,我们肯定会在未来几年(如果不是更多)感兴趣。
解决语音输入的隐私问题是一个复杂的问题,但可以采取一些措施来减轻隐私风险:
- 透明的隐私政策:确保用户清楚了解他们的语音数据将如何被收集、存储和使用。提供明确的隐私政策可以增加用户对数据使用的信任。
- 匿名化处理:将语音数据与个人身份分离,以减少数据的敏感性。通过删除或替换个人身份信息,可以降低数据被关联到特定个人的风险。
- 数据加密:对语音数据进行加密处理,确保数据在传输和存储过程中的安全性。这可以防止未经授权的访问和数据泄露。
- 用户控制权:提供用户对语音数据的控制权,例如允许用户选择是否共享数据,以及选择删除已共享的数据。
- 数据存储限制:限制语音数据的存储时间,尽量减少数据被滥用的风险。只保留必要的数据,并定期清理过期的数据。
- 安全审查:定期进行安全审查,确保语音输入系统的安全性和隐私保护措施得到有效实施。
虽然这些措施可以减轻隐私风险,但完全消除隐私问题可能是困难的。因此,用户在使用语音输入时仍需谨慎,并权衡使用语音输入带来的便利与隐私风险。
本文系作者 @ 泡泡球原创发布在 轻抖云。未经许可,禁止转载。