语音or手动，短视频需要声控吗？

人人都是产品经理·2021年09月27日 08:27

如果短视频可以通过声控进行下一个、点赞和评论操作，你会不会用？

文章内容部分来源于@叶上初阳 @C. @斌戈爱运营 @涂杰 @Empty @阿斌哥2936 @舟雪寒灯 @Mr.杰 @Jayden @R&A @lifestyle @是橙子吖 @郝什么的精彩回答。

假设短视频可以通过声音控制，那么简单说来，就是能够解放双手，直接用眼睛和嘴来刷视频，对于那些懒得用手拿着手机刷视频的用户十分友好。

在语音识别技术已经较为成熟的当下，如果短视频能够完全实现我说的声控功能，那为什么不呢？

如果未来的短视频具备了声控功能，你愿意使用吗？针对这个问题，我们在天天问展开了一场讨论，一起来看看小伙伴们是怎么说的吧~

01 愿意使用

存在即合理。

随着科技和社会的发展，用户对于产品和功能的使用场景明显有了更高的需求。既然短视频语音识别这一功能有人提及，就说明它一定有某些可取之处。

愿意接受短视频声控的用户主要认为，该功能可以满足他们的特殊使用场景以及需求：

1. 满足特殊使用场景

不得不承认的是，短视频的声音控制相较于手势操作而言，条件限制更少，因为用户手捧手机，对短视频进行手势操作的前提是双手“自由”。

例如洗衣服和烹饪的过程中，双手都被占用，手势操作会变得十分艰难。但如果这时候用户产生了娱乐需求，那就需要经历洗手、擦手等若干步骤才能接触到手机，这与短视频几十秒的时长非常冲突。

有回答认为，在家刷碗、洗袜子的时候，如果短视频具备语音识别技术，将大大方便自己在这一场景对于手机的利用。

2. 满足特殊用户需求

对于视障人士来说，利用语音控制短视频也不失为很好的方式，因为通常短视频交互按钮的位置不定。

在使用软件读屏时，视障用户必须通过随机选中屏幕上的单位，左右滑动屏幕寻找目标单位，最后双击选中的单位才能完成对于视频的操作。如果用户需要加快速度，只能调整读屏语音的语速，并不能完全省略上述步骤。

而声音的指令，却能够使视障用户一步到位，轻松完成对于短视频点赞、收藏、转发等交互方式，远比通过读屏软件的实施来得方便快捷。

因此也有回答认为，如果短视频声控可以作为短视频的辅助功能面世，也能满足大部分视障人士的需求，省时省力。

02 不愿意使用

除了小部分人持愿意使用的态度，还有大部分的回答认为可以但没必要，甚至有可能带来其他的新问题：

1. 语音识别困难

短视频声控现阶段面临的第一个问题是语音识别有难度。

首先，假如用户下达了第一次语音指令，能保证一次成功吗？假如第一次的语音识别不成功，那么在进行第二次、第三次尝试的时候，会不会远不如手势操作来得快捷？

其次，应用的声纹识别功能还是有不少缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话的情形下，某个特定的声纹特征不易提取等。

但其实许多短视频App的用户一般都会用较大的音量播放视频。假如用户在外放的过程中下达了语音指令，那么这时候的手机声纹识别技术会不会出现问题，又会不会造成识别异常？这些都是短视频声控功能需要思考的方面。

2. 效率低下

正如刚才所说，虽然如今的各项语音技术已经十分趋近于成熟，但仍会受到许多局限。

在识别用户声音受限的情况下，语音指令的准确率会大幅下降，无端降低了用户的使用效率。与其把“下一个”说四、五遍之多，还不如滑动手指轻松搞定。用某个回答来说，那就是“我点一下就能解决的事，还用得了几个字、几句话？”

除此之外，语音指令和短视频的性质天生不合。

短视频既然以“短”、“快”出名，那么就少有时长超过五分钟的视频反复出现，一般不会超过一分钟，甚至不会超过三十秒。

而假设语音指令能够一次成功，用户下达指令再加上应用响应的时长也要两到三秒左右，这意味着可能每观看30秒的视频，就需要等待大约两、三秒，同样不如手指滑动方便快捷。

3. 使用场景较少

虽然声控短视频能够满足某些特殊的需求和场景，但问题在于，由于设备的局限，能够分出精力刷短视频的场景实在不多。

众所周知，手机的尺寸很有限，当距离手机过远时，使用者无法看清手机所显示的内容，也很少远距离利用手机观看视频。在双手被占用的场景，大部分人会选择用平板追剧。

因此，除非用户在洗衣、做饭过程中有着“非短视频不可”的娱乐需求，那么没人喜欢时常将手机架在身边，用语音操控。手机都无法使用，又何谈其中的使用场景。

更重要的是，在其他时间里，短视频声控同样缺乏用武之地，因为用户一般会利用“零碎时间”刷短视频。

例如，下班了，很疲惫地瘫在沙发上刷一会视频；晚上睡觉之前比较无聊，刷一会视频；排队时间太长，不耐烦的时候刷一会视频……这些碎片化的时间，通常已经是一天高强度工作、学习和生活的缝隙。这时用户和手机互动，大概率也是抱着放松的目的，因此更愿意安静地滑动手指操作，而不是发出声音控制。

4. 存在隐私问题

不知道大家有没有关注过在今年的春节前夕，微博博主@凤凰网科技在博文中提到的测试。

根据专家测试的相关结果，在用户利用手机发送语音之后，即使手部已经松开了录制按钮，很多软件依旧会继续录音一段时间。并且在实验中发现，即使软件被移至后台或锁屏，仍然会继续录音，直至该软件于后台被移除为止。

虽然无法确定许多应用到底有没有利用这一点，但唯一可以确定的是，短视频声控的风险可能比我们想象的要大更多。

如果短视频支持用户一边观看、一边下达语音指令，那是不是可以认为从打开软件到关闭软件的整个过程中，不仅用户需要一直开启麦克风，短视频应用也可以光明正大的全程录音？

因此我认为，在短视频能够进行声控操作之前，必须要解决上述安全隐患，不然很可能暴露用户的隐私，进而导致无人能用、无人敢用。

5. 容易社死

看到这里，如果你依然认为短视频声控功能的使用场景充分多样，那么只能说你错了。

不妨试想一下，原本安静的公交车、地铁上，突然传出了阵阵重复的、不大不小的声音：“下一个，下一个，下一个，下一个……”不好意思，在场的话我已经开始脚趾抓地了。因为这是短视频声控的另一个弊端：容易导致社会性死亡。

对于中老年人来讲，想要顶住压力和尴尬，在公共场合大声地自言自语不是一件简单的事，容易自己社死；而对于年轻人来说，光是外放短视频的行为就已经让人身心俱疲，现在又叠了一层声控的“Buff”，容易替其他人社死。

况且，随着社会文明的发展，对于公共场合大声喧哗、外放视频的行为，大部分人已经意识其有碍社会秩序。因此暂且不谈有没有人在公共场合使用声控功能，光是该功能引发的社会矛盾就足够棘手了。

6. 使用感欠缺

除了以上的几点之外，也有回答表示，如果短视频能够利用声音控制，那么“刷视频”将失去使用感，即互动感和沉浸感。

短视频令人“欲罢不能”的原因不仅在于用户对下一个视频内容的未知，也在于每滑动一下，就可以切换下一个视频，操作成本可以说是最低的。

这种正向的激励有利于让用户养成“上瘾”的习惯，将切换视频的过程和手部的滑动动作联系起来，和短视频形成“互动”。就像有烟瘾的人除了对尼古丁上瘾之外，也有较为明显的口腔依赖。

另外，用户使用语音控制时，可能会从短视频的沉浸感中瞬间脱出，产生“下头”的感受。

好比原本你的注意一直集中在屏幕上，就算想要切换视频也只需要动动手指，并不会打断你的视频观感和试听享受。但现在，你需要从整个氛围里短暂脱出，并且对着屏幕讲话，这不仅分散了你的注意力，也破坏了你对于视频内容的沉浸感，让刷视频这项沉浸的娱乐活动变得有些奇怪。

03 总结一下

总结下来，大家对于短视频声控的看法贬大于褒。

或许对于需要它的用户群体来说，这一功能确实有所帮助。但也正如大部分人所说，如果一个产品问世，带来的问题多于产生的效益，那么它是否能被大众接受还有待考量。如果短视频声控技术想要扩大受众群体，那就需要充分了解用户的需要、用户的担忧。

了解用户需要什么，使其做到和手势操作互补，让用户体会到它能够配合手势操作促进效率，而不是降低效率；

了解用户担忧什么，做到真正解决安全隐患，不要让声控功能变成用户头上悬而不决的双刃剑。

本文来自微信公众号“人人都是产品经理”（ID:woshipm），整理：白桃玻子，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

语音or手动，短视频需要声控吗？

01 愿意使用

02 不愿意使用

03 总结一下

最近内容

36氪AI测评

36氪项目推荐

提及的项目

沙发社交

正解问答

爱运科技

下一篇