想不到吧，emoji也可以说出来 [打字系列Vol.5]

这是打字系列的第四篇文章，介绍一下自己的工作！

大家可能都用过语音输入来打字，但是除了文字，表情是不是也可以用语音说出来呢？

# 一句话总结

许多人会在不方便的时候使用语音输入法。Voicemoji 可以让用户通过说关键词的方式来输入表情，来帮助视障以及运动障碍的用户更方便地使用emoji。

谁会用到语音输入

语音输入，又名听写，也就是通过说话来打字的输入方式，可以通过键盘上的话筒按钮激活。日常生活中你可能很少用到它，毕竟在公共场合下说”哈哈xswl“还是很羞耻的。然而当你走路，骑车，开车，或者懒得打字的时候，就会情不自禁的点击那个小话筒。相比与打字，听写的方式更像是一种锦上添花的点缀。

然而对于另一群用户而言，语音输入不可或缺。例如视力障碍用户由于看不清键盘，经常会用语音输入来打字；运动障碍（比如无法使用双手）的用户更是要依赖语音来进行各种操作。老年人，比如我们的长辈，也可能因为不熟练拼音或者键盘而使用手写或者语音——总而言之，语音输入是一种非常重要的输入方式。

另外，如果你在和男/女朋友吃饭，收发信息时用语音输入也可以证明自己的清白（大误。

视障用户会用emoji吗

我在做这个项目的时候，主要是调研了视障用户的群体。既然我们的目的是可以用语音输入emoji，那么第一个要回答的问题就是：视障用户会用emoji吗？因为emoji属于表情，表情是用来看的。如果他们压根不用，那”语音输入表情“也就是个伪需求了。

通过我们的采访，发现视障用户不仅会用emoji，而且还会斗图！我们发现大部分用户每天不仅会收到别人发来的表情，而且自己也会使用emoji。然而他们大都只发十个左右常用的表情，例如（微笑），♥（爱心），（笑哭），（感谢）这些意义明确的emoji，而很少用到其他例如（老子）（小丑竟然是我自己）这种含义奇怪的表情，很大一部分原因是，他们根本不知道有这些emoji。

到今天为止，已经有三千多个emoji被设计出来，这个数字每年都在增长。我们在输入emoji的时候，会进入一个类似列表一样的界面，几十个emoji排成排，大眼一扫就能知道选择哪一个。键盘也会对这些表情进行分类，来方便查找。

这种设计，对于使用读屏软件的视障用户来讲，简直是灾难。因为读屏软件每次只能读一个emoji的描述，他们需要不断地在屏幕上进行滑动来一个一个地听，直到找到想要的那个。对于常用的熟悉了位置的emoji还好，但是对于另外几千个乱七八糟的emoji来讲，找到它们往往要花上几分钟甚至十几分钟，最后经常因为找不到只好作罢。

另外一个小提示，虽然视障用户也会发表情包，但读屏软件对于gif这种会动的表情支持并不友好，因此如果你和他们聊天，请尽量避免发送动图哦。

Voicemoji：把emoji说出来

铛铛铛！展示我的工作——Voicemoji [1] 的时刻到了！Voicemoji是一个能够让用户用语音输入emoji的系统，废话不说，先看展示：（不好意思没做中文。。。

Voicemoji12 播放 · 0 赞同视频

Voicemoji通过识别关键字来输入表情，比如当用户说“给我一个下雪的表情”时，Voicemoji会识别到“给我一个”和“表情”这两个关键词，然后就把中间的描述“下雪”来转换成emoji。听起来是不是很自然？比如你也可以说“给我一个小丑竟然是我自己的表情”来获得一个，再也不用花十几分钟去表情键盘里找了！Voicemoji，用语音来输入emoji_哔哩哔哩 (゜-゜)つロ干杯~-bilibiliVoicemoji通过识别关键字来输入表情，比如当用户说“给我一个下雪的表情”时，Voicemoji会识别到“给我一个”和“表情”这两个关键词，然后就把中间的描述“下雪”来转换成emoji。听起来是不是很自然？比如你也可以说“给我一个小丑竟然是我自己的表情”来获得一个，再也不用花十几分钟去表情键盘里找了！

在提供关键词搜索表情的功能以外，Voicemoji也会根据说话的内容来推荐表情。比如你说了“今天中午我吃了牛肉面”，虽然没有明确要输入某个emoji，但是Voicemoji会返回和这句话相关的一些表情，例如。对于视障用户的好处是，这种推荐会让他们了解有哪些新的表情可以使用，从而不仅仅只用到最常用的那些emoji（推荐的机制详情请移步硬核时刻）。

在实验中我们找到了来自中国和美国两地的视障用户来使用Voicemoji，发现用语音输入表情（平均耗时4.7秒）要比用传统的键盘方式（平均耗时53.7秒）快了十倍以上！而且大家发现表情推荐的功能很好用，让他们学会了许多以前不熟悉的emoji。

硬核时刻：emoji 预测

这里是硬核一点的知识，面向想要进一步了解的同学们：）

Voicemoji 会通过所说的内容来预测相关的 emoji。这是怎么做到的呢？预测的技术涉及到NLP（自然语言处理）中的embedding（词向量）。通俗一点来讲，就是用数学中向量的方式来表示每一个单词，这样就可以通过一些计算，例如向量求和，求夹角，来找到和某一个词类似的其他词汇。

预测 emoji 也就是先通过把 emoji 向量化，然后找到和所说内容最接近的 emoji 向量。最常用的词向量技术是使用深度学习的模型，例如word2vec。Voicemoji 中用到的模型来源于 Deepmoji [2]，感兴趣的同学可以去读一读原paper。

————————————————————

Voicemoji 不仅仅是针对视障用户设计的，更重要的是，它提供了一种不用打字也能输入非文字信息的思路。当然，除了emoji以外，许多动图、表情因为没有规范的描述，依然缺乏有效的输入方式。也希望如果有做输入法的大厂们看到了这篇文章，可以考虑一下在自己的产品中加上语音输入emoji的功能，嘿嘿。

本文引用 [1] Mingrui ``Ray'' Zhang, Ruolin Wang, Xuhai Xu, Qisheng Li, Ather Sharif, Jacob O. Wobbrock: Voicemoji: Emoji Entry Using Voice for Visually Impaired People, 2021 [2] Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, Sune Lehmann: Using millions of emoji occurrences to learn any-domain representationsfor detecting sentiment, emotion and sarcasm, 2016 [3] Instagram Engineering: https://instagram-engineering.com

上一页十指打字一定比一指禅快吗？[打字系列Vol.4]下一页手写笔的不完全发展史[触屏系列 Vol.3]

最后更新于1年前

这有帮助吗？

# 一句话总结

目录

谁会用到语音输入

视障用户会用emoji吗

Voicemoji：把emoji说出来

硬核时刻：emoji 预测