- StegoType: Surface Typing from Egocentric Cameras
- TL;DR
- Data
- 数据采集设备
- 开环数据收集
- 闭环数据收集
- 数据容错机制Oracle
- Method
- Input Features
- Backbone
- Data
- Loss
- Experiment
- 效果可视化
- 总结与思考
- 相关链接
- Related works中值得深挖的工作
- 资料查询
StegoType: Surface Typing from Egocentric Cameras
link
时间:24.08
作者与单位:
相关领域:XR text entry, ASR,action recognition
作者相关工作:
Mark Richardson: decoding surface touch typing的一作
Fadi Botros: touch insight的三作
被引次数:1
主页:无
TL;DR
本文提出一种XR场景下虚拟键盘输入的算法,通过利用XR设备26DoF追踪序列及输入文本作为训练数据,配合闭环的数据收集机制,训练出来的算法模型输入速度达到42.4 WPM,错误率UER达到7%。
Data
数据采集设备
- 两块Sensel压感触控板利用OptiTrack追踪
- 压感触控板表面贴纸键盘,将纸键盘按键与与压感坐标关联
开环数据收集
用户按照纸键盘输入过程无任何反馈,完全按照他们自我感觉来判断是否输入完成。这类数采训练精度始终不高24.6% -> 18.2 CER(采集40人),会引发两类问题:
- 溢出错误(Slop errors): 用户想敲击某个键,但实际没有达到对应的物理位置,在touch insight中称为User Error,是需要算法考虑对应的容错机制的。
- 合规性错误(Compliance errors):用户敲击某个键过程,其它指尖不小心敲到另外的按键;用户不知道敲击错误(比如误读文本,或者误敲击),所以没有及时使用退格删除。
闭环数据收集
主要解决 合规性错误 的问题,用户可实时预览敲击内容,并使用退格键来删除。同时调整压感触控板的力响应阈值,减少误触。
数据容错机制Oracle
Oracle分为on-track与off-track两种模式
- on-track:会根据用户历史信息提示接下来要输入的字符,并将该字符响应的物理面积放大,增加用户键入该字符的成功率(一定程度上消除了slot errors),如果on-track成功,接下来会继续提示。
- off-track:如果用户输入了非提示字符,则进入off-track模式,并将backspace的物理面积放大,直到用户删除掉所有Oracle认为错的。
Method
Input Features
- Pose Feature: 每个指尖点选则3个mesh点(6自由度)
- Latent Feature: 多视角时序融合之后的特征,后训练MLP从960D降维至128D
Backbone
- Enformer模型架构组成
- Head预测每时刻单词概率(包含no key pressed状态)
- 时序感受野12.3s
Data
606个打字员,26.8W段数据
Loss
\(L_{CTC}\):直观想到的Loss是逐帧的CE Loss,但作者使用CTC Loss。原因:1) GT的tempstamp与观测数据不一定能很好对齐。2) 比较难界定是什么时候是按压的开始,什么时候是按压的结束。
\(L_{latency}\):将当前时刻的预测结果与前一时刻预测结果的KL散度尽可能对齐,降低延迟。
\(L_{i}\):中继监督的Loss,即中间层就开始监督CTC,后面的Layer用来精修。
Experiment
效果可视化
https://dl.acm.org/doi/10.1145/3654777.3676343
https://www.youtube.com/watch?v=bMjsFz-CdEQ
总结与思考
无
相关链接
引用的第三方的链接