[Paper Reading] StegoType: Surface Typing from Egocentric Cameras

news/2024/12/26 23:16:24/文章来源:https://www.cnblogs.com/fariver/p/18625101

目录
  • StegoType: Surface Typing from Egocentric Cameras
  • TL;DR
  • Data
    • 数据采集设备
    • 开环数据收集
    • 闭环数据收集
    • 数据容错机制Oracle
  • Method
    • Input Features
    • Backbone
    • Data
    • Loss
  • Experiment
  • 效果可视化
  • 总结与思考
  • 相关链接
  • Related works中值得深挖的工作
  • 资料查询

StegoType: Surface Typing from Egocentric Cameras

link
时间:24.08
作者与单位:

相关领域:XR text entry, ASR,action recognition
作者相关工作:
Mark Richardson: decoding surface touch typing的一作
Fadi Botros: touch insight的三作

被引次数:1
主页:无

TL;DR

本文提出一种XR场景下虚拟键盘输入的算法,通过利用XR设备26DoF追踪序列及输入文本作为训练数据,配合闭环的数据收集机制,训练出来的算法模型输入速度达到42.4 WPM,错误率UER达到7%。

Data

数据采集设备

  • 两块Sensel压感触控板利用OptiTrack追踪
  • 压感触控板表面贴纸键盘,将纸键盘按键与与压感坐标关联

开环数据收集

用户按照纸键盘输入过程无任何反馈,完全按照他们自我感觉来判断是否输入完成。这类数采训练精度始终不高24.6% -> 18.2 CER(采集40人),会引发两类问题:

  • 溢出错误(Slop errors): 用户想敲击某个键,但实际没有达到对应的物理位置,在touch insight中称为User Error,是需要算法考虑对应的容错机制的。
  • 合规性错误(Compliance errors):用户敲击某个键过程,其它指尖不小心敲到另外的按键;用户不知道敲击错误(比如误读文本,或者误敲击),所以没有及时使用退格删除。

闭环数据收集

主要解决 合规性错误 的问题,用户可实时预览敲击内容,并使用退格键来删除。同时调整压感触控板的力响应阈值,减少误触。

数据容错机制Oracle


Oracle分为on-track与off-track两种模式

  • on-track:会根据用户历史信息提示接下来要输入的字符,并将该字符响应的物理面积放大,增加用户键入该字符的成功率(一定程度上消除了slot errors),如果on-track成功,接下来会继续提示。
  • off-track:如果用户输入了非提示字符,则进入off-track模式,并将backspace的物理面积放大,直到用户删除掉所有Oracle认为错的。

Method

Input Features

  • Pose Feature: 每个指尖点选则3个mesh点(6自由度)
  • Latent Feature: 多视角时序融合之后的特征,后训练MLP从960D降维至128D

Backbone

  • Enformer模型架构组成
  • Head预测每时刻单词概率(包含no key pressed状态)
  • 时序感受野12.3s

Data

606个打字员,26.8W段数据

Loss

\(L_{CTC}\):直观想到的Loss是逐帧的CE Loss,但作者使用CTC Loss。原因:1) GT的tempstamp与观测数据不一定能很好对齐。2) 比较难界定是什么时候是按压的开始,什么时候是按压的结束。
\(L_{latency}\):将当前时刻的预测结果与前一时刻预测结果的KL散度尽可能对齐,降低延迟。

\(L_{i}\):中继监督的Loss,即中间层就开始监督CTC,后面的Layer用来精修。

Experiment

效果可视化

https://dl.acm.org/doi/10.1145/3654777.3676343
https://www.youtube.com/watch?v=bMjsFz-CdEQ

总结与思考

相关链接

引用的第三方的链接

资料查询

折叠Title FromChatGPT(提示词:XXX)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/859508.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM实战—2.JVM内存设置与对象分配流转

大纲 1.JVM内存划分的原理细节 2.对象在JVM内存中如何分配如何流转 3.部署线上系统时如何设置JVM内存大小 4.如何设置JVM堆内存大小 5.如何设置JVM栈内存与永久代大小 6.问题汇总1.JVM内存划分的原理细节 (1)背景引入 (2)大部分对象的存活周期都是极短的 (3)少数对象是长期存活…

【Obsidian】 博客园插件

搬运 原文作者:ZhangBlog 出处:https://www.cnblogs.com/aaalei/p/17926199.html由于 Markdown 语法的便捷性, 我们从繁重的排版布局工作中解脱出来, 越来越多的人开始接受这种写作方式, 该插件可以将你的 md 笔记, 方便的同步到博客园中, 即使你是使用的本地图片, 也无须担心…

【数据分析】如何构建数据分析体系?

一、数据分析体系的重要性二、如何搭建数据分析体系三、数据分析体系如何量体裁衣编者荐语: 很详细 以下文章来源于ruby的数据漫谈 ,作者ruby 摘要:在当今数字化时代,数据已成为企业决策和发展的重要依据。构建一个完善的数据分析体系,能够帮助企业从海量数据中挖掘价值,…

DDD你真的理解清楚了吗?怎么准确理解“值对象”

DDD你真的理解清楚了吗?我通过这一系列知识分享,让大家真正准确地理解DDD中这些晦涩的概念,今天探讨“值对象”这些年,随着软件业的不断发展,软件系统开始变得越来越复杂而难于维护。这时,越来越多的开发团队开始选择实践DDD领域驱动设计。领域驱动设计是一种非常优秀的软…

【AI+安全】sshd后门自动化检测 | BinaryAI在恶意软件检测场景的实践

原创 腾讯科恩实验室 腾讯科恩实验室 2024年11月12日 10:12 上海 一、引言 在网络安全攻防对抗中,攻击者经常通过在系统关键组件中植入后门程序,来获取持久的访问权限。sshd (SSH daemon) 作为管理远程登录的核心服务,是攻击者常用的目标之一。攻击者通过修改或者替sshd二进…

用Detr训练自定义数据

前面记录了Detr及其改进Deformable Detr。这一篇记录一下用Detr训练自己的数据集。先看下Detr附录中给出的大体源码,整体非常清晰。接下来记录大体实现过程 一、数据准备 借助labelme对数据进行标注然后将标注数据转换成COCO格式,得到以下几个文件其中JPEGImages存放所有图片…

8086汇编(16位汇编)学习笔记05.asm基础语法和串操作

https://bpsend.net/thread-121-1-2.htmlasm基础语法 1. 环境配置xp环境配置 1.拷贝masm615到指定目录 2.将masm615目录添加进环境变量 3.在cmd中输入ml,可以识别即配置成功dosbox环境配置 1.拷贝masm611到指定目录 2.将masm611所在目录添挂载进dosbox 3.将masm611目录在dosbo…

WinNTSetup 系统安装利器 v5.4.0 单文件版

软件介绍 WinNTSetup,系统安装利器,目前最好用的系统安装器,Windows系统安装部署工具。支持所有Windows平台,支持多系统安装、完全格式化C盘、支持创建VHD虚拟硬盘、在Windows及PE系统下运行,允许在安装前对系统进行预优化设置、集成驱动程序、启用第三方主题支持、加入无…

解决 Cannot GET /favicon.ico

一、报错 二、定位(项目所在文件夹) 三、改名(添加图片,重命名)

Java编程规范-DO / BO / DTO / VO / AO的使用

Java 开发 DO / BO / DTO / VO / AO 的作用 Java 开发中,DO(Data Object)、BO(Business Object)、DTO(Data Transfer Object)、VO(View Object) 和 AO(Application Object) 是常用的对象类型,每种类型都在特定的层次和场景中发挥不同的作用。以下是它们的定义和使用…