2024 AIGC 规划:探索交互体验变革及 智能硬件基础设施篇

TL;DR

  • Run LLM/Embedding on Android: https://github.com/unit-mesh/android-semantic-search-kit

  • Inference SDK:https://github.com/unit-mesh/inference

正文:

在过去的一年时间里,国内外大中型公司都在探索、引入了 GenAI / AIGC(生成式 AI),并在 2024 年将持续探索更多的可能性。因此自 10 月起,我们(Thoughtworks)与不同公司的团队持续交流了如何规划 2024 的 AIGC,从在软件研发中应用到产品设计,再到一些新的趋势探索。

关于软件研发部分,可以参考我过去写的文章,或者我们将发布的 2024 规划 AIGC + 工程交通新文章里。

引子 :AIGC + 智能硬件 = 随身智能

在 2024 年的规划的内容里,其中最吸引人的部分是关于新交互、新体验。在这一周里,我们也看到了人们对于 Humane 这一类直接集成 ChatGPT 的产品。而作为一个工程师、架构师,我会更关注于如何去建设这样的基础设施,以便于支撑未来的产品演进。

52be74fb026b4578118c4582e92068a1.png

假设 AIGC 要引来体验上的变革,必须要引入新的 XR 设备,来提供这种能力。因此,作为探索计划的一部分,我们开始探索和构建运行在嵌入式设备的 PoC,诸如运行于 Android、iOS 上的本地搜索增强,运行于 Raspberry Pi 上的智能 AI 中枢。

端侧的智能趋势:浅析交互体验变革

9fa1748ea0a1a3276bcd14596d6d9cb0.jpeg

从现在的各种技术趋势来说,出现了更多的新可能性和新机会,等待着有缘人去引领这个时代。

多感官融合:多模态融合

从最初的 AI 聊天,逐渐演进到语音交互,甚至可以通过简单的语音指令生成出色的效果图,这预示着未来有更为广泛的可能性。AI 的涌现使得从文本生成到图像、语音、视频的交互变得愈加便捷。这种多模态的处理能力在一定程度上成为人类工作的强有力助手。

本地化智能:更强的本地 AI 运行能力

从运行在经典 Android 系统上的 LLaMA.cpp,到运行在小米手机的 1.3 B 端侧模型,再到天玑 9300 这一类可以在移动端运行大模型的芯片。当移动端拥有了更好的 GPU、AI 芯片时,Native SDK 更加完善时,移动设备将具备更多的智能能力。

专有模型:更小的模型体积

尽管,微软的《CODEFUSION: A Pre-trained Diffusion Model for Code Generation》指出的 20B 大小的 ChatGPT 3.5 Turbo 真假难辨。因此,毫无疑问:模型可以蒸馏等手段缩小到更小的模型,而更小的模型则更适合在本地运行。

XR 技术:拓展虚拟与现实的融合

尽管 Meta 的元宇宙计划和 PICO 的裁员情况,以及我目前闲置的 Oculus,似乎暗示了 XR 领域的一些波动。然而,与此同时,越来越多的 AIGC(增强与智能融合计算)设备纷纷登场,它们不仅继承了 XR 的强大能力,更为现实世界注入了新的活力。随着 AIGC 技术的不断增强,我们或许将迎来一个充满生机、数字人物云集的虚拟宇宙,取代了过去的荒无人烟。

PS:对于趋势分析来说,只要你猜想得够多,总有一个能对的。

智能化端侧的浮现:连接 “智障设备” 的智能中枢

171dfd0c9cdf3861453e28bff24c238a.jpeg

人机交互(HCI,Human-Computer Interaction):是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。而过程中,就涉及到了硬件、软件、以及用户界面设计等多个方面,旨在提供用户友好的、高效的、以及令人满意的交互体验。

在消费者市场里,比较流行的两类设备是:可穿戴设备和智能家居设计。与添加新的设备相比,在已有的这些设备里添加 AIGC 能力,显然会带来更多的智能,改善现有的智障。

可穿戴设备的中枢

10 年前,穿戴设备的入门款智能手环是没有屏幕,而 10 年后的今天,他们都有一个非常大的屏幕及低的功耗,如小米手环 8 Pro。而在现有的可穿戴设备里,大部分是增强人类能力的,诸如于采用神经网络的翻译机、没有啥智能的智能手表、智障般的随身智能智能眼镜助理等等。

而由于这些设备的能力所限,都会依托于 “手机” 作为配置端或展示端。也因此在这些设备里,手机依旧会作为一个中转型中枢所在 —— 除非,我们更愿意一天一充。

PS:不过,我的 499 小米手环与华为手表的用途几乎一致,消息提醒 + 久坐提醒。

智能家居设备的中枢

在我的家里,围绕于“智能音箱” + 30+ 左右的所谓智能设备,构建了一个智障的控制体系。而一切的根源则是由于:音箱语音解析能力的不足

而在以智能音箱为控制核心的家居设备体系里,尽管依然依赖于手机来添加新的设备。但是随着 AIGC 能力的引入,添加新设备将变得更加简单,解析用户的指令转换成特定的数据结构。只是,这一类设备的解析是交由与服务端模型交互。

而在诸如于 Apple TV 这一类具备更强计算能力的设备里,则可以使得本地化模型具备更多的可能性。

端侧的基础设施构建规划

15839b420dbaf15b530c81ba88e11cc0.png

最后,让我们回到主题上来,其实对于这一类端侧设备来说,主要分为三类:

  • 运行在类 Unix/Linux 操作系统的中枢设备。拥有比较强的 CPU、GPU、AI 能力,典型的设备是经典的 Android 家族操作系统、iOS 家族操作系统以及 HarmonyOS、HyperOS 等类 Android 的国产操作系统。

  • 其它嵌入式 Linux 操作系统设备。与我们熟知的 Android 不同的是,如今有大量的设备运行在 Linux 系统之上,诸如路由器运行在 OpenWrt 系统之上。

  • 低功耗与超低功耗嵌入式设备。这些设备通常计算资源受限,计算能力稍强的可以运行 RT-Thread、FreeRTOS 等操作系统,计算能力弱则是通过一个 main-for(;;) 来完成。

对于低功耗设备而言,它依旧是与中枢设备进行交互,所以并不会有太大的变化。唯一需要思考的是,到底要将具备什么能力?而对于类 Unix 设备来说,我们则需要构建对应的运行 AI 模型能力,至于是否需要更大的模型能力,则需要根据不同场景规划。

由于考虑到开发速度的影响,可以看到大量的设备是以 Android、iOS 系统为基础的,所以可以先以此为场景分析和构建。

典型场景所需能力分析

根据我们过往的 PC、Server 端应用开发经验,我们设计的四个 PoC 场景来构建移动端、嵌入式端的基础设施能力。诸如于:

  • AIGC 应用:IM/协同办公。只需要简单地接入 LLM 能力,构建对应的 SDK。

  • 搜索增强:本地语义化搜索。在本地拥有 embedding 能力,以在本地进行语义化搜索。

  • 端侧辅助:本地自动补全。在本地具备运行模型的能力。

  • 指令解析:智能中枢。具备一定的模型微调能力,并面向嵌入式设备优化。

而根据不同的业务领域,如金融、制造等,还会出现不同的差异化。

构建基础设施能力

62df9ff91eb5365afaa8535a924dd65b.png

考虑到跨设备能力与加密等问题,采用原生开发(诸如 Android 端采用的 C++)技术,更适合运行于在移动端,并且还拥有大量的人才能实现这一类工作。而在我们构建 SDK 的 PoC 时,以 Android + Rust 作为胶水语言来封装 C++ 库,以借助 Rust 优秀的语言能力与交叉编译(cross-compilation 能力)。

在这里,你可以看到我们构建 Android 语义化搜索的示例:https://github.com/unit-mesh/android-semantic-search-kit,包含了如何运行 Tokenizer、OnnxRuntime,以及对应的模型转换和处理。

a6af866a6858409cc5c7d8ba30cac7c6.png

随后,基于上述的 PoC,我们开始设计原生 SDK,并开始为 Flutter 等封装基础设施,即:https://github.com/unit-mesh/inference 。

总结

最后,由 ChatGPT 编写这篇文章的总结:

2024年,全球企业将不断探索生成式人工智能(GenAI / AIGC),展望未来,AIGC与智能硬件的结合将推动新的交互和体验。多感官融合、本地智能、小型模型和XR技术将改变人机交互,使设备更智能。在端侧设备方面,类Unix/Linux中枢、嵌入式Linux设备和低功耗设备都面临挑战。2024年,AIGC 和智能硬件融合将引领人机互动和智能设备发展的新时代。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/176232.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Seaborn数据可视化综合应用Basemap和Seaborn在线闯关_头歌实践教学平台

Seaborn数据可视化综合应用Basemap和Seaborn 第1关 Seaborn第2关 Seaborn图形介绍第3关 Basemap 第1关 Seaborn 任务描述 本关任务:编写一个绘制每个月销售总额的折线图。 编程要求 本关的编程任务是补全右侧上部代码编辑区内的相应代码,根据输入文件路…

优选算法精品解析

1.双指针(前后/左右双指针) 1.1 283.移动零 快排双指针的核心算法 左边所有数 < tmp,右边所有数 > tmp,以tmp这个数为标准 1.2 1089.复习零 如果一对双指针从左向右不行,那么就从右向左,换一个方向 1.3 202.快乐数 双指针中的快慢指针: slow1,fast2 1.4 11.最多盛水的…

使用Java实现一个简单的贪吃蛇小游戏

一. 准备工作 首先获取贪吃蛇小游戏所需要的头部、身体、食物以及贪吃蛇标题等图片。 然后&#xff0c;创建贪吃蛇游戏的Java项目命名为snake_game&#xff0c;并在这个项目里创建一个文件夹命名为images&#xff0c;将图片素材导入文件夹。 再在src文件下创建两个包&#xff0…

CCLink转Modbus TCP网关_MODBUS网口设置

兴达易控CCLink转Modbus TCP网关是一种用于连接CCLink网络和Modbus TCP网络的设备。它提供了简单易用的MODBUS网口设置&#xff0c;可以帮助用户轻松地配置和管理网络连接 1 、网关做为MODBUS主站 &#xff08;1&#xff09;将电脑用网线连接至网关的P3网口上。 &#xff08;…

Ubuntu22.04源码安装ROS-noetic(ROS1非ROS2),编译运行VINS-MONO

1. Ubuntu22.04源码编译安装ROS-noetic 由于22.04默认安装ROS2&#xff0c;但很多仓库都是基于ROS1的&#xff0c;不想重装系统&#xff0c;参考这两个博客安装了ROS-noetic&#xff1a; 博客1. https://blog.csdn.net/Drknown/article/details/128701624博客2. https://zhua…

飞天使-django创建一个初始项目过程

创建django项目 运行项目 运行命令 pyhont manage.py runserver 然后访问 http://127.0.0.1:8000/&#xff0c; 则可以打开本地新建的项目 虚拟环境的部署-mac 在一台计算机上可以通过虚拟环境实现多个版本Django的开发环境 安装虚拟环境工具&#xff1a;如果你的系统中没有安…

Linux(命令)——结合实际场景的命令 查找Java安装位置命令

前言 在内卷的时代&#xff0c;作为开发的程序员也需要懂一些Linux相关命令。 本篇博客结合实际应用常见&#xff0c;记录Linux命令相关的使用&#xff0c;持续更新&#xff0c;希望对你有帮助。 目录 前言引出一、查找Java安装位置命令1、使用which命令2、使用find命令3、查…

算法萌新闯力扣:x的平方根

力扣热题&#xff1a;69.x的平方根 开篇 这是一道练习二分查找的题目&#xff0c;简单但也有一些细节需要注意&#xff0c;如判断条件、溢出等。 题目链接:69.x的平方根 题目描述 代码思路 1.一开始使用暴力解&#xff0c;发现超时了&#xff0c;看了标签&#xff0c;原来又…

【图论】最小生成树(python和cpp)

文章目录 一、声明二、简介三、代码C代码Python代码 一、声明 本帖持续更新中如有纰漏望指正&#xff01; 二、简介 &#xff08;a&#xff09;点云建立的k近邻图&#xff08;b&#xff09;k近邻图上建立的最小生成树 最小生成树 (Minimum Spanning Tree&#xff0c;简称 M…

2.6 Windows驱动开发:使用IO与DPC定时器

本章将继续探索驱动开发中的基础部分&#xff0c;定时器在内核中同样很常用&#xff0c;在内核中定时器可以使用两种&#xff0c;即IO定时器&#xff0c;以及DPC定时器&#xff0c;一般来说IO定时器是DDK中提供的一种&#xff0c;该定时器可以为间隔为N秒做定时&#xff0c;但如…

文章发表 | 求臻医学发布精准肿瘤学临床试验预筛选平台

近日&#xff0c;求臻医学信息与人工智能团队研发的精准肿瘤学临床试验预筛选平台OncoCTMiner&#xff0c;在线发表于国际期刊Database: The Journal of Biological Databases and Curation (IF5.8)。OncoCTMiner集成自然语言处理&#xff08;NLP&#xff09;和大型语言模型&am…

3类主流的车道检测AI模型

2014年的一天&#xff0c;我舒舒服服地躺在沙发上&#xff0c;看着我和加拿大朋友租的豪华滑雪别墅的篝火营地&#xff0c;突然&#xff0c;一个东西出现在我的视野里&#xff1a; “着火了&#xff01;着火了&#xff01;着火了&#xff01;” 我大喊。 几秒钟之内&#xff…