多模态 AI 怎么玩?这里有 18 个脑洞

news/2025/2/13 20:09:39/文章来源:https://www.cnblogs.com/Agora/p/18714343

 

 

在 RTE 开发者社区,我们会和大家一起探索全球最前沿的 Real-Time AI 技术,和最有想法的新兴场景。

 

Google 近期举办了一场名为「MultiModal Hackathon」的限时编程活动,聚焦于 多模态与 Gemini 2.0 的最新能力。活动汇聚了 200 多位开发者,共同探索多模态 AI、实时 AI、生成式视频的前沿应用。

 

联合组织方 AgentOps AI 的 CEO Alex Reibman 在 X 上分享了活动的 demo 视频片段,并介绍了每一个项目。

 

其中,既有 Z 世代才想出来的 多模态应用 ,例如梗图翻译器、动漫角色生成器、动动嘴剪出 GIF 图等;也有充分利用对 视觉理解能力 的产品,例如服装购物 AI 助手、AI 物理治疗师等;也有利用 实时对话和视频 能力的作品,譬如通过语调、肢体评测性格的 agent、技术面试官和编程助手等。

 

一起来欣赏限时创作氛围下,粗糙但是鲜活的创意吧!其中一些说不定会变成未来生活的一部分。

 

活动网页可查看项目 slide 和 GitHub 仓库:https://app.agihouse.org/events/google-20250118

 

1.动作到视频:Gesture-to-video 丨第一名

 

通过结合 Gemini 视频理解和 Veo2 技术,识别视频中的动作,并将这些动作转换成动漫风格的视频内容。

 

开发者:aliceheimanhttps://x.com/aliceheimanxyz

 

 

2. 视频生成对比:Firefly vs Veo2

 

比较 Adobe Firefly 与 Veo2 对相同提示的输出,与此同时,可能会产生一些有趣的结果。

 

 

3.技术面试官:Tech Interview 丨 Windsurf 赛道第三名

 

结合 Gemini 打造类似 LeetCode 风格的技术面试官和编程助理。

 

开发者:Rohan Katakamhttps://x.com/rohan_katakam

 

 

4.梗图翻译:Meme Lingo

 

使用 Gemini 多模态视觉,将外语表情包翻译成英语(或选择的任何语言)。Meme Machine Learning!

 

开发者:Xiaohan Yanghttps://x.com/Azura_xh

 

 

5.性格评估:Personality Assessment 丨 AgentOps 赛道获奖作品

 

能够基于用户的语调和肢体语言来评估其性格特征。

 

 

6.推特机器人:Twitter Bot

 

这是一个从零开始构建,通过 Gemini 2 控制浏览器在推特上发布内容的推特机器人。

 

开发者:Matthttps://x.com/m13v_

 

 

7.Computer Use 智能体:Computer Use Agent

 

 

这是一个通过 Gemini Flash 控制并且安全开源的 Computer Use 智能体。

 

开发者:James Murdzahttps://x.com/jamesmurdza

 

8.购衣助手:AI Outfit Suggestion

 

这是一个名为「AI Outfit Suggestion」的 AI 购物助手,它利用人工智能技术提供个性化的服装建议。用户可以简要描述自己和自己的风格,该助手会返回类似的购物商品的亚马逊链接。

 

 

9.视频专辑生成:WanderLoom丨第二名

 

利用多模态视觉、位置、活动和时间信息,智能生成旅行和生活视频短片。

 

开发者:Vikram Subbiah、The Why Man (Anand Vallamsetla)https://x.com/tiovikramhttps://x.com/thewhyman

 

 

10. AI 老师:TeachMe!

 

AI 辅导老师,能够帮助测验学生并确保他们在继续学习之前掌握一门学科的所有方面。

 

 

11.冥想课程生成器:Personalized Meditation Generator

 

这款 AI 引导的冥想应用,能够根据您当前的生活状况构建课程。

 

 

12.服务中小型商户的广告生成器 Quick and Affordable Ad Creation for SMBs

 

AI 广告生成器,可接收产品描述并生成针对特定市场段的高质量 Veo2 定制视频。

 

 

13.运动补剂分析:Sweat

 

扫描运动前补剂的标签,立即查看成分、它们的效果以及能量、专注度和耐力等关键品质的分解。此外,还可以阅读评论和查看用户评分。

 

开发者:sunnyhttps://x.com/SunnyWangAI

 

 

14.事实核查服务:Ground Truth 丨第三名

 

为辩论和可能存疑的视频内容提供实时 YouTube 视频事实核查服务。开发者:Ayush Khandelwal;justinLLM

 

https://x.com/ayushkhd ;https://x.com/heyjustinai

 

 

15. AI 物理治疗师:Evi: AI Physio Therapist

 

AI 物理治疗师,根据您的状况创建指导性练习,并跟随您的动作来更新计划。

 

 

16. AI 生成推特社区笔记:3M

 

多模态的推特 moderator。AI 角色,负责阅读推文并判断内容是否事实正确或提供背景信息。

 

 

17.提示词剪辑视频成动图:GIF Anything

 

描述一个场景并分享一个视频链接,Gemini 将在幕后剪辑视频以创建一系列可分享的 GIF。

 

开发者:Frieda Huang、Tom、Devin Ersoyhttps://x.com/JYFHuanghttps://x.com/tomgregorsamsahttps://x.com/DevinErsoy496

 

 

18. AI 时代的 Stack Overflow:Trieoverflow丨Windsurf 赛道第二名

 

Stack Overflow 的进化版,它整合了多个网络大型语言模型 LLMs 无法直接引用的资源(如 Discord),并允许用户为他们发现的 bug 添加解答,以帮助遇到相同问题的后续用户。

 

开发者:Vikranth Kanumuruhttps://x.com/kanlanc

 

 

编译:qqq、鲍勃

 

原文:https://x.com/alexreibman/status/188624035729549729

 

 

更多 Voice Agent 学习笔记:

 

AI 重塑宗教体验,语音 Agent 能否成为突破点?

 

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

 

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/883381.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Svelte 最新中文文档翻译(7)—— snippet 与 @render

前言 Svelte,一个非常“有趣”、用起来“很爽”的前端框架。从 Svelte 诞生之初,就备受开发者的喜爱,根据统计,从 2019 年到 2024 年,连续 6 年一直是开发者最感兴趣的前端框架 No.1:Svelte 以其独特的编译时优化机制著称,具有轻量级、高性能、易上手等特性,非常适合构…

基环树 DP:学习笔记

总述 定义 基环树,是一个 \(N\) 个点和 \(N\) 条边的连通图,特征是图中有且仅有一个环。特别的,如果不连通且每个连通块的点数和边数都相等,那么这就是一个基环树森林。 基环树 DP,顾名思义,就是在一个基环树上 DP,或是 DP 的结构类似基环树。相对于正常的树型 DP,一般…

数字孪生如何让GIS场景视效瞬间高大上?带你了解鲸孪生中的GIS系统

GIS与数字孪生的结合非常紧密,而山海鲸可视化作为一个数字孪生平台,也将GIS系统整合在了鲸孪生功能之中。 GIS中包含了大量的数据,例如遥感数据、地形数据、倾斜摄影数据等,能够为数字孪生系统提供非常好的补充。同时,传统的GIS系统整体视觉效果相对较差,与其他模型和数据…

2 分支 多个思路

利用分支,你就可以在同一个代码基础上同时处理多个完全没有关联、相互独立的工作。考虑以下场景。 假设你正在改一个 Bug-A,此时已经产生了大量的代码修改,并且离修复完成还有很长一段时间(起码得明天)。此时,有一个着急但简单的 Bug-B 需要你立即完成,并在一个小时内同…

记录一种DAG计数方法与一个配套技巧

记录一种DAG计数方法与一个配套技巧 定义 \(f_S\) 表示集合 \(S\) 中的点构成的合法 DAG 子图的方案数。假设找到 DAG 中一个入度为 \(0\) 的节点 \(x\),那么很明显 \(f_S=\sum_{x}f_{S\setminus \{x\}}\),这明显要算重因为 \(S\setminus \{x\}\) 中也有入度为 \(0\) 的点。 …

野鸡题手写题解整合

浴谷正在蒸蒸日上,专栏区怕是马上要倒闭了。 CF2026F 题 题。题外话:这场有点水平,E 题让我重拾了最大权闭合子图的记忆。 首先考虑没有这个可持久化(只有 \(2,3,4\) 操作)怎么做。\(0/1\) 背包问题,动态维护当前的 dp 数组 \(f_i\) 表示总体积 \(\sum p\) 不超过 \(i\) …

鸿蒙开发:了解@Builder装饰器

@Builder装饰是鸿蒙UI开发中,非常重要的一个装饰器,在实际的开发中,合理且正确的使用,能够让我们的代码更加的简洁前言本文代码案例基于Api13,温馨提示:内容相对来说比较简单,如果您已掌握,略过即可。如果说一个页面中组件有很多,我们都统一写到build函数中,显而易见…

P1020 [NOIP 1999 提高组] 导弹拦截(dilworth)

这道题真的做的我鬼火冒,尤其是这个第二问要用到dilworth但是我看讲解完全不知道他们在讲什么,我看了好久才理解,一个数组至少可以由几个不增子序列覆盖就等于严格单调递增的最长子序列的长度,如果是至少可以由几个严格递减子序列覆盖就等于最长单调不减子序列的长度,然后…

Linux系统介绍

1. Linux介绍 Linux和windows一样也是一个操作系统,但是与windows不同的是,Linux是一套开放源码的代码程序、并且可以自由传播的类unix操作系统软件。 Linux系统主要被应用于服务端、嵌入式开发和个人PC桌面3大领域,一般的WEB项目都是部署在Linux操作系统上。 Linux是一个基…

Linux驱动---按键

文章简述了Input子系统架构,讲解了输入设备驱动开发流程,探讨了按键消抖方法及按键驱动开发要点,为嵌入式开发提供参考。目录一、Input子系统1.1、简介1.2、Input子系统构成1.3、input_dev结构体二、输入设备驱动开发流程2.1、分配和初始化输入设备2.2、注册设备2.3、事件上…

Android studio:flutter开发环境配置

Make Android apps | Flutter 下载flutter,并配置环境变量 右击 此电脑->属性->高级系统设置->环境变量在 用户变量 新建两个变量 变量名:FLUTTER_STORAGE_BASE_URL 变量值:https://storage.flutter-io.cn 变量名:PUB_HOSTED_URL 变量值:https://pub.flutter-io.c…