Google IO 2024有哪些看点呢?

有了 24 小时前 OpenAI 用 GPT-4o 带来的炸场之后,今年的 Google I/O 还未开始,似乎就被架在了一个相当尴尬的地位,即使每个人都知道 Google 将发布足够多的新 AI 内容,但有了 GPT-4o 的珠玉在前,即使是 Google 也不得不面临巨大的压力。

Gemini 带来的 AI Search

Gemini 1.5 Pro 还从原本的一百万 Token 上下文升级至两百万 Token 上下文识别。这意味着在多模态处理中能处理超过三万行代码,或是超过一小时的视频文件。
在介绍了 Gemini 本身之后,就到了 Gemini 真正的长处 —— 应用内整合体验中,皮查伊先是演示了整合在相册中的功能,在停车并给车拍了照片之后,当你找不到停车的位置,可以直接问 Gemini “我的车在哪”,它就能帮你自动识别相关照片中的信息,提示你车停在了哪里。

这个功能被称为。Ask Photos,将于今年正式发布。


在 Google 办公套件中,如今也迎来了 Gemini 更深度的整合,不仅能在 Gmail 中生成线上会议纪要、在所有邮件中提取关键信息。还能与 Google 表格联动,自动整理邮件中包括的表格文件,甚至是生成一个数据分析表格。

在现场的演示中,NotebookLM 不仅能很好地充当一个老师的身份、讲述一组简单的物理课程,还能模拟两个演讲者,生成一个类似对话的讲解内容。在用户提问“你能举个例子吗”这样的问题时,实时给出一个准确的回答。让你能够更准确地掌握物理原理中的细节。

Google 同时还针对去年发布、在 Android 手机上实现画圈搜索功能的“Circle to Search”功能加入了更多教育相关的使用场景:现在这个功能已经支持识别画面中的数学题以及符号公示等复杂的内容。


看到这里我都怀疑 Google 是不是被 Microsoft 和 OpenAI 夺舍了,全是云办公竞品。今年预计年中会开源 Gemma 2,大家敬请期待。

Imagen 3

在这里插入图片描述
Imagen 3是Google最高质量的文本到图像生成模型。它能生成细节丰富、栩栩如生的图像,视觉干扰明显少于之前的模型。并且能更好地理解自然语言和提示背后的意图,结合长提示中的细微细节,掌握多种风格。它还是迄今为止Google最好的文字渲染模型,使生成个性化生日祝福和演示文稿标题页成为可能。

从今天起,Imagen 3将作为ImageFX中的私人预览提供给特定创作者,用户可以注册加入候补名单。很快,Imagen 3也将在Vertex AI上提供。

此外,Google还设计并构建了音乐AI工具Music AI Sandbox,旨在为创意打开新的天地,让人们从零开始创作新的器乐部分并以新的方式转换声音。

Veo:比Sora更强的视觉模型

Veo能够生成超过一分钟的高质量1080p视频,涵盖多种电影和视觉风格。据介绍,Veo具备高级的自然语言和视觉语义理解能力,能准确呈现细节并捕捉情感基调。它理解“延时摄影”等电影术语,提供高度创作控制,生成的镜头中人、动物和物体的运动非常真实。

Google已邀请电影制片人和创作者试用Veo,并根据他们的反馈改进技术。Veo基于Google多年生成视频模型的工作,如GQN、DVD-GAN、Imagen-Video等,结合新技术提高质量和分辨率。Veo将作为VideoFX的私人预览提供给特定创作者,所有人可申请注册候补名单,未来可能直接引入YouTube Shorts。

Imagen 和 Veo 都有他们自家的 SynthID 水印,已经有和 OpenAI Dalle 3 以及 Sora 扳扳手腕的意思了。

Google 很早就布局AI领域,研究自动驾驶(Autonomous Driving)。但是在这块领域的投资上却抱着跟闹着玩的心态,先是被 Uber 挖墙脚,后被 Tesla 量产后彻底完虐。虽然在Android上与Apple稍占优势,但是如今的 DeepMind 却在AI领域被 OpenAI 小辈牵着鼻子溜街,这或许就是硅谷大企业摆脱不了的魔咒啊。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/703328.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

malloc_consolidate

此文章用于详细介绍malloc_consolidate。 众所周知,fastbin一般是不能合并,但在malloc_consolidate中是个例外。 1.触发机制 首先构造这样的堆块结构 一个0x40的堆块在fastbin中,一个0x110的堆块在unbin中 随后我们尝试分配一个0x300的堆…

【Day3:JAVA运算符、方法的介绍】

目录 1、运算符1.1 赋值运算符1.2 比较运算符1.3 逻辑运算符1.3.1 逻辑运算符概述1.3.2 逻辑运算符分类1.3.3 短路的逻辑运算符 1.4 三元运算符1.5 运算符优先级 2、方法2.1 方法介绍2.2 方法的定义和调用格式2.2.1 方法的调用2.2.2 带参数方法的调用2.2.3 带返回值方法的调用2…

【Uniapp】简易封装提示框showToast/showModal

组件 // 封装提示框 export const showModal (content, showCancel false, title "提示") > {return new Promise((resolve, reject) > {uni.showModal({title: title,content: content,showCancel: showCancel,success: (res) > {resolve(res);},fail:…

Ubuntu 下使用 Scons 交叉编译嘉楠堪智 CanMV K230 大小核 Coremark 程序

在 Ubuntu 下使用 SCons 进行交叉编译嘉楠堪智 CanMV K230 大小核(不同的玄铁 C908 核心)的 C 程序,以 Coremark 程序为例,顺便测试一下大小核和编译器的性能。 2024年3月14日,嘉楠科技宣布推出了全球首款支持 RISC-V…

中国历史朝代顺序表(全)

三皇五帝始,尧舜禹相传; 夏商与西周,东周分两段; 春秋和战国,一统秦两汉; 三分魏蜀吴,二晋前后沿; 南北朝并立,隋唐五代传; 宋元明清后,皇朝…

秋招算法复习——5/15——三数之和

文章目录 问题描述思路分析实现代码分析与总结 问题描述 思路分析 三个之和为零,即a b c 0 ,将这个拆解为b c -a ,那就变成了两数之和问题。两重指针的模版来解决。 虽然列表中存在重复的数字,但是结果不允许存在重复的组合…

从开发板导出根文件系统并修改(Ubuntu)

前面提到过基于ubuntu-base去构建根文件系统基于Ubuntu-base构建根文件系统-CSDN博客,但是有时候我们并不需要重头开始,可以基于现有的根文件系统做调整。又或者我们直接在出厂的系统上去搭建好自己的运行环境并且编译出自己想要的程序,现在要…

SWAT模型高阶应用暨SWAT模型无资料地区建模、不确定分析及气候、土地利用变化对水资源与面源污染影响分析

原文链接:SWAT模型高阶应用暨SWAT模型无资料地区建模、不确定分析及气候、土地利用变化对水资源与面源污染影响分析https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247604401&idx4&snd2d39846dce07bee765c820de1cf92f3&chksmfa821956cdf5904…

如何通过汽车制造供应商协同平台,提高供应链的效率与稳定性?

汽车制造供应商协同是指在汽车制造过程中,整车制造商与其零部件供应商之间建立的一种紧密合作的关系。这种协同关系旨在优化整个供应链的效率,降低成本,提高产品质量,加快创新速度,并最终提升整个汽车产业的竞争力。以…

【合成孔径雷达】合成孔径雷达的多视角理解和时/频成像算法的统一解释

文章目录 一、什么是雷达成像(1)主要的遥感探测手段:光学、红外和雷达(2)从数学的角度:雷达成像主要研究什么?数据采集: y T x n yTxn yTxn信息提取: y − > x ? y…

git 拉取指定目录

指令方式 打开 git 自带的Git Bash 工具 以拉取github中 fastjson 的 /src/test/java/oracle/sql/ 目录为例 1.创建文件夹和git 初始化 cd D:/Program\ Files mkdir fastjson cd fastjson git init 2.设置允许克隆子目录 git config core.sparsecheckout true 3.添加远程…

稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图

具身智能新纪元。 *本文为稚晖君独家供稿,「甲子光年」经智元机器人授权发布。稚晖君本名彭志辉,先后任职OPPO、华为,现为智元机器人CTO、首席架构师。 在ChatGPT之后,又一个大模型概念火了——具身智能(Embodied AI)。 在学术界,图灵奖得主、上海期智研究院院长姚期…