在这里插入图片描述

0 年度科技盛会

2023Google开发者大会在上海浦东举办，为开发者和科技爱好者们带来新技术、新产品、新动向

可能很多同学对Google 开发者大会还不熟悉，Google 开发者大会是 Google 展示最新产品和平台的年度盛会，为开发者提供丰富的学习资源、实践操作和现场演示，提供与Google专家互动、与其他开发者交流的契机，助力开发提效，释放团队创造力，简化工作流程，以开放式集成解决方案为开发者效力，共同构建创新生态，开启美好未来。

本次大会有三大核心亮点

新知同享
通过大会主旨演讲，以及涵盖Mobile开发、Cloud开发、Al开发、Web开发的专题演讲，来自Google的专家们分享了领域内新的见解和最佳实践，帮助开发者收获技术新知识、实现技术进阶
灵感齐聚
大会设置了炉边对谈、工作坊和技术问答环节，带来形式多样、频次密集的交流互动机会。现场40多个技术与产品趣味互动展示，也带来最新技术的应用场景和创新的交互体验。这些互动和体验都能帮助开发者激发新思妙想，促进创新思维
多元共进
大会特别呈现演讲，展现了Google为不同人群(有障人士、女性开发者、出海开发者、初创从业者等等)提供丰富学习资源，带来成长机会；大会携手开发者社区举办各类丰富多彩的活动，帮助开发者通过多元形式进阶成长

本次大会的一个亮点是融合了非常多的中国元素，比如门口的红色大鼓、灯笼，还有走进敦煌、观妙中国等体验项目。这种前沿技术和传统文化的结合，向我们展示了高科技离我们并不遥远，它可以就在我们的身边，可以离我们很近

在这里插入图片描述

接下来，介绍本次大会的一些令我印象深刻的内容

1 生成式机器学习

我们知道，机器学习模型主要分为两类：

判别式模型(discriminative models)
生成式模型(generative models)

对于给定样本 $\boldsymbol{x}$ ，前者通过对后验概率 $P\left( \hat{y}|\boldsymbol{x} \right)$ 建模求得数据的最优决策边界；后者通过对联合概率 $P\left( \boldsymbol{x},\hat{y} \right)$ 建模求得数据各模式的决策边界。

在这里插入图片描述

机器学习模型的分类(绿色为新样本)

如图所示，判别式模型通过最优决策边界计算 $P\left( \hat{y}|\boldsymbol{x} \right)$ ，并选择使 $P\left( \hat{y}|\boldsymbol{x} \right)$ 较大的 $\hat{y}$ 作为 $\boldsymbol{x}$ 的预测值；生成式模型通过比较样本 $\boldsymbol{x}$ 与模型各模式间的相近程度，即通过联合概率间接计算样本 $\boldsymbol{x}$ 对各模式的后验概率，并选择使后验概率较大的 $\hat{y}$ 作为 $\boldsymbol{x}$ 的预测值

生成式模型和判别式模型是两种截然不同的人工智能模型。判别式模型的主要任务是对给定输入进行分类或标记，而生成式模型则是根据给定的条件生成新的数据。在过去，人们只希望基于已有的给定数据做一些预测和拟合，因此判别式模型得到发展并且很好地解决了大部分任务；而未来，人们将目标转向用生成式模型生成全新数据，进行迁移学习等，也就是常说的人工智能生成内容(AI Generated Content, AIGC)

在这里插入图片描述

为什么我们需要生成全新数据？

答案很简单：我们希望提高人工智能的工作上限，就不能仅仅依靠它对已有数据的拟合，而是像人一样有一定的创新能力。

生成式模型相比判别式模型的独特优势，使之可以应对更多的任务，例如推动内容开发、视觉艺术创作、数字孪生、自动编程，甚至为科学研究提供AI视角、Al直觉…因此生成式人工智能的未来发展趋势。

本次大会展示了非常多AIGC方面的demo，一个大家比较熟悉的例子是AI绘画，在这个互动演示中，Google展示了在Google Kubernetes Engine(GKE)上部署Stable Dffusion的强大能力和可扩展性。与会者将亲眼目睹在Stable Diffusion最受欢迎的Web界面上实时生成高质量图像的过程

在这里插入图片描述

2 无障碍游戏体验

Google的技术氛围是具有包容性和国际视野的，其产品往往会考虑不同人群的实际需要。举例而言，Google推出的MST肤色量表(Monk Skin Tone Scale)可以保证面部识别、目标检测等技术对不同肤色的人群不存在偏见。

在这里插入图片描述

另一个实例是通过面部识别技术为有障人士提供更好的游戏体验。本次大会上，Google Gameface联合《荒野行动》，将机器学习和传统编码相结合，以解决面部检测和面部地标提取的挑战，并将这些信息转化为鼠标遥测的代码。通过检测玩家的面部表情和动作，游戏可以更好地理解玩家的情感和动机，从而根据这些信息提供更个性化的游戏体验。包括自动调整游戏难度、创建更具互动性的游戏角色或者提供更逼真的虚拟现实体验。

在这里插入图片描述

对有障碍人士而言，他们可以利用面部动作来代替手部操作，从而参与游戏，表达自己的情感和意愿。这种互动性能够增强他们在游戏中的参与感和满足感，享受游戏的乐趣。同时，面部表情控制游戏可以帮助他们更好地表达自己的情感，与其他玩家或角色进行情感交流。这种交流方式能够增强社交互动，减少沟通障碍。

每个人的面部表情和动作都是独特的，能否将自己的个性特点融入游戏，游戏则根据面部表情来调整角色行为或反应，使游戏体验更加个性化和独特？期待Google未来在这方面的技术动向。

3 跨平台机器学习

GoogleMediaPipe是一款用于构建跨平台、基于机器学习的视觉与感知应用程序的机器学习模型框架。它可以帮助开发人员轻松地构建AI应用程序，如物体检测、姿势估计、虚拟试衣和手部跟踪等。作为一款跨平台框架，MediaPipe不仅可以被部署在服务器端，更可以在多个移动端 (安卓和苹果 iOS)和嵌入式平台(Google Coral和树莓派)中作为设备端机器学习推理框架。MediaPipe提供了一系列机器学习管道和计算单元，以处理多种不同类型的感知数据，例如视频、音频和深度图像数据。同时，它还提供了大量的预训练模型和工具，使开发者可以快速构建高质量的视觉应用程序，而不需要编写复杂的算法和代码。

在这里插入图片描述

除此之外，MediaPipe还为开发人员提供了模块化的流水线视图，以及可以自定义的机器学习管道和组件，这些功能可以帮助开发人员更好地理解和调试他们的应用程序。此外，在移动设备上部署应用程序时，MediaPipe还优化了硬件和软件的配合，以实现更快的性能和更低的功耗。

总的来说，MediaPipe是一个强大且易于使用的开源框架，它可以帮助开发者轻松构建各种不同类型的视觉应用程序，并且在跨平台和性能方面都有良好的表现。在Google，一系列重要产品，如YouTube、Google Lens、ARCore、Google Home 等，都已深度整合了MediaPipe

Google的Web ML技术也采用了MediaPipe，它使开发者可以创建更快、更安全和更智能的Web应用程序。与传统的机器学习应用不同，Web ML技术在安全方面有显著的优势。首先，机器学习模型可以在用户设备上本地运行，而不需要将敏感数据上传到云端进行处理。这意味着用户的数据可以得到更好的保护和隐私，并减少了数据泄露的风险。其次，通过在用户设备上进行机器学习推理和推断，Web ML技术可以减少与云端通信的需求，从而降低了网络传输过程中的数据被窃取或篡改的风险。
此外，Web浏览器提供了一个沙箱环境，用于隔离和限制JavaScript代码的访问权限。这可以防止恶意代码对机器学习模型或用户数据的篡改或滥用。

目前Web端机器学习也成为机器学习应用的新方向