因吹斯汀!只需上传照片,GPT-4V精准识别食物的卡路里和摄入热量

健身和减肥的朋友有福啦!

最近一篇文章探索了GPT-4V在膳食评估领域的强大能力,可以根据饮食图片精准判断食物的种类与重量,并给出营养成分的分析,包括碳水化合物、蛋白质、脂肪占比。

最最重要的是,它还能告诉我们这些食物的卡路里是多少,这对于我们减肥的朋友来说可是超级重要的!

你可以上传吃之前和吃之后的图片,GPT-4V可以轻松判断摄入了多少热量。

比如提供这两张图片:

图片

给模型一些任务提示:

识别提供的图像中的食物类型,包括食用前和食用后。使用周围的对象作为近似分量大小的参考。为每一类食物的摄入量提供合理的克数估计。请注意,这些食品来自加纳和肯尼亚。

输出结果:

为了估算份量,我将使用杯子和盘子作为参考,假设盘子是标准的餐盘大小,直径约为10-12英寸。以这些物体为尺度,我们可以做出以下估计: 食物1(炸鱼):初始份量约400克;消费份量约300克。食物2(淀粉类配菜,可能是banku或fufu):初始份量约300克;消费份量约250克。食物3(番茄酱):初始份量约150克;消费份量约75克。食物4(洋葱片):初始份量约50克;消费份量约20克。

看看营养成分呢:

计算一下300g炸鱼、250gbanku、75g番茄酱和20g洋葱片的营养成分,包括碳水化合物、蛋白质、脂肪和卡路里。请以下列格式列出结果:碳水化合物:[g],蛋白质:[g],脂肪:[g],卡路里:[千卡]。

输出:

300克炸鱼包括0克碳水化合物,78克蛋白质,33克脂肪,606千卡的热量。250g的banku含有120g碳水化合物,4.5g蛋白质,1g脂肪,527.5千卡热量。75g番茄酱,包含3g碳水化合物,0.75克蛋白质,0.225克脂肪,15千卡的热量。20g洋葱片含有1.8克碳水化合物、0.22克蛋白质、0.02克脂肪和8千卡热量。

它还能像个营养小贴士一样,告诉我们饮食中缺少了哪些营养,并给出合理的建议。这样我们就可以更好地调整自己的饮食。

这顿饭缺少什么营养,吃什么来补充呢?

图片

输出:

根据您提供的图片,这顿饭包括米饭和鸡肉,这可能提供了大量的碳水化合物、蛋白质和脂肪。然而,它似乎缺乏一些纤维和维生素:纤维:没有可见的蔬菜或水果,而这些是提供膳食纤维所必需的。为了增加纤维摄入量,可以考虑加一份混合蔬菜或新鲜沙拉。维生素和矿物质:新鲜水果和蔬菜也是维生素和矿物质的重要来源。乳制品或钙源:没有乳制品或其他富含钙的食物。可以从牛奶,奶酪,酸奶,或钙强化植物选择一份增加钙含量。

看着还挺像那么回事,有了GPT-4V督促,就不用担心一不小心吃多啦!

图片

但上面只是一些例子参考,GPT-4V在膳食评估方面的准确性到底如何呢?本文的作者还进行了多个数据维度的详细定量分析,让我们一起来了解一下吧!

论文标题:
Dietary Assessment with Multimodal ChatGPT: A Systematic Analysis

论文链接:
https://arxiv.org/pdf/2312.08592.pdf

实验数据

作者使用了居住在伦敦的肯尼亚和加纳裔成年人的饮食摄入数据。为每位参与者分配了eButton或AIM摄像机被动记录他们的饮食摄入量。使用标准化的Salter breknell体重秤记录食物初始重量和吃饱后剩余的食物重量。配备经验丰富的营养师作为人工评估基准,与GPT-4V的结果进行比较。

实验结果

食物检测能力

首先来看看GPT-4V能否准确识别食物的类别。

作者对比了是否包含食物来源信息的提示下的模型性能。从结果可以看出,指明食物来源可以显著提高语言模型的能力,准确识别特定文化的食物,**准确率达到了87.5%**,相比不说明食物来源提高了十几个点。

图片

当食物来源未指定时,GPT-4V经常错误将白色淀粉类食物误分类为米饭。当说明了食物来自肯尼亚或加纳时,模型能准确将食物识别为banku或ugali,这是传统的非洲食物。

食物分量估计

下图展示了三种方法包括GPT-4V、人眼估计和基准真值对食物分量的估计,图中观察到的趋势表明,GPT-4V的预测通常与基准真值非常接近。

图片

作者进一步使用绝对误差的度量来比较GPT-4V和人类估计。GPT-4V的估计的平均绝对误差为54.6g。相比之下,人类估计准确性稍微更高一些,平均绝对误差为43.6g。但也说明GPT-4V的表现与人类非常接近

图片

营养成分估计

在估算出食物分量之后,作者利用GPT-4V模型将食物的重量转化为特定的营养数据,重点关注关键的膳食成分:碳水化合物,蛋白质,脂肪和卡路里。获取的结果与真实值进行比较。

下表展示了10个不同膳食的分量和营养成分估计误差。可以看到,营养估计的准确性在很大程度上取决于分量估计的准确性。

图片

下图显示了GPT-4V预测32种食物的碳水化合物、蛋白质、脂肪和卡路里含量的预测结果,并与真实值进行对比,可以看出,GPT-4V预测的趋势在大部分食物上与真值一致

图片

处理低可见图像的能力

本文还突显了GPT-4V处理低可见度图像(如在黑暗环境中拍摄的图像)的能力。

图片

在光线暗的地方,如果没有足够的语境提示,GPT-4V可能倾向于会把食物当成米饭或面包这类常见的食物。但是,当我们给了它一些关于食物来源的信息时,它就能准确地识别出来,比如banku和ugali这种传统的非洲食物。

结论

本文分析了GPT-4V在膳食评估中的潜力。即使在没有使用特定食物数据集进行微调或适应的情况下,GPT-4V在食物检测方面准确率高达87.5%。另外GPT-4V可以利用周围的物体作为比例参考来推断食物项目的份量大小,进一步提高将食物重量转化为营养含量的准确性。

虽然GPT-4V很强大,但还不能完全解决复杂的空间关系和精确空间分析任务。比如,它对于估算食物的体积或分量不太准确,因为这需要三维感知能力,超出了它的能力范围。在本文的实验中发现它对重量不到30g的食物类别难以准确估计。

即便如此,它的表现也几乎达到了人类水平。期待未来版本的GPT-4V能更稳健,为我们提供更准确的膳食摄入评估。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/300704.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c语言的初始学习(练习)

##初学c语言---MOOC浙江大学翁恺先生学习c语言 那么我们先看看这个题目吧,这是初始语法的应用。 记住,我们的程序是按步骤执行的,并不是在不同的两行同时进行。 程序设计:1.了解题目的需要,几个变量需要用到&#x…

App应用如何在应用市场获得更多下载量?

App的转化率至关重要,App如何获得更多用户,提高应用的下载量? 据 Apple 称,每周有 6.5亿访问者访问应用商店,77%的应用下载来自 iOS 应用商店的自然搜索。随着 Apple 默认关闭了IDFA,自然搜索比以往任何时…

众和策略:12月新批国产网游版号数量过百

上星期五(22日),A股冲高回落,三大股指挨近午盘拉升走高,午后再度回落走低,沪指尾盘跌幅收窄。到收盘,沪指跌0.13%报2914.78点,深成指跌0.39%报9221.31点,创业板指跌0.37%…

怎么判断台灯是否护眼?分享适合考研使用的护眼台灯

虽然台灯是家家户户都会有的一盏照明设备,但是很多人并不是了解自家台灯是好是坏,能不能护眼等等。其实台灯是非常有讲究的,如果长期使用一些不合格、劣质的台灯,会让我们在不知不觉中造成视力损伤,从而导致近视。 也…

【软考中级】网络工程师:8.网络安全

本章考察内容比较广泛,考题对知识点都会有所涉及。 8.1 网络安全的基本概念 8.1.1 网络安全威胁的类型 窃听 这种情况发生在广播式网络系统中,每个节点都可以读取数据,实现搭线窃听、安装通信监视器和读取网上的信息等。 假冒 当一个实体…

AIGC重塑教育:AI大模型驱动的教育变革与实践

目录 引言 AI与教育工作者 ​教育资源不平衡 引言 AI正迅猛地改变着我们的生活。 根据高盛发布的一份报告,AI有可能取代3亿个全职工作岗位,影响全球18%的工作岗位。在欧美,或许四分之一的工作可以用AI完成。另一份Statista的报告预测&…

百度Apollo五步入门自动驾驶:Dreamview与离线数据包分析(文末赠送apollo周边)

🎬 鸽芷咕:个人主页 🔥 个人专栏:《linux深造日志》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 粉丝福利活动 ✅参与方式:通过连接报名观看课程,即可免费获取精美周边 ⛳️活动链接&#xf…

阶段十-java新特性

JDK9新特性 1.模块化系统 jar包结构的变化 jar -》model -》package -》class 通过不同的模块进行开发 每个模块都有自己的模块配置文件module-info.java 2.JShell JDK9自带的命令行开发,在进行简单的代码调试时可以直接编译使用 可以定义变量,方法&…

LeetCode刷题--- 优美的排列

个人主页:元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 http://t.csdnimg.cn/6AbpV 数据结构与算法 ​​​​​​http://t.cs…

【计算机网络】—— 奈氏准则和香农定理

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 💫个人格言:"没有罗马,那就自己创造罗马~" 目录 失真 - 信号的变化 ​编辑影像失真的因素: ​编辑信道带宽: 码间串扰…

编写fastapi接口服务

FastAPI是一个基于 Python 的后端框架,该框架鼓励使用 Pydantic 和 OpenAPI (以前称为 Swagger) 进行文档编制,使用 Docker 进行快速开发和部署以及基于 Starlette 框架进行的简单测试。 step1:安装必要库 pip install fastapi uvicorn st…

Linux6.3、IO基础(文件描述符及分析系统接口细节)

个人主页:Lei宝啊 愿所有美好如期而遇 前言 我们介绍文件描述符的顺序是: 为什么我们新打开几个文件,open返回值fd从3开始?fd与FILE*的关系?fd的理解? 我们就很疑惑,0,1,2哪里去了&#xff…