语言模型测试系列【8】

语言模型

  1. 文心一言
  2. 星火认知大模型
  3. 通义千问
  4. 豆包
  5. 360智脑
  6. 百川大模型
  7. 腾讯混元助手
  8. Kimi Chat
  9. 商量
  10. C知道

这次的测试比较有针对性,是在使用钉钉新推出的AI助理功能之后发现的问题,即创建AI助理绑定自己钉钉的知识库进行问答,其中对于表结构的文档学习尚有不足,回答的错误率较高,所以这里就直接拿各大预言模型进行测试对比。

首先,准备Excel文档的数据。
在这里插入图片描述
然后,进行提问,提问的数量不多,仅针对上图中标有底色的部分进行提问。同时对上面所列的语言模型进行筛选,仅有通义千问豆包Kimi Chat支持Excel文档的学习,那下面的对比也只对这三个语言模型进行测试,其他模型先靠边站吧。

提问及回答

问题1:请学习文档,并告诉我李航宇是哪个医疗单位的法定负责人
问题2:那 刘金刚 呢?
问题3:刘继东 是哪个单位的法定代表人
问题4:沈阳兴齐眼科有限公司的具体地址在哪里?

通义千问

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

豆包

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

Kimi Chat

问题1

在这里插入图片描述

问题2

在这里插入图片描述

问题3

在这里插入图片描述

问题4

在这里插入图片描述

对比分析

从支持Excel文档的阅读学习能力来看,通义千问豆包Kimi Chat都支持,这方面比其他模型还是有优势的,特别是在垂直领域,很多专门的行业都有自己的一套数据,而且大部分数据都储存在表的文件内。不管是阅读还是平台调用都比较方便准确的提取到感兴趣的数据信息,支持表结构的阅读学习,也将是语言模型努力的方向。

模型名称回答内容
文心一言3.5不支持
讯飞星火认知大模型不支持
通义千问四个问题错了仨,勉强对了一个
豆包准确
360智脑不支持
百川大模型不支持
腾讯混元助手不支持
Kimi Chat准确
商量不支持
C知道不支持

总结

豆包Kimi Chat对Excel文档的内容学习和理解比较准确,本次赢得测试。
通义千问在支持Excel学习后,准确率还是有所欠缺。
本次测试主要是在语言模型支持的领域进行对比测试,相信大部分通用功能,在网络环境下,基本上都能准确实现,这方面也增加了测试难度,很难区分出优劣。所以,今后将在各大语言模型迭代新功能上测试。

小注:
语言模型的支持将越来越完善,决赛圈越来越近了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/703686.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ STL概念之 迭代器

什么是迭代器 迭代器(Iterator)是一个在容器中访问元素的对象,提供了一种方法来顺序访问容器中的元素,而无需暴露容器的底层表示。 或者说 行为像指针一样的类型。可能是指针也可能是被类封装的指针,不关注容器底层细…

探索软件测试中的创新测试方法:测试左移

软件测试中的测试左移方法 在当今竞争激烈的市场中,满足客户的期望和需求是所有公司在竞争中成为市场领导者的关键。这就是为什么越来越多的公司现在转向测试左移,并将其应用于产品开发过程。 在本文中,我们将从初学者的角度来介绍测试左移…

python中cv2,等等如何修改为中文字体显示,这里以人脸表情识别中文标签为例

中文字体显示 首先下载字体包部署字体包代码实现部分 想必大家在使用python过程中都会遇到,想要显示中文的时候,但是py基本上都是英文字体,下面我将给大家提供一个比较好的解决方案: 首先下载字体包 方法: 我使用的是…

【教学类-55-04】20240515图层顺序挑战(四格长条纸加黑色边框、4*4、7张,不重复5400张,16坐标点颜色哈希值去重、保留7色)

背景需求: 前文实现了7张色彩纸条加上黑色边框的需求。 【教学类-55-02】20240512图层顺序挑战(四格长条纸加黑色边框、4*4、7张 、43200张去掉非7色有23040张,哈希算法快速去重剩余1221张)-CSDN博客文章浏览阅读1k次&#xff0…

人工智能领域向量化技术加速多模态大模型训练与应用

目录 前言1、TextIn文档解析技术1.1、文档解析技术1.2、目前存在的问题1.2.1、不规则的文档信息示例 1.3、合合信息的文档解析1.3.1、合合信息的TextIn文档解析技术架构1.3.2、版面分析关键技术 Layout-engine1.3.3、文档树提取关键技术 Catalog-engine1.3.4、双栏1.3.5、非对称…

页面布局(H5基础)(上)

元素的显示模式 元素的显示模式 块级元素 页面中独占一行,不会与任何元素公用一行,从上到下排列 宽度默认是元素的高度,高度默认内容撑开 可以通过css设置宽高 行内元素 在页面中不独占一行,一行中不能容纳的行内元素&#x…

Python 全栈体系【四阶】(四十四)

第五章 深度学习 九、图像分割 3. 常用模型 3.4 DeepLab 系列 3.4.3 DeepLab v3(2017) 在DeepLab v3中,主要进行了以下改进: 使用更深的网络结构,以及串联不同膨胀率的空洞卷积,来获取更多的上下文信…

Java项目:基于ssm框架实现的房屋租售网站管理系统(房屋租赁和房屋出售一体)(B/S架构+源码+数据库+毕业论文+开题+任务书)

一、项目简介 本项目是一套基于ssm框架实现的房屋租售网站管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、…

品鉴中的艺术审美:如何将红酒品鉴提升为一种艺术体验

品鉴云仓酒庄雷盛红酒不仅仅是对酒本身的体验,更是一种艺术和审美的过程。将品鉴提升为一种艺术体验,需要我们用更细腻的感官、情感和认知去感受葡萄酒的魅力。 首先,我们要意识到品鉴葡萄酒是一种多感官的体验。除了基本的视觉、嗅觉和味觉…

python怎么安装matplotlib

1、登陆官方网址“https://pypi.org/project/matplotlib/#description”,下载安装包。 2、选择合适的安装包,下载下来。 3、将安装包放置到python交互命令窗口的当前目录下。 4、打开windows的命令行窗口,通过"pip install"这个命令…

CSRF 攻击实验:更改请求方式绕过验证

前言 CSRF(Cross-Site Request Forgery),也称为XSRF,是一种安全漏洞,攻击者通过欺骗用户在受信任网站上执行非自愿的操作,以实现未经授权的请求。 CSRF攻击利用了网站对用户提交的请求缺乏充分验证和防范…

【三家飞机制造商】

1.Boeing 波音 F-15战机 B-52轰炸机 阿帕奇攻击直升机 E-3 2 .Lockheed Martin 洛克希德马丁 F35 F22 F16 F117 C130 U2 3 Raytheon 雷神