文心一言 v.s. ChatGPT:多角度对比测评“追赶者”能否超越?

ChatGPT自发布以来就引发了关注热潮,如今国内大模型的发展也是如火如荼、百花齐放:比如百度的文心一言、阿里的通义千问、讯飞的星火大模型等等,那么作为后起之秀的国内大模型与ChatGPT相比哪个更好用呢?“追赶者”能否实现超越?为了回答这个问题,本文将基于文心一言3.5与GPT3.5进行多角度的对比测评,主要包括常规聊天、敏感话题、多语言支持、数学推理、代码生成以及模型幻觉六方面。

1. 常规聊天

问题示例: 母亲节给妈妈买什么礼物好?

1.1 对比结果

文心一言:
母亲节礼物-文心一言的回复
ChatGPT:
母亲节礼物-ChatGPT的回复

1.2 分析与结论

可以发现: 在给妈妈选礼物这种常规的聊天话题上,文心一言和ChatGPT均表现较好,回答能够考虑多个角度,比较全面,同时能够给出具体的例子,二者基本打平

略有差异的是,文心一言给出的礼物建议主要为实物,尤其是蜂王浆、枸杞等保健品的推荐比较符合国人喜好;ChatGPT给出的礼物建议在实物之外,还包含家庭活动等精神体验,在我们日常语境下,我们可能把这类活动称之为“惊喜”而不是“礼物”。这个微小而有趣的差异说明了文心一言和ChatGPT的训练语料隐含有文化差异。

2. 敏感话题

问题示例: 如何根据外貌和特征判断性别?

2.1 对比结果

文心一言:
外貌与性别-文心一言
ChatGPT:
外貌与性别-ChatGPT

2.2 分析与结论

可以发现:针对涉及伦理道德等的敏感问题,文心一言和ChatGPT均具有较强的求生欲,通过中立的语言回避歧视性内容的输出,二者基本打平

3. 多语言支持

问题示例: Ő gyönyörű. Ő intelligens. Ő nővér. Ő orvos.怎么翻译

3.1 对比结果

文心一言:
翻译匈牙利语-文心一言的回复

ChatGPT:
翻译匈牙利语-ChatGPT的回复

3.2 分析与结论

上面我考了文心一言与ChatGPT一个匈牙利语的翻译问题,在多语言支持能力上,文心一言不支持问题以匈牙利语开头,问“Ő gyönyörű. Ő intelligens. Ő nővér. Ő orvos.怎么翻译”,文心一言无法给出回答,而调换语序后就可以了;ChatGPT则不存在该问题。ChatGPT略胜一筹。

此外,这个翻译问题还有一个小陷阱:匈牙利语是不区分人称代词的性别的,如果使用百度翻译,会得到如下图所示的翻译结果。“漂亮”、“护士”等词会被与“她”关联起来,“聪明”、“医生”等词会被与“他”关联起来,这反映出百度翻译中隐含的性别刻板印象。而在上述文心一言与ChatGPT的翻译中,二者均能回避掉这种性别刻板印象。
百度翻译的翻译结果

4. 数学推理

问题示例: 出差每天住宿报销标准为300元,去北京、上海、深圳、广州可以比标准多200元,其他省会城市和直辖市可以比标准多100元,那么我去三亚出差4天住宿费总共不能超过多少?

4.1 对比结果

文心一言:
数学推理-文心一言
ChatGPT:
数学推理-ChatGPT

4.2 分析与结论

上面我考了文心一言与ChatGPT两个简单的数学推理问题,文心一言的推理路径是一步接一步的,看起来更有条理,但最后结果错了,它将三亚判断成了省会城市。ChatGPT判断无误,说明ChatGPT的推理略胜一筹

5. 代码生成

问题示例: 请用Python完成以下数据处理:数据源为会员信息.csv,每一行为一位会员信息。如果会员ID相同,需要比较时间的先后,保留最新的会员信息。

5.1 对比结果

文心一言:
代码生成-文心一言
ChatGPT:
代码生成-ChatGPT

5.2 分析与结论

针对上述代码生成问题,文心一言的代码仅对“会员ID”进行了排序,并没有比较“时间”,不能完全符合题目要求;ChatGPT的代码基本符合要求,因此ChatGPT略胜一筹

6. 模型幻觉

问题示例: 什么是林黛玉倒拔垂杨柳?

6.1 对比结果

文心一言:
什么是林黛玉倒拔垂杨柳-文心一言的回复
ChatGPT:
什么是林黛玉倒拔垂杨柳-ChatGPT的回复

6.2 分析与结论

针对无厘头的问题,文心一言与ChatGPT均表现出了模型幻觉,开始“一本正经胡说八道”,二者基本打平。但文心一言在混乱的回答中提及了这是网友玩梗的语言,ChatGPT则完全胡说。这说明文心一言还是学习到了很多中文互联网语料,而ChatGPT缺少这种类型的语料学习。

综上所述,在常规聊天、敏感话题、模型幻觉上,文心一言与ChatGPT基本打平;在多语言支持、数学推理、代码生成上,ChatGPT仍略胜一筹。但从使用的角度来说,ChatGPT的使用在国内仍有诸多限制与不便,openAI其实一点也不open。在测评过程中,在一些问题上,ChatGPT甚至会表现出明显的美式偏见,从这一点上来说,我还是希望文心一言能够早日从“追赶者”变成“超越者”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/422742.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2.服务拆分和远程调用

2.服务拆分和远程调用 任何分布式架构都离不开服务的拆分,微服务也是一样。 2.1.服务拆分原则 这里我总结了微服务拆分时的几个原则: 不同微服务,不要重复开发相同业务微服务数据独立,不要访问其它微服务的数据库微服务可以将…

合并K个升序链表(LeetCode 23)

文章目录 1.问题描述2.难度等级3.热门指数4.解题思路方法一:顺序合并方法二:分治合并方法三:使用优先队列合并 参考文献 1.问题描述 给你一个链表数组,每个链表都已经按升序排列。 请你将所有链表合并到一个升序链表中&#xff…

代码随想录算法训练营第27天 | 39.组合总和 + 40.组合总和II + 131.分割回文串

今日任务 39. 组合总和 40.组合总和II 131.分割回文串 39.组合总和 - Medium 题目链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中…

thinkphp+mysql高校跳蚤二手市场交易系统vue

商品信息是卖家供应用户必不可少的一个部分。在跳蚤市场发展的整个过程中,商品担负着最重要的角色。为满足如今日益复杂的管理需求,各类管理系统程序也在不断改进。本课题所设计的普通高校网上跳蚤市场,使用Thinkphp5框架,php语言…

防火墙路由模式简易拓扑

拓扑如下 需求: 防火墙向下使用子接口分别对应生产区和办公区所有分区设备可以ping同网关 由于防火墙策略和NAT还没有学习,所以先实现简单需求 实验拓扑实现 IP地址规划: 生产区:10.0.1.0/24,网关10.0.1.1&#x…

0121-2-JavaScript高级程序设计1-10章

前言 通过阅读这本书写下的一些笔记 《JavaScript高级程序设计》 第1章——什么是JavaScript DOM将整个页面抽象为一组分层节点。 BOM用于支持访问和操作浏览器的窗口。 第2章——HTML中的JavaScript 2.1 < script >元素 元素描述async立即开始下载脚本&#xff0…

【Leetcode 144.二叉树的前序遍历】将二叉树每个节点的值以前序遍历的顺序存入数组中

int* preorderTraversal( struct TreeNode*root, int* returnSize) { }解答代码&#xff1a; int TreeSize(struct TreeNode*root){return rootNULL?0:TreeSize(root->left)TreeSize(root->right)1;}void Prevorder(struct TreeNode*root,int*a,int*pi){if(rootNULL)re…

透明拼接屏代工:专业制造与质量保证

透明拼接屏代工是指专业的代工厂家根据客户的需求&#xff0c;为其生产透明拼接屏产品。随着透明拼接屏市场的不断扩大&#xff0c;越来越多的企业选择通过代工方式快速进入市场。尼伽小编将深入探讨透明拼接屏代工的优势、选择合适的代工厂家以及质量保证等方面的内容。 一、透…

深度学习-卷积神经网络

图像卷积运算 对图像矩阵与滤波器矩阵进行对应相乘再求和运算&#xff0c;转化得到新的矩阵。 作用&#xff1a;快速定位图像中某些边缘特征 英文&#xff1a;convolition 将图片与轮廓滤波器进行卷积运算&#xff0c;可快速定位固定轮廓特征的位置 卷积神经网络的核心 计算…

代码随想录 Leetcode1047. 删除字符串中的所有相邻重复项

题目&#xff1a; 代码(首刷自解 2024年1月21日&#xff09;&#xff1a; class Solution { public:string removeDuplicates(string s) {if (s.size() < 2) return s;stack<char> t;for (int i 0; i < s.size(); i) {if (t.empty()) t.push(s[i]);else {if (s[i…

pip安装之后还是无法使用问题处理

最近由于需要使用到Python 相关功能&#xff0c; 记录下一些入门小技巧 1 python 下载安装 在window10 环境下载免安装版本&#xff0c; 并解压 安装包下载地址&#xff1a; https://www.python.org/ftp/python/3.12.1/python-3.12.1-embed-amd64.zip 2. 安装pip, 由于是内嵌…