生成式人工智能(GenAI)为我们开启了更快的开发周期、更少的技术和维护工作,以及之前看起来无法实现的创新应用场景的大门。但与此同时,它也带来了新的风险——比如幻觉问题,以及对第三方API的依赖。
对于数据科学家和机器学习团队来说,这一变革直接影响了他们的工作方式。一种新的AI项目类型已经出现,其中部分AI已经由外部模型提供商(例如OpenAI、Anthropic、Meta等)实现。现在,非AI专家的团队也能相对轻松地集成AI解决方案。在这篇文章中,我们会讨论这些变化对数据科学和机器学习团队意味着什么:
现在可以解决更多问题,但并非所有问题都是AI问题
传统的机器学习并没有消失,而是通过GenAI得到了增强
一些问题最好用GenAI解决,但仍然需要机器学习的专业知识来进行评估并规避伦理风险
AI素养在公司中变得越来越重要,数据科学家在推动这一进程中扮演着关键角色
现在可以解决更多问题——但并非所有问题都是AI问题
GenAI确实解锁了更广泛的应用潜力,但这并不意味着每个问题都适合用AI来解决。数据科学家和AI专家依然是关键,他们负责判断何时应该使用AI,选择合适的AI技术,并设计和实现可靠的解决方案(不管是GenAI、传统机器学习,还是混合方法)。
是否使用机器学习? 如何判断是否使用机器学习更合适,以及在生成式AI的推动下,如何改变这一判断标准。
然而,尽管AI解决方案的范围已经大大扩展,在选择合适的用例并确保解决方案能够适应未来时,仍然有两点需要特别考虑:
在任何时刻,GenAI模型都有其局限性,可能会影响解决方案的效果。因为我们是在处理预测和概率,所有的结果都会有一定的误差和不确定性。
同时,技术进步非常迅速,未来这些模型的局限性和缺点会逐步得到减少和改进,新的能力和功能也会不断加入。
如果当前的LLM版本不能解决一些特定问题,但未来的版本可能会,那么现在的策略可能是等一等,或者先开发一个不那么完美的解决方案,而不是投入大量资源去修复目前LLM的不足。数据科学家和AI专家可以在这个过程中提供敏锐的判断,帮助区分哪些问题可以由模型提供商解决,哪些问题则需要内部团队来解决。例如,允许用户编辑或监督LLM输出的功能,可能比追求完全自动化的复杂逻辑和微调更有效。
在市场上,真正的竞争力并不会仅仅来自于使用LLM,因为这些现在已经对每个人开放,而是来自于我们通过这些基础模型提供的独特体验、功能和价值(如果大家都在用相同的基础模型,那我们有什么可以区别于他人的?通过AI找到属于你的竞争优势)。
有了GenAI解决方案后,数据科学团队可能不需要再过多关注模型开发部分,而是可以把更多精力放在整个AI系统的设计上。
传统机器学习并没有消失——而是通过GenAI得到了增强
虽然GenAI已经彻底改变了AI领域,甚至许多行业,但传统机器学习依然不可或缺。许多应用场景仍然需要传统的机器学习方法(尤其是那些不涉及文本或图像的用例),而有些问题则可能还是用传统的机器学习更高效。
GenAI并没有取代传统机器学习,反而是增强了它:它加速了原型开发和实验,并且可以通过混合ML + GenAI的解决方案来提升一些应用的效果。
在传统的机器学习工作流程中,开发一个像自然语言处理(NLP)分类器的解决方案通常包括:获取训练数据(可能还需要手动标注)、准备数据、训练和微调模型、评估性能、部署、监控和维护系统。这个过程通常需要几个月,且需要大量的资源进行开发和维护。
但有了GenAI之后,工作流程会简化很多:选择合适的大型语言模型(LLM),进行提示工程或提示迭代,进行离线评估,再通过API将模型集成到生产环境中。这大大缩短了从构想到部署的时间,通常只需要几周而不是几个月。而且,很多维护工作由LLM提供商来承担,这进一步降低了运营成本和复杂性。
因此,GenAI使得我们可以更快地测试想法并验证其价值,而无需收集标注数据或投入大量资源开发和部署内部模型。一旦证明了某个方案的价值,机器学习团队可能会选择转向传统机器学习解决方案,以减少成本或延迟,同时可以利用初期GenAI系统所获得的标注数据。同样,许多公司在验证了价值之后,开始转向小型语言模型(SML),因为它们可以进行微调并更容易部署,同时在性能上能媲美甚至超越LLM(小型语言模型是新趋势)。
在其他情况下,最好的解决方案是将GenAI和传统机器学习结合起来,形成混合系统,充分发挥两者的优势。一个很好的例子是“用大型语言模型构建DoorDash的产品知识图谱”,他们解释了如何将传统机器学习模型和LLM结合使用,来优化分类任务,比如产品品牌标注。当传统的机器学习模型无法自信地进行分类时,LLM可以提供帮助。如果LLM成功进行了分类,传统机器学习模型就会基于新标注进行再训练(形成良好的反馈循环!)。
无论如何,机器学习团队会继续工作在传统的机器学习解决方案上,进行预测模型的微调和部署,同时也会意识到GenAI能够帮助加速解决方案的开发,提升解决方案的质量。
一些问题用GenAI解决会更好
AI领域正在从使用大量内部专用模型转向少数由外部公司提供的多任务大模型。机器学习团队需要拥抱这一变化,准备将GenAI解决方案作为其中的一个选项,保持竞争力。尽管模型训练阶段已经完成,但我们依然需要保持对机器学习和AI的敏感性,因为解决方案的本质仍然是概率性的,与传统软件开发的确定性是完全不同的。
尽管GenAI带来了很多好处,机器学习团队还是需要面对它带来的挑战和风险。考虑基于GenAI的解决方案时,与传统机器学习相比,主要增加的风险有:
对第三方模型的依赖:这可能带来额外的调用成本、更高的延迟(影响实时系统的性能),以及缺乏控制(我们现在对其训练数据和设计决策了解有限,提供商的更新也可能引入意外的问题)。
GenAI特有的风险:我们已经清楚地看到,GenAI有着自由输入/自由输出的关系。自由输入带来了新的隐私和安全风险(例如数据泄露或提示注入),而自由输出则带来了幻觉、毒性或偏见歧视的风险。
但仍然需要机器学习专业知识来进行评估并规避伦理风险
虽然GenAI解决方案比传统机器学习模型更容易实施,但它们的部署仍然需要机器学习专业知识,尤其是在评估、监控和伦理风险管理方面。
和传统机器学习一样,GenAI的成功也依赖于强有力的评估。这些解决方案需要从多个角度进行评估,因为它们有着自由输出的特点(例如:回答的相关性、正确性、语气、幻觉、危害风险等)。这个评估过程必须在部署之前进行(如上图所示的“离线评估”),这能帮助我们了解系统在实际数据环境中表现的情况。确保参考这些优秀的LLM评估指标,它们区分了统计评分(如BLEU、ROUGE等量化指标)和基于模型的评分(如基于嵌入的相似性度量)。数据科学团队在设计和评估这些指标方面非常擅长,尽管这些指标有时比较抽象(比如,如何衡量“有用性”或“相关性”?)。
一旦GenAI解决方案部署,监控变得至关重要,确保它随着时间推移仍然按照预期工作。可以检查与评估时类似的指标,以确保离线评估的结论能够在部署后维持。像Datadog这样的监控工具已经提供了LLM特定的可观察性指标。在这个过程中,通过与用户研究团队紧密合作,直接询问用户反馈(例如,“这些建议对你有用吗?如果没有,为什么?”)可以让定量数据更丰富。
由于GenAI模型的复杂性和“黑箱”特征,它们可能带来更大的伦理风险。机器学习团队在保证AI可靠性方面发挥着重要作用,帮助识别并减轻这些风险。这项工作包括进行风险评估、选择较少偏见的基础模型、定义并评估公平性和无歧视指标,应用技术和防护措施,确保AI输出符合社会和组织的价值观。
AI素养在公司内变得越来越重要
一个公司的竞争优势不仅仅来源于其AI内部项目,还依赖于员工如何有效理解和使用AI。数据科学家在推动AI素养方面发挥着核心作用,帮助员工理解AI的局限性和风险,并使其充分利用AI。通过他们的帮助,AI应该不仅是技术团队的工具,而是成为整个组织的核心能力。
为了提升AI素养,组织可以采取多种措施,如内部培训、工作坊、聚会和黑客马拉松等,这些都可以由数据科学家和AI专家主导。这种意识可以帮助:
提高内部团队的生产力,鼓励使用通用AI或团队已经在使用的工具中的AI功能。
发掘团队内的潜力,发现一些曾经看起来复杂或不可能的项目,现在可能通过GenAI得到实现。
总结:数据科学家的角色正在不断发展
数据科学和人工智能领域发展迅速,数据科学家和机器学习团队的角色也在发生变化。虽然GenAI API使得技术门槛较低的团队也能够实施AI解决方案,但数据科学家和机器学习团队的专业能力仍然在打造可靠、稳健且符合伦理的解决方案中发挥着重要作用。在新的背景下,数据科学家的角色重新定义,包括:
紧跟AI进展,选择最佳技术来解决问题,设计并实现优秀的解决方案,同时在承认局限性时确保解决方案的可持续性。
采用系统化思维,而非只关注预测模型,变得更加全局化,并与其他角色协作,影响系统的用户交互和监督方式。
继续开展传统机器学习解决方案的工作,认识到GenAI能提升解决方案的速度和质量。
深刻理解GenAI的局限性和风险,构建可靠且值得信赖的AI系统(包括评估、监控和风险管理)。
成为AI的倡导者,推动组织内的AI素养,帮助非技术团队利用AI并发现正确的机会。
数据科学家的角色不是被取代,而是被重新定义的。通过拥抱这一变化,他们依然不可或缺,帮助组织有效且负责任地利用AI。
期待GenAI和数据科学家角色重新定义带来的所有机会!