这篇文章主要是基于目前AI发展现状做出的一些思考,如何才能让模型更智能?
我们基于一个旅游场景来设想模型应该如何实现: 我要去山西旅游
任务分解
模型首先要基于"我要去山西旅游"这个要求进行分解,整理成一个类似操作列表的东西。下边是基于实际情况给出的一个设想。
- TODO 要问用户是什么时间去,要去的具体地方。
- TODO 确定时间和地方后帮用户查看当地的天气情况,给出穿衣建议。
- TODO 帮用户自动查询交通工具,给出合理的建议,供用户选择。
- TODO 用户选择后自动去请求接口订票。
- TODO 给用户提供一些当地的特色,游玩,美食等。
应该如何实现
- 需要模型能够理解用户的意图,并能分解成计划。(现在一些通用的大模型,可以通过多轮的方式实现类似效果。)
- 跟用户逐步确定计划中需要的点,比如具体要去的地方等,完成一条计划就标记为DONE。
- 根据计划选择合适的外部工具,比如调用实时查询天气的工具,订票的工具等,完成后同样标记完成。
- 按照模型自己给出的计划,依次完成知道任务结束。
实现难点
- 如何让模型能够识别系统中注册的工具或者agent(如果是企业级,可能会有很多)
- 如何定义合理的接口,能让模型理解接口的输入输出,从而自动产生相应的参数,将整个计划自动串联起来。
一个技术人的设想
- 定义一个统一的工具交互规范,模型能够理解,并能根据需要方便识别到。
- 提供一个注册中心,个人或者企业能够按照业务创建很多智能体,然后注册。
- 参考面向对象的思想,智能体应该是独立的个体,没有中间调度也可以独立使用。
- 模型可以根据用户要求分解任务,并在注册中心中找到合理的智能体进行调度。
结语
现在很多落地的东西是一条条的工作流,只能体现一部分模型的能力,虽然可以对外交互,也只是人为干预的结果。当然也可能有很多优秀的方案没有发现。虽然网上有很多基于cursor实现的一些类似场景的效果,但是对于普通人使用还是不方便,很多敏感数据也不能交出去,自己玩玩可以,生产实践不行。
如何一句话让模型把事儿干好,才是未来发展的方向。
如果大家有合适的方案可以沟通交流,共勉。