在AI技术飞速发展的今天,人工智能正在成为开发者的得力助手,特别是在编程过程中,AI工具像大语言模型(LLM)正逐渐成为程序员的“编程搭档”。然而,尽管如此,如何让LLM更好地理解你的项目并有效地协作,依然是一个值得探讨的问题。
通过一段时间的实践,我发现其核心思想可以归结为“面向LLM写算法”。在这一过程中,AI不仅仅是一个被动的代码生成器,它更多的是通过理解项目结构、上下文和逻辑来参与开发。这使得编程的方式和范式发生了微妙而深刻的变化。
- 项目结构与Embedding的结合
从目前的技术来看,要让LLM理解你的项目,最常见的做法是将整个项目拆解成多个文件,并为每个文件生成embedding。通过embedding,AI能够以更高效的方式理解代码的语义,并在需要时与其他部分进行匹配。然而,embedding匹配只是其中的一个步骤,更多的是需要利用上下文信息来确保模型理解代码的具体含义。
同时,本地的切片和索引变得尤为重要。实际上,向量并非唯一的索引方式,对于代码的处理来说,文本索引、带有类信息的索引也同样关键。这个索引过程类似于我们构建抽象语法树(AST)的方式,可以是纯文本,也可以是编译器生成的中间AST产物。关键在于如何权衡索引的轻量性和重度化需求,以便高效地为LLM提供准确的上下文。
- 面向LLM写代码的范式
我们可以将LLM看作是现代编程中的一种全新的“API”。过去,我们面向文件系统编写代码,面向数据库编写增删改查,面向前端框架如Vue编写HTML,而如今,面向LLM编写算法已成为新的编程方式。每种API背后都有一个强大的引擎,LLM的引擎同样也可以被当作黑盒子,提供基于自然语言的查询和结果返回。
2.1 LLM像SQL
我认为,LLM的查询方式本质上有点像SQL查询引擎,不同的是,LLM查询的并不是存储在数据库中的数据,而是你手中现有的代码、上下文或其他相关信息。我们不再直接从数据库中提取记录,而是通过自然语言和足够的上下文来“拼接”查询。LLM返回的结果通常是一个JSON格式的结构,这种输出形式使得它可以非常方便地与其他代码逻辑进行交互。
2.2 本地索引与查询
与SQL的查询不同,LLM的查询不仅仅依赖于其内部模型和数据库,更多依赖于本地建立的索引。例如,SQL引擎的索引是数据库内部的B+树结构,而LLM的索引则是你在本地为代码和文档建立的索引。这种方式使得LLM能够在给定的上下文中更好地理解和返回正确的结果。
- 代码生成与上下文管理
在AI时代,开发者不仅仅是通过传统的编程手段写代码,更多的是通过与LLM的互动来生成、调整和优化代码。为了提高生成代码的质量和准确性,程序员需要有效地管理和提供足够的上下文。这不仅涉及到在对话中与LLM的交互,更涉及到项目结构和信息的合理组织和索引。
LLM的查询引擎依赖于提供给它的上下文信息,类似于如何使用SQL查询时提供的条件或字段。如果没有正确的上下文,LLM的响应就会变得模糊甚至无效。因此,如何有效地整理和提供项目中的上下文信息,以及如何管理本地的代码索引,成为了开发者在AI时代中的新挑战。
总结
随着AI技术的发展,编程的范式正在发生深刻的变化。从“面向文件系统写代码”到“面向LLM写算法”,AI已经不再仅仅是一个工具,而是成为了开发过程中不可或缺的一部分。在这一过程中,embedding技术、本地索引、上下文管理等新方式将极大地改变程序员的工作方式。
通过理解这些技术,程序员将能够更高效地与LLM合作,自动化更多开发任务,同时确保生成的代码更加准确和智能。总的来说,AI时代的编程不仅仅是写代码,更是与AI进行协同工作的一种全新体验。