大语言模型加速信创软件 IDE 技术革新-编程知识

QCon 全球软件开发大会（上海站）将于 12 月 28-29 日举办，会议特别策划「智能化信创软件 IDE」专题，邀请到华为云开发工具和效率领域首席专家、华为软件开发生产线 CodeArts 首席技术总监王亚伟担任专题出品人，为专题质量深度把关。

作为拥有云和开发工具领域近 20 年经验的老兵，华为公司软件开发工具领域的领军人物，20 多项软件开发技术发明专利的拥有者，王亚伟对于「智能化新创软件 IDE」这个专题有着怎样的理解？在会议即将开幕之际，王亚伟与 InfoQ 分享了他的核心观点。

“信创”是信息技术应用创新的简称，其本质是发展国产替代技术，实现核心技术的可掌控、可研究、可发展等。

相比“信创”，“智能化”在过去 5 年中被业界反复提起，智能化技术的发展必然会使诸如 IDE 这样的软件开发工具更加强大。随着大语言模型的诞生，IDE 除了可以自动地完成一些重复性工作之外，还可以协助开发人员在软件的设计和开发过程中完成更多创新性的工作，比如：

自动化重构：将一段复杂的代码分解为更小、更易于管理的函数或类。开发者可以描述他想要实现的重构目标，然后让模型生成相应的代码；

代码翻译：大语言模型可以将一种编程语言的代码翻译成另一种编程语言，再配合 IDE 的语法高亮和错误检查功能，可以帮助开发者使用不熟悉的编程语言编写代码；

自动化文档生成和更新：大语言模型可以根据代码和注释生成相应的文档，或者在修改代码时自动更新文档。大语言模型是 IDE 的智能化加速度。

IDE 的”信创“化旨在将基础软件开发的核心技术实现自主可控，在拥抱开源的同时逐步建立基于自有技术内核的架构和标准，形成自有开放生态。信创化的目的是为了规避可能或已经发生的风险：

信息安全和供应链安全风险：在关键时刻，国外的产品和技术可能会面临供应链中断的风险。此外，国外产品或开源技术可能会存在安全漏洞或后门，基于这些技术打造的商业解决方案会威胁用户的信息安全 - 2020 年 3 月发生的 SolarWinds 攻击事件导致业界领先的开发工具公司 JetBrains 遭受牵连；

技术依赖风险：如果完全依赖于外国的技术，那么我们在软件开发核心技术领域的研究、发展和创新能力就会受制于人，最终导致落后；

经济风险：技术上依赖意味着我们需要持续支付大量的许可费用。

“信创”化不意味着重复造轮子或为了与现有技术不同而进行盲目创新，而是目标实现核心技术可控的前提下，解决现有技术的问题，从而对现有技术实现某些方面的超越。举个例子，代码索引是 IDE 的文件查找、代码提示等功能的基础数据源，现有商业 IDE 代码索引的创建、存储和访问效率并不高，索引数据基于对象存储访问时，一个只有 8 字节（2 个 int）内容的数据封装成对象后要占据至少 24 个字节的存储空间。同时，由于内存读写速率要远低于缓存，如果在存储和访问索引时没有以一种缓存友好的方式进行，读写效率甚至 100 倍下降。我们团队在代码索引存储和访问领域提出了一种基于内存压缩的索引自动化存储和访问技术，可以做到 50 倍以上的综合效率提升，该技术已经被评选为华为云高价值专利，并应用到 IDE 内核、运行时优化、云编译等多个领域。

技术的积累需要时间，产品研发更需要打磨。王亚伟介绍道：“从 2019 年初开始，我们逐步组建了一支数百人的软件研发专家队伍，分布在中国、俄罗斯、欧洲等国家地区，其中一半成员来自于业界顶尖的软件和工具公司，超过 40% 的成员是开源社区的 Committer 和 Contributor，整个团队都围绕着‘做最好的产品’展开工作，我们建立了从产品、运营、UX 到开发、测试的完整专业的产品研发流程，每月一个小版本、三个月一个大版本，基于内外部用户的反馈快速迭代。过去五年我们真正做到了深耕软件开发工具这个专业领域。”

同时，王亚伟也坦言：“虽然从产品成熟度上看我们的信创化工具跟业界成熟的商用工具相比还有差距，但‘信创’本身绝不意味着竞争力弱，体验打折。我们会继续秉持着‘做最好的产品’的信念，不断前进。”

在今年的「智能化信创软件 IDE」专题上，王亚伟带领他的专家团队将围绕大语言模型、AI 编码辅助、下一代 IDE 平台架构、动态语言类型推理等技术，给大家带来一场技术盛宴。

✔ 议题1：AI 开道，让编程体验“一路狂飙”

详细介绍华为云 CodeArts 团队应用大模型开发的 AI 辅助编程的技术 - CodeArts Snap，讲师程啸从博士阶段开始就对代码生成、RAG、代码克隆检测等领域有较深入的研究，他这次也是代表 Snap 团队进行分享。

另外三个英文议题是来自于 CodeArts 俄罗斯的专家团队。

✔ 议题2：Applying Machine Learning in IDE Challenges and Insights

将会系统讨论 AI 技术在 IDE 中的应用研究以及如何深远改变我们的开发，测试和调试代码的方式。讲师 Pavel 是俄研院新西伯利亚实验室主任，20 年开发者工具构建经验，机器学习专家、Eclipse IDE 的专家和 Committer。

✔ 议题3：Evolution of IDE Platforms

将会紧密围绕其在构建 IDE 平台时面临的问题和挑战比如分布式代码模型架构下如何确保前后端组件可以高效交互、如何直接从后端内核画出前端复杂 UI，以及我们如何做出艰难的架构和设计决策，同时分享对下一代 IDE 平台的架构和设计展望。Denis 是俄罗斯新西伯利亚实验室的首席架构师，20 多年的工具研发经验，精通编译器、DSL、编程框架，Eclipse 社区 Committer。

✔议题4：Type inference engine

静态语言如 Java，C# 等，它的类型推理主要通过编译器完成，代码模型可以通过类型绑定（通常存在于程序的元数据 metadata 中）获得所需要的类型信息。而动态语言的类型推理主要由 IDE 完成，由于缺少编译元数据的支持，动态语言的类型推理是一个业界难题。以 Python 为例，其有一个完全动态严格的类型系统，类型（type）在运行时动态绑定到变量（variable），变量和类型都可以在运行时动态被改变 – 这增加 Python IDE 进行可靠类型推理的难度。议题 Type inference engine 会介绍该团队在做动态语言类型推理时设计和实现的技术细节，并讨论未来该领域的发展方向。Nikolai 是俄罗斯圣彼得堡实验室的首席软件工程师，拥有 15 年 IDE 研发经验，是前 JetBrains Intellij IDEA 和 Scala 项目负责人，精通 Compiler、Program Language Design、Code Analysis 等技术。