《Python源码剖析》之字符串拼接的一个效率问题

前言

我们常用的字符串拼接方法有两个,一个是通过“+”号实现字符串的拼接,还一个就是通过join方法来实现拼接,前者在写法上更加便利,和数字之间的加法运算一样,通常只有两个运算对象,只不过他们的运算规则有所不同,字符的加法规则是“拼接”,数字的加法规则是“数值相加”;而join方法处理的对象通常是多个字符串,他们使用相同的拼接符号进行拼接最终得到一个字符串。值得注意的是,除了操作对象的个数不同以外,这两个功能几乎可以相互平替对方。

例子

来看一个具体例子:分别使用"+“方法和"join"方法实现n个字符串的拼接,如果使用”+"号实现可能会相对复杂:需要一个额外的for循环,因为它一次性只能操作两个字符串,而使用join则方便很多,具体代码实现如下,当然除了简单实现这两个方法外,还实现了clock这个装饰器用来统计执行的耗时和空间大小(粗略计算)。

from tools import clock@clock(True, False)
def add(s_list):res = ''for s in s_list:res += sreturn res@clock(True, False)
def join(s_list):return ''.join(s_list)def main():for i in range(9):s_count = int(pow(10, i))s_list = ['abc' for _ in range(s_count)]add(s_list)join(s_list)add_cost_time = add.cost_timejoin_cost_time = join.cost_timeprint(f'字符串的个数:{s_count} add耗时:{add_cost_time}ns join耗时:{join_cost_time}ns', end=' ')if join_cost_time > 0:print(f'add耗时是join的{add_cost_time // join_cost_time}倍')else:print()if __name__ == '__main__':main()

执行结果如下:image.4d37ae48da1e11ee9de617490ed73bd0.png
通过运行结果可以发现,随着操作的字符串的个数的增加,add方法和join方法他们使用的空间大小几乎保持一致(因为得到的结果是一样的),但是从10^5这个量级开始,add方法的耗时就比join方法的耗时明显高很多,并且每增加一个量级,耗时也会相应增加一个量级。那么为什么会有这样的一个结果呢?

源码探索

如果想知道为什么,那就必须要搞清楚这两个方法的实现方式和细节,才能搞明白为什么会有如此大的差距。如果你经常看某个方法的具体实现方式的话,以join方法为例,我相信你肯定会立马按住ctrl键,然后鼠标左键(当然这里不同的编辑器和快捷键会有所差别),跳到它的源代码:image.8b96f5bcda1a11ee9de617490ed73bd0.png
可惜这次不幸的是:它只给你留下了一段注释和和一个占位符pass,通过注释可以知道,它告诉了我们join方法的功能就是通过指定的分隔符来拼接多个字符串的,但是却没有透露给你它的实现细节。
对于有一定经验的小伙伴来说可能已经猜到答案了:它的实现在"它的源码中",在更深的一个层次。没错,它的实现在python的源代码中,在c语言这一层。通过下面这个图你可能就知道了:

image.6d1b1712da1a11ee9de617490ed73bd0.png
str作为python中最常用的内建对象之一,当然也在"Objects"这个目录中。(至于它是如何找到并调用objects中对应方法的,这个问题可以留给大家去探索,虽然我也还没搞明白🙃🙃🙃 )

如何找源码

在进行源码分析之前,首要的任务就是如何找到它,最重要的一个参考就是如上的截图,它列举出来了python源代码中每个目录代表的含义,其中,Lib和Modules中包含了所有的标准库,Objects包含了所有的Python内建对象,通过这三个目录我们应该就可以找到大部分我们需要的内容了。

注意:虽然这个是py2(具体一点是py2.4左右)的,但是根据我的对比,这些目录的含义基本上是没有变化的,只不过它内部的具体内容(特别是源代码)可能发生了很大的变化,如果你的版本越高的话。就拿我现在看的是py3.11的代码来看,它的源代码几乎是重新写了一遍(虽然只对比了几处)。

join源码分析

str是python的内置对象,因此它的源代码应该在Objects目录中,具体的位置可以根据该目录下文件的命名来判断(这个方法可能有点愚蠢,因为完全凭经验,没有具体的逻辑,主要是我也没有找到更好的方法😅 )。这里join方法的实现就在这个join.h文件中,具体方法是(bytes_join)(PyObject *sep, PyObject *iterable)。我不知道大家第一眼看到这个源码的感觉是什么样的,如果你对c语言掌握的比较好的话,可能会感到很亲切;如果你像我一样只是了解一点(对c语言的掌握已经停留在了大一学习那会儿…)的话可能会比较头疼哈哈哈。不过这些都不重要,因为当我真正沉下心去看还是能够理解它的大概意思的,看的过程中特别要注意它的注释变量名(对于python这样的知名项目的源码,你绝对可以相信它取的变量名能够达到“见名之意”的作用),这两个我认为是理解的它的关键切入点。此外,还可以借助强大的AI来协助我们理解带代码,如下图所示,它基本上完全地解释了整个方法的步骤。

image.bfd50166da1f11ee9de617490ed73bd0.png

接下来我们进入正题,排除掉开头的一些逻辑判断,我们可以将这个方法的核心逻辑分为三点:

  1. 计算出序列中所有字符串拼接起来需要开辟的空间

    • 在这个循环计算的过程中可能有两个报错情况,一个是itemlen > PYSSIZE_T_MAX - szseplen > PY_SSIZE_T_MAX - sz,这个主要是防止需要开辟的空间大于最大值PYSSIZE_T_MAX
    • 另外一个报错就是sequence changed size during iteration,这个报错我相信大家比较熟悉,一不小心在循环中修改列表的大小就会报出这个错误。
  2. 申请空间

  3. 写入数据

注意:这里是先计算出需要开辟的空间,然后只进行一次空间的申请。

image.e9263facdae311ee9de617490ed73bd0.png

"+"法的源码分析

还是和上面的一样,如果对c语言了解比较浅的同学,可以借助强大的ai来协助我们一起来理解源码:

image.09987e84daea11ee9de617490ed73bd0.png
抛开一些判断的逻辑,其大致的核心逻辑如下:

  • 1.计算出旧字符串的长度
  • 2.根据旧字符串的长度之和创建新的字符串对象
  • 3.分别将旧的left和right字符串写入到新的字符串中

注意:这里创建新的对象时就会进行空间的申请

image.ffe466cade2011ee9de617490ed73bd0.png
大家有没有发现,不管是join方法还是“+”法方法,都会创建新的对象,进行一次空间申请,但是细心的小伙伴一定发现了,如果随着操作对象的数量增加,join方法始终都只需要进行一次空间的申请,而“+”法方法随着操作对象的数量的增加,它申请空间的次数也会随之增加,准确的说:如果有n(n>=2)个操作对象,那么“+”法需要进行n-1次空间申请,假设它们每次申请空间的耗时都相同,那么对n个对象进行拼接的耗时比就是:“+”法/join =n-1/1,所以上面例子是不是就说得通啦。😉

更多内容可以前往博主的个人博客系统:白日梦想园。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/525385.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一篇文章带你了解Python数据分析

目录 一、什么是数据分析? 二、为什么学习数据分析? 三、数据分析实现流程 一、什么是数据分析? 是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律。 使得数据的价值最大化 指定促销活动的方…

力扣由浅至深 每日一题.01 两数之和

万物惊鸿,唯我澄明 —— 24.3.9 1. 两数之和https://leetcode.cn/problems/two-sum/ 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会…

安全测试工具Burpsuit和OWASP ZAP使用入门指南

Burpsuit使用入门指南 安装: 网上有很多相关相关保姆级别教程,所以这里不加赘述了尽量使用java8版本,破解版兼容8做的比较好如果发现注册机无法打开或者能打开注册机【run】无法点击唤起软件安装,可以使用命令行工具 java -jar …

大模型概念解析 | In-context Learning

注1:本文系"概念解析"系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:大模型中的In-context Learning 大模型概念解析 | In-context Learning PR-418: What learning algorithm is in-context learning? Investigations with linear mo…

【力扣白嫖日记】1164.指定日期的产品价格

前言 练习sql语句,所有题目来自于力扣(https://leetcode.cn/problemset/database/)的免费数据库练习题。 今日题目: 1164.指定日期的铲平价格 表:Products 列名类型product_idintnew_priceintchange_datedate (pr…

运维打工人,兼职跑外卖的第二个周末

北京,晴,西南风1级。 前序 今天天气还行,赶紧起来,把衣服都洗洗,准备准备,去田老师吃饭早饭了。 一个甜饼、一个茶叶蛋、3元自助粥花费7.5。5个5挺吉利的。 跑外卖的意义 两个字减肥,记录刚入…

python使用multiprocessing

multiprocessing multiprocessing是Python标准库中的一个模块,用于实现多进程编程。它提供了一种简单而高效的方式来利用多核处理器的能力,通过在多个进程中同时执行任务,加快程序的执行速度和提高系统的吞吐量。 下面是使用multiprocessin…

python 蓝桥杯之动态规划入门

文章目录 DFS滑行(DFS 记忆搜索) 思路: 要思考回溯怎么写(入参与返回值、递归到哪里,递归的边界和入口) DFS 滑行(DFS 记忆搜索) 代码分析: 学会将输入的数据用二维列表…

Java编程实战:构建校园二手物品交易系统

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

CSRF攻击解析:原理、防御与应对策略

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

ERC20学习

ERC20简介 ERC20是一种代币标准,用于创建可替代的代币。 ERC20是在以太坊网络上实现的代币标准,它为数字资产或代币定义了一套规则和接口。这些符合ERC20标准的代币在性质上是完全相同的。即每一个代币都可以被另一个同类型的代币替代,这种属…

把握机遇:2024年游戏行业春招提前批全攻略

当前,国内游戏行业正处于高速发展期,各大游戏公司对应届毕业生的人才需求十分旺盛。这一趋势不仅为即将步入职场的学生们提供了广阔的就业前景,也为游戏产业的创新和多元化发展注入了新鲜血液。 在这样的大环境下,2024年春季提前批…