所有编程语言都离不开循环。因此,默认情况下,只要有重复操作,我们就会开始执行循环。但是当我们处理大量迭代(数百万/十亿行)时,使用循环是一种犯罪。您可能会被困几个小时,后来才意识到它行不通。这就是在 python 中实现矢量化变得非常关键的地方。,,
,矢量化是在数据集上实现 (NumPy) 数组操作的技术。在后台,它将操作一次性应用于数组或系列的所有元素(不同于一次操作一行的“for”循环)。,接下来我们使用一些用例来演示什么是矢量化。,与使用范围函数的迭代相比,矢量化的执行时间减少了约 18 倍。在使用 Pandas DataFrame 时,这种差异将变得更加显著。,在数据科学中,在使用 Pandas DataFrame 时,开发人员使用循环通过数学运算创建新的派生列。,在下面的示例中,我们可以看到对于此类用例,用矢量化替换循环是多么容易。,DataFrame 是行和列形式的表格数据。,我们创建一个具有 500 万行和 4 列的 pandas DataFrame,其中填充了 0 到 50 之间的随机值。,,创建一个新列“ratio”来查找列“d”和“c”的比率。,我们可以看到 DataFrame 的显著改进,与Python 中的循环相比,矢量化操作所花费的时间几乎快 1000 倍。,我们实现了很多需要我们使用“If-else”类型逻辑的操作。我们可以轻松地将这些逻辑替换为 python 中的矢量化操作。,让我们看下面的例子来更好地理解它(我们将使用我们在用例 2 中创建的 DataFrame):,想象一下,我们要根据现有列“a”上的某些条件创建一个新列“e”,与使用 if-else 语句的 python 循环相比,向量化操作所花费的时间快 600 倍。,深度学习要求我们解决多个复杂的方程式,而且需要解决数百万和数十亿行的问题。在 Python 中运行循环来求解这些方程式非常慢,矢量化是最佳解决方案。,例如,计算以下多元线性回归方程中数百万行的 y 值:,
,我们可以用矢量化代替循环。,,m1、m2、m3……的值是通过使用与 x1、x2、x3……对应的数百万个值求解上述等式来确定的,,,np.dot 在后端实现向量化矩阵乘法。与 Python 中的循环相比,它快 165 倍。,python 中的矢量化速度非常快,无论何时我们处理非常大的数据集,都应该优先于循环。,,随着时间的推移开始实施它,您将习惯于按照代码的矢量化思路进行思考。
文章版权声明
1 原创文章作者:cmcc,如若转载,请注明出处: https://www.52hwl.com/17432.html
2 温馨提示:软件侵权请联系469472785#qq.com(三天内删除相关链接)资源失效请留言反馈
3 下载提示:如遇蓝奏云无法访问,请修改lanzous(把s修改成x)
4 免责声明:本站为个人博客,所有软件信息均来自网络 修改版软件,加群广告提示为修改者自留,非本站信息,注意鉴别