梯度
-
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
将激活、权重和梯度量化为4位,有望加速神经网络训练。 然而,现有的4位训练方法需要自定义数字格式,而现代硬件不支持这种格式。 最近,清华朱军团队提出了一种使用INT4算法实现所有矩…
-
Transformer结构及其应用详解——GPT、BERT、MT-DNN、GPT-2
在介绍Transformer前我们来回顾一下RNN的结构 对RNN有一定了解的话,一定会知道,RNN有两个很明显的问题 效率问题:需要逐个词进行处理,后一个词要等到前一个词的隐状态…
-
梯度提升算法决策过程的逐步可视化
梯度提升算法是最常用的集成机器学习技术之一,该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础,所以在这篇文章中,我们将从头开始构建一个梯度…
-
策略梯度强化学习算法实现A/B优化
译者 | 朱先忠 审校 | 重楼 在本文中,我们将探讨如何将策略梯度强化学习应用于A/B优化。本文将给出一个观察策略梯度方法的简单演示;其中,我们将深入了解有关潜在的机制,并逐步可…
-
一文带你了解什么是梯度下降
梯度下降是机器学习的动力之源 经过前面两节内容的铺垫,我们可以开始讲一讲机器学习的动力之源:梯度下降。 梯度下降并不是一个很复杂的数学工具,其历史已经有200多年了,但是人们可能不…
-
梯度提升算法决策过程的逐步可视化
梯度提升算法是最常用的集成机器学习技术之一,该模型使用弱决策树序列来构建强学习器。这也是XGBoost和LightGBM模型的理论基础,所以在这篇文章中,我们将从头开始构建一个梯度…