分类目录归档：NLP

如何选择 ZeRO 策略

817 views

模型训练阶段，每张卡中显存占用可以分为两类：

模型状态

模型参数（fp16）、模型梯度（fp16）和 Adam 优化器状态（fp32 的模型参数备份，fp32 的 momentum 和 fp32...

训练神经网络时如何确定batch的大小

1218 views

1、训练神经网络时如何确定batch的大小？

（1）GPU对2的幂次的patch可以发挥更佳的性能，因此设置成16、32、64、128.时往往要比设置为整10、整100的倍数时表现更优

（2）b...

神经网络调参经验大汇总-NLP

1217 views

1 熟悉数据

2 端到端训练+获取基线

3 过拟合

4 正则化

5 调模型

随机网格搜索
超参数优化

6 再挤挤

集成模型
继续训练

[1] A Recipe for Training ...

Transformer位置编码

1236 views

1 绝对位置编码

训练式: BERT、GPT
三角式:
$$ \left{\begin{array}{l} \boldsymbol{p}{k, 2 i}=\sin \left(k / 1000...

相对位置编码-NAZHA

1045 views

参考苏剑林老师的bert4keras中的代码

class RelativePositionEmbedding(Layer):
    """相对位置编码
   ...

正弦位置编码

2208 views

参考苏剑林老师的bert4keras中的代码

class SinusoidalPositionEmbedding(Layer):
    """定义Sin-Co...

绝对位置编码-BERT

1049 views

参考苏剑林老师的bert4keras中的代码

from keras.layers import Layer
import keras.backend as K
from keras impo...

keras基础教程

1047 views

1 基本概念

优先使用函数式API，而不是keras中其他风格的创建模型的方法
优先使用keras预定义的fit/fit_generator方法，而不是自定义训练流程

2 张量

张量（多维数...

word2vector-情感分析demo

1997 views

import numpy as np
import keras
import gensim
import json 
from sklearn.model_selection import tr...

word2vector-gensim工具包

1001 views

算法笔记

分享技能,记录生活,刷题笔记