快照大小 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

微博在线机器学习和深度学习实践-黄波

在线版本切换：基于ZK的版本感知机制，动态进行版本切换，实现BASE模型的热更新，实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换 • 稳定性优化 • 模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储 • 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集

0 码力 | 36 页 | 16.69 MB | 1 年前
3
动手学深度学习 v2.0

整个监督学习过程如图1.3.1 所示。图1.3.1: 监督学习综上所述，即使使用简单的描述给定输入特征的预测标签，监督学习也可以采取多种形式的模型，并且需要大量不同的建模决策，这取决于输入和输出的类型、大小和数量。例如，我们使用不同的模型来处理“任意 22 1. 引言长度的序列”或“固定长度的序列”。回归回归（regression）是最简单的监督学习任务之一。假设有一组房屋销售数据表格，其中每行对应一个房子， org/wiki/Netflix_Prize 1.3. 各种机器学习问题 23 是猫的概率为0.9。0.9这个数字表达什么意思呢？可以这样理解：分类器90%确定图像描绘的是一只猫。预测类别的概率的大小传达了一种模型的不确定性，本书后面章节将讨论其他运用不确定性概念的算法。当有两个以上的类别时，我们把这个问题称为多项分类（multiclass classification）问题。常见的例子包括算法，但学习算法并不总是考虑到这一细节，进而更频繁地被推荐。综上所述，关于如何处理审查、激励和反馈循环的许多问题，都是重要的开放性研究问题。序列学习以上大多数问题都具有固定大小的输入和产生固定大小的输出。例如，在预测房价的问题中，我们考虑从一组固定的特征：房屋面积、卧室数量、浴室数量、步行到市中心的时间；图像分类问题中，输入为固定尺寸的图像，输出则为固定数量（有关每一个类别

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

模通常也是巨大的。现代社交媒体的流行也让收集海量数据成为可能，如 2010 年发布的 ImageNet 数据集收录了共 14197122 张图片，整个数据集的压缩文件大小就有 154GB。图 1.10、图 1.11 列举了一些数据集的样本数和数据集大小随时间的变化趋势。尽管深度学习对数据集需求较高，收集数据，尤其是收集带标签的数据，往往是代价昂贵的。数据集的形成通常需要手动采集、爬取原始数据，并清洗掉无效样本，再通过人差。研究数据量需求较少的算法模型是非常有用的一个方向。预览版202112 第 1 章人工智能绪论 8 图 1.10 数据集样本数趋势图 1.11 数据集大小趋势 1.3.2 计算力计算能力的提升是第三次人工智能复兴的一个重要因素。实际上，现代深度学习的基础理论在 1980 年代就已经被提出，但直到 2012 年，基于两块 GTX580 GPU 右。随着深度学习的兴起和计算能力的提升，AlexNet(8 层)、VGG16(16 层)、 GoogLeNet(22 层)、ResNet50(50 层)、DenseNet121(121 层)等模型相继被提出，同时输入图片的大小也从28 × 28逐渐增大，变成224 × 224、416 × 416等，这些变化使得网络的总参数量可达到千万、上亿级别，如图 1.13 所示。网络规模的增大，使得神经网络的容量也相应增大，从而能够学习到复杂的数据模

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

表示可能为任何正整数)。在 input_shape 中不包含数据的 batch 大小。 • 某些 2D 层，例如 Dense，支持通过参数 input_dim 指定输入尺寸，某些 3D 时序层支持 input_dim 和 input_length 参数。 • 如果你需要为你的输入指定一个固定的 batch 大小（这对 stateful RNNs 很有用），你可以传递一个 batch_size 1)), num_classes=10) model = Sequential() # 输入: 3 通道 100x100 像素图像 -> (100, 100, 3) 张量。 # 使用 32 个大小为 3x3 的卷积滤波器。 model.add(Conv2D(32, (3, 3), activation='relu', input_shape=(100, 100, 3))) model.add(Conv2D(32 是连续批次的样本，则 x2[i] 是 x1[i] 的后续序列，对于每个 i。要在 RNN 中使用状态，你需要: • 通过将 batch_size 参数传递给模型的第一层来显式指定你正在使用的批大小。例如，对于 10 个时间步长的 32 样本的 batch，每个时间步长具有 16 个特征，batch_size = 32。 • 在 RNN 层中设置 stateful = True。 • 在调用

0 码力 | 257 页 | 1.19 MB | 1 年前
3
pytorch 入门笔记-03- 神经网络

果。神经网络的典型训练过程如下： 1. 定义包含一些可学习的参数(或者叫权重)神经网络模型； 2. 在数据集上迭代； 3. 通过神经网络处理输入； 4. 计算损失(输出结果和正确值的差值大小)； 5. 将梯度反向传播回网络的参数； 6. 更新网络的参数，主要使用如下简单的更新原则： weight = weight - learning_rate * gradient 原文链接：pytorch super(Net, self).__init__() # 输入图片通道数为 1，输出通道数为 6，卷积核大小为 (5, 5) self.conv1 = nn.Conv2d(1, 6, 5) # 输入图片通道数为 6，输出通道数为 16，卷积核大小为 (5, 5) self.conv2 = nn.Conv2d(6, 16, 5) Linear(120, 84) self.fc3 = nn.Linear(84, 10) def forward(self, x): # 最大池化层，池化层窗口大小为 (2, 2) x = F.max_pool2d(F.relu(self.conv1(x)), 2) x = F.max_pool2d(F.relu(self.conv2(x))

0 码力 | 7 页 | 370.53 KB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

tensor([[1., -1.], [1., -1.]])  要创建具有特定大小的张量，请使用torch.*  如torch.randn() #满足标准正态分布的一组随机数据  创建与另一个张量具有相同大小的张量，请使用 torch.*_like  如torch.rand_like()  创建与其他张量具有相似类型但大小不同的张量，请使用tensor.new_*创建操作。 1.Tensors张量的概念 3. 神经网络神经网络的典型训练过程如下: • 定义神经网络模型,它有一些可学习的参数(或者权重); • 在数据集上迭代; • 通过神经网络处理输入; • 计算损失(输出结果和正确值的差距大小) • 将梯度反向传播回网络的参数; • 更新网络的参数,主要使用如下简单的更新原则: weight = weight - learning_rate * gradient 31 定义网络层的输入与输出都是二维张量，一般形状为[batch_size, size]，不同于卷积层要求输入输出是四维张量。 in_features指的是输入的二维张量的大小，即输入的[batch_size, size]中的size。 out_features指的是输出的二维张量的大小，即输出的二维张量的形状为 [batch_size，output_size]，当然，它也代表了该全连接层的神经元个数。从输入输出的张量的

0 码力 | 40 页 | 1.64 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

可以表示为对称矩阵和反对称矩阵的和，所以：上面公式的右边的第一个矩阵是对称矩阵，而第二个矩阵是反对称矩阵。事实证明，对称矩阵在实践中用到很多，它们有很多很好的属性，我们很快就会看到它们。通常将大小为的所有对称矩阵的集合表示为，因此意味着是对称的矩阵; 3.4 矩阵的迹方矩阵的迹，表示为（或者只是，如果括号显然是隐含的），是矩阵中对角元素的总和：如CS22 性相关的。也就是说，如果：对于某些标量值，要么向量是线性相关的; 否则，向量是线性无关的。例如，向量：是线性相关的，因为：。矩阵的列秩是构成线性无关集合的的最大列子集的大小。由于术语的多样性，这通常简称为的线性无关列的数量。同样，行秩是构成线性无关集合的的最大行数。对于任何矩阵，事实证明的列秩等于的行秩（尽管我们不会证明这一点），因此两个量统称为的秩，用所以这些问题自然是非常相关的。当只包含一列时，，这给出了向量投影到一条线上的特殊情况：一个矩阵的零空间是所有乘以时等于0向量的集合，即：注意，中的向量的大小为，而中的向量的大小为，因此和中的向量的大小均为。事实上，还有很多例子。证明：换句话说，和是不相交的子集，它们一起跨越的整个空间。这种类型的集合称为正交补，我们用表示。

0 码力 | 19 页 | 1.66 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

每个单词都被嵌入为512维的向量，词嵌入过程只发生在最底层的编码器中。所有的编码器都有一个相同的特点，即它们接收一个向量列表，列表中的每个向量大小为512维。在底层（最开始）编码器中它就是词向量，但是在其他编码器中，它就是下一层编码器的输出（也是一个向量列表）。向量列表大小是我们可以设置的超参数:一般是我们训练集中最长句子的长度。 20 2.Transformer的工作流程将输入序列进行词嵌入将输入句子的词嵌入装进矩阵X中，将其乘以我们训练的权重矩阵(WQ，WK，WV)。 x矩阵中的每一行对应于输入句子中的一个单词。我们再次看到词嵌入向量 (512，或图中的4个格子)和 q/k/v向量(64，或图中的3个格子)的大小差异。最后，由于我们处理的是矩阵，我们可以用一个公式来计算自注意力层的输出。 26 2.Transformer的工作流程 “多头”注意力（“multi-headed” attention）的机制图中，每一行对应一个词向量的位置编码，所以第一行对应着输入序列的第一个词。每行包含512个值，每个值介于1和-1之间。我们已经对它们进行了颜色编码，所以图案是可见的。 20字(行)的位置编码实例，词嵌入大小为512(列)。你可以看到它从中间分裂成两半。这是因为左半部分的值由一个函数(使用正弦)生成，而右半部分由另一个函数(使用余弦)生成。然后将它们拼在一起而得到每一个位置编码向量。

0 码力 | 60 页 | 3.51 MB | 1 年前
3
AI大模型千问 qwen 中文文档

访问官方网站 Ollama ”，点击 Download 以在您的设备上安装 Ollama。您还可以在网站上搜索模型，在这里您可以找到 Qwen1.5 系列模型。除了默认模型之外，您可以通过以下方式选择运行不同大小的 Qwen1.5-Chat 模型： • ollama run qwen:0.5b • ollama run qwen:1.8b • ollama run qwen:4b • ollama run “bge-base-zh-v1.5“模型以检索中文文档。根据您的计算资源，您还可以选择 “bge-large“或 “bge-small“作为向量模型，或调整上下文窗口大小或文本块大小。 Qwen 1.5 模型系列支持最大 32K 上下文窗口大小。现在我们可以从文档或网站构建索引。以下代码片段展示了如何为本地名为’document’的文件夹中的文件（无论是 PDF 格式还是 TXT 格式）构建索引。 NVIDIA A100 80GB • CUDA 12.3 • Pytorch 2.1.2+cu118 • Flash Attention 2.5.6 请注意，我们在评估时使用了尽可能小的批量大小（batch size 为 1）和最少的 GPU 数量。我们测试了在输入长度分别为 1、6144、14336 和 30720 个 token 的情况下生成 2048 个 token 的速度和内存占用情况。

0 码力 | 56 页 | 835.78 KB | 1 年前
3
《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别

LeCun 等人维护。获取 MNIST 数据集 MNIST 手写体数字介绍 MNIST 图像数据集使用形如［28，28］的二阶数组来表示每个手写体数字，数组中的每个元素对应一个像素点，即每张图像大小固定为 28x28 像素。 MNIST 手写体数字介绍 MNIST 数据集中的图像都是256阶灰度图，即灰度值 0 表示白色（背景），255 表示黑色（前景），使用取值为［0，255］的ui 入数据进行采样，具体做法是在一个或者多个卷积层后增加一个池化层。池化层由三个参数决定：（1）池化类型，一般有最大池化和平均池化两种；（2）池化核的大小k；（3）池化核的滑动间隔s。下图给出了一种的池化层示例。其中，2x2大小的池化窗口以2个单位距离在输入数据上滑动。在池化层中，如果采用最大池化类型，则输出为输入窗口内四个值的最大值；如采用平均池化类型，则输出为输入窗口内四个值的平均值

0 码力 | 38 页 | 1.82 MB | 1 年前
3

共 31 条前往

页

分类

语言

格式