内存安全 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

亚马逊AWSAI Services Overview

的人工智能&深度学习围绕数据的“飞轮” 机器学习深度学习人工智能更多的用户更好的产品更多的数据更好的分析对象存储数据库数据仓库数据流分析商业智能 Map/Reduce 内存数据库数据检索点击流用户活动内容生成购买点击喜好传感器数据机器学习& 人工智能大数据更多的用户更好的产品更多的数据更好的分析围绕数据的“飞轮” 算法数据 ▪ 这款新实例类型包含了高达 8个 NVIDIA Tesla K80 Accelerators, 每个运行一对 NVIDIA GK210 GPUs. ▪ 每块GPU 提供 12 GiB 内存 (内存存取带宽达到240 GB/秒), 以及 2,496 个并行处理核心 Instance Name GPU Count vCPU Count Memory Parallel Processing 16xlarge 16 64 732 GiB 39,936 192 GiB 20 Gigabit 深度学习框架 – MXNet 概述 MXNet • 节省以及资源效率 • 工程中廉价的GPUs、较小的内存以及网络的限制 • 速度 • 线性的扩展能力 • 简单 • 混合了声明式（declarative）和命令式()代码的特点为什么选择 MXNet ？ MXNet: 可扩展的深度学习框架

0 码力 | 56 页 | 4.97 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

技术诉求：自动识别图片或视频中出现的文字、二维码、logo等内容以及违规人像、淫秽、血腥、暴力、极端主义、恐怖主义图像等，方便平台进行违规处理和风险管控。业务痛点：面对越来越爆发的安全风险，解决办法门槛高，成本高；迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术图像分割以及超分辨率技术优图图像技术还包括：图像分类、图像增强、艺术滤镜、图片去水印、图像融合、图像修补等。应用场景 add conv w x b 公共计算库 X86 优化 Android 优化 iOS 优化 GPU 优化内存池硬件设备网络模型 • 越来越多的应用场景，云服务，Android，iOS, 闸机嵌入式 • 越来越复杂的限制条件，内存，功耗，延迟 • 越来越多的数据量，图像从百万到千万，数据从图像到视频 • 越来越复杂的网络结构，从Resnet，ResNeXt，DenseNet，DPN，SENET proto model graph. pb 深度网络计算图 caffe Tensor Flow 公共计算库 X86 优化 Android 优化 iOS 优化 GPU 优化内存池硬件设备 xx-arm-gpu-sdk.c xx-android-arm.c xx-randroid-sdk.java xx-ios-arm-sdk.m xx-x86-sdk.cpp Rapidnet

0 码力 | 32 页 | 5.17 MB | 1 年前
3
动手学深度学习 v2.0

4 索引和切片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.1.5 节省内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.1.6 转换为其他Python对象计算机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 12.4.2 内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 12.4.3 存储器 org/wiki/Alan_Turing 22 https://en.wikipedia.org/wiki/Donald_O._Hebb 1.5. 深度学习的发展 33 表1.5.1: 数据集vs计算机内存和计算能力年代数据规模内存每秒浮点运算 1970 100 （鸢尾花卉） 1 KB 100 KF (Intel 8080) 1980 1 K （波士顿房价） 100 KB 1 MF (Intel 80186)

0 码力 | 797 页 | 29.45 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

scheduling Go语言在高性能系统中的实践经验 • 为什么用Go - 比起C++，更易于实践各种并发模式 - 比起Java，更加简洁，更易于与C/C++交互 - 比起脚本语言，类型和内存安全，保证重构效率与产品质量 - 完善的配套工具，如go test, gofmt, go lint, race-detector Go语言在高性能系统中的实践经验 • Go在开发高性能应用上也有一些不足，

0 码力 | 23 页 | 9.26 MB | 1 年前
3
复杂环境下的视觉同时定位与地图构建

小米扫地机器人以激光雷达为核心戴森360°Eye扫地机器人以视觉为核心（顶部有全景摄像头） SLAM应用介绍 • 无人机大疆Phantom4 结合双目立体视觉和超声波，实现空中精准悬停和安全航线自动生成 SLAM应用介绍 • 无人车 MobileEye、特斯拉等自动驾驶方案以廉价的摄像头为主 Google无人车项目Waymo 使用高精度激光雷达构建地图 SLAM应用介绍 • 根据更新的匹配矩阵更可靠地选择出有公共内容的图像对进行特征匹配。大尺度运动恢复结构的难点 • 全局集束调整（Global Bundle Adjustment） • 变量数目非常庞大 • 内存空间需求大 • 计算耗时 • 迭代的局部集束调整 • 大误差难以均匀扩散到整个序列 • 极易陷入局部最优 • 姿态图优化（Pose Graph Optimization） • 只优化相机之间的相对姿态，三维点都消元掉；

0 码力 | 60 页 | 4.61 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

务上获得了 50~90%的效果提升。常用的机器翻译模型有 Seq2Seq、BERT、GPT、GPT-2 等，其中 OpenAI 提出的 GPT-2 模型参数量高达 15 亿个，甚至发布之初一度以技术安全考虑为由拒绝开源 GPT-2 模型。聊天机器人(Chatbot) 聊天机器人也是自然语言处理的一项主流任务，机器自动学习与人类对话，对于人类的简单诉求提供满意的自动回复，提高客户的服务效率和服务质量概念。张量的视图就是人们理解张量的方式，比如 shape 为[2,3,4,4]的张量?，从逻辑上可以理解为 2 张图片，每张图片 4 行 4 列，每个位置有 RGB 3 个通道的数据；张量的存储体现在张量在内存上保存为一段连续的内存区域，它类似于向量的一维结构，无法表达高维预览版202112 4.7 维度变换 23 数据结构。因此对于同样的存储，可以有不同的维度理解方式，比如上述张量?，可以在不改变张量的存储的条件下，将张量 5, 6, 7],… [88, 89, 90, 91], [92, 93, 94, 95]]]]) 在存储数据时，内存并不支持这个维度层级概念，只能以平铺方式按序写入内存，因此这种层级关系需要人为管理，也就是说，每个张量维度结构需要人为跟踪。为了方便表达，这里把张量 shape 列表中相对靠左侧的维度叫作大维度，shape 列表中相对靠右侧的维度叫

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

3.3.8 如何获取中间层的输出？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.9 如何用 Keras 处理超过内存的数据集？ . . . . . . . . . . . . . . . . . . . . 32 3.3.10 在验证集的误差不再下降时，如何中断训练？ . . . . . . . . . . . “sample”, “batch”, “epoch” 分别是什么？ • 如何保存 Keras 模型？ • 为什么训练误差比测试误差高很多？ • 如何获取中间层的输出？ • 如何用 Keras 处理超过内存的数据集？ • 在验证集的误差不再下降时，如何中断训练？ • 验证集划分是如何计算的？ • 在训练过程中数据是否会混洗？ • 如何在每个 epoch 后记录训练集和验证集的误差和准确率？ • get_3rd_layer_output([x, 0])[0] # 测试模式 = 1 时的输出 layer_output = get_3rd_layer_output([x, 1])[0] 3.3.9 如何用 Keras 处理超过内存的数据集？你可以使用 model.train_on_batch(x，y) 和 model.test_on_batch(x，y) 进行批量训练与测试。请参阅模型文档。或者，你可以

0 码力 | 257 页 | 1.19 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉取训练 Batch⼊队列 Batch⼊队列 � 效果： � 在不影响训练效果的情况下，降低参数准备与更新耗时，提⾼训练速度。训练耗时下降超50% � 异步storage线程，⽀持基于冷热数据的多级存储。内存消耗下降30%-70% 磁盘训练 Lookup+ pooling 算⼦融合 Unique keys Storage 近期训练参数管理需保持顺序，以保证训练效果样本读取显存（A100最⼤80GB）放不下TB级的模型 � GPU多线程并⾏计算能⼒对稀疏数据不友好 � ⽅案 � 原有：内存能够存储的参数->对应的样本量Group � 新增：显存能够存储的参数->对应的样本量Pass � 新增：GPU并⾏操作友好->CSR格式的显存数据访问 SSD磁盘 10TB 全部参数内存 1TB 即将⽤到的参数显存 32/40/80GB 正在训练的参数分布式训练的慢机与同步问题

0 码力 | 22 页 | 6.76 MB | 1 年前
3
AI大模型千问 qwen 中文文档

一个纯 C/C++ 实现，不依赖任何外部库，并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此外，它还提供了 2、3、4、5、6 以及 8 位量化功能，以加快推理速度并减少内存占用。对于大于总 VRAM 容量的大规模模型，该库还支持 CPU+GPU 混合推理模式进行部分加速。本质上，llama.cpp 的用途在于运行 GGUF（由 GPT 生成的统一格式）模型。欲了解更多详情，请参阅官方即激活感知权重量化，是一种针对 LLM 的低比特权重量化的硬件友好方法。而 AutoAWQ 是一个易于使用的工具包，专门用于 4 比特量化模型。相较于 FP16，AutoAWQ 能够将模型的运行速度提升 3 倍，并将内存需求降低至原来的 1/3。AutoAWQ 实现了激活感知权重量化（AWQ）算法，可用于 LLM 的量化处理。在本文档中，我们将向您展示如何在 Transformers 框架下使用量化模型，以及如何对您自己的模型进行量化。、q6_k 和 q8_0 。欲了解更多信息，请访问 llama.cpp 。 1.10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用，且具有最先进的服务吞吐量、高效的注意力键值内存管理（通过 PagedAttention 实现）、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息，请参阅论文和文档。 1.10.1 安装默认情况下，你可以通过

0 码力 | 56 页 | 835.78 KB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� --worker-memory 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数� Spark解决⽅案� • Coordinator负责协调生成ClusterSpec（扩展的TensorFlow gRPC server） • Worker通过读取RDD获取训练样本 • RDD的数据cache到内存或者磁盘供多次迭代训练使用 SparkFlow介绍 SparkFlow与TensorFlow on Yarn对比：� SparkFlow TensorFlow on Yarn 通过RDD读取训练样本数据，关心

0 码力 | 32 页 | 4.06 MB | 1 年前
3

共 32 条前往

页

分类

语言

格式