2.7 Golang与高性能DSP竞价系统
专业DSP解决⽅方案供应商 Golang与⾼高性能DSP竞价系统 By @QLeelulu 专业DSP解决⽅方案 © ⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Reserved • RTB: Real-time Bidding,实时竞价,允许⼲⼴广告买家根据 活动⺫⽬目标、⺫⽬目标⼈人群以及费⽤用⻔门槛等因素对每⼀一个⼲⼴广告 及每次⼲⼴广告展⽰示的费⽤用进⾏行竞价。 • DSP: Demand Side Platform,需求⽅方平台,允许⼲⼴广告客 户和⼲⼴广告机构更⽅方便地访问,以及更有效地购买⼲⼴广告 库存,因为该平台汇集了各种⼲⼴广告交易平台的库存。 什么是RTB与DSP 专业DSP解决⽅方案 © ⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Reserved 什么是RTB与DSP 专业DSP解决⽅方案 专业DSP解决⽅方案 © ⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Reserved 什么是RTB与DSP 专业DSP解决⽅方案 © ⼲⼴广州舜⻜飞信息科技有限公司 All Right ReservedAll Right Reserved • ⾼高并发量请求处理(峰值QPS 20万) • 每天上百亿竞价请求 • 每个竞价请求要在100毫秒内响应(包含⺴⽹网络延迟)0 码力 | 51 页 | 5.09 MB | 1 年前3TVM@AliOS
PRESENTATION AGENDA 人 人 e 人 e@ TVM Q@ AliOs Overview TVM @ AliOs ARM CPU TVM @ AliOos Hexagon DSP TVM @ Alios Intel GPU Misc /NiiOS ! 驱动万物智能 PART ONE TVM Q@ AliOs Overview AiOS 1驱动万物智能 AliOs overview TFLite Quantized Support 1.61X MobilenetVl TFlite TV Hexagon DSP | 1.27X MobilenetV1 upport 1.12X Mobilenet V1 Multimodal Interection CPU (ARM、Intel) 1驱动万物智能 Accelerated Op Library / Others Inference Engine DSP (Qualcomm) PART TWO Alios TVM @ ARM CPU AiOS 1驱动万物智能 Alios TVMQOARM CPU 。 Support TFLite ( Open0 码力 | 27 页 | 4.86 MB | 5 月前3美团点评2018技术年货
开源发布,支持多语言客户端及多项性能提升 17 ...................................................................... LruCache在美团DSP系统中的应用演进 22 ...................................................................... Netty堆外内存泄露排查盛宴 you@dianping.com。 LruCache在美团DSP系统中的应用演进 - 美团技术团队 LruCache在美团DSP系统中的应用演进 LruCache在美团DSP系统中的应用演进 作者: 王粲 崔涛 霜霜 背景 背景 DSP系统是互联网广告需求方平台,用于承接媒体流量,投放广告。业务特点是并发度高,平均响应低 (百毫秒)。 为了能够有效提高DSP系统的性能,美团平台引入了一种带有清退机制的缓存结构LruCache(Least Recently Used Cache),在目前的DSP系统中,使用LruCache + 键值存储数据库的机制将远端数据变为 本地缓存数据,不仅能够降低平均获取信息的耗时,而且通过一定的清退机制,也可以维持服务内存占用 在安全区间。 本文将会结合实际应用场景,阐述引入LruCache的原因,并会在高QPS下的挑战与解决方案等方面做详 细深入的介绍,希望能对DSP感兴趣的同学有所启发。 LruCache简介0 码力 | 229 页 | 61.61 MB | 1 年前31_当Python遇上FPGA_PYNQ开源项目的实践与体会_陆佳华
Integrated Circuit Jack Kilby, 1958 Field Programmable Gate Array FPGA CLB DSP CLB RAM RAM CLB DSP CLB DSP CLB CLB CLB DSP CLB RAM RAM RAM RAM RAM RAM I/O I/O I/O I/O 5 Field Programmable0 码力 | 9 页 | 3.42 MB | 1 年前3TVM@Alibaba AI Labs
Alibaba AL.Labs 阿里巴巴人工智能实验室 AiILabs & TVM PART 1 : ARM32 CPU CONTENT PART 2 : HIFI4 DSP PART 3 : _ PowervVR GPU [和| Alibaba AL.Labs 阿里巴巴人工智能实验室 ARM 32 CPU Resolution Quantization Orize up) 2. HIFI4 Program (don't need dlopen) Serial Communication HIFI4 DSP HIFI4 DSP HIFI4 DSP [和| Alibaba AL.Labs 阿里巴巴人工智能实验室 PowerVR GPU Alibaba Al.Labs 阿里巴巴人工智能实验室0 码力 | 12 页 | 1.94 MB | 5 月前3Apache HTTP Server Documentation Version 2.0
Visual Studio workspace, Apache.dsw, is provided. This workspace exposes the entire list of working .dsp projects that are required for the complete Apache binary release. It includes dependencies between project instead. The .dsp project files are distributed in Visual C++ 6.0 format. Visual C++ 5.0 (97) will recognize them. Visual C++ 7.0 (.net) must convert Apache.dsw plus the .dsp files into an Apache Apache.sln plus .msproj files, be sure you reconvert the .msproj file if any of the source .dsp files change! This is really trivial, just open Apache.dsw in the VC++ 7.0 IDE once again. Visual C++ 7.0 (.net)0 码力 | 682 页 | 2.05 MB | 1 年前307 FPGA 助力Python加速计算 陈志勇
Python 工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈? Ø 传统的计算平台:基于通用处理器的架构,Intel x86 Ø 新的嵌入式计算平台:MCU,DSP,FPGA,GPU、ASSP等 Ø 嵌入式计算: Ø 嵌入式系统是以应用为中心,以计算机技术为基础,软硬件可裁剪,适用于应用系统对功能、可靠 性、成本、体积、功耗有严格要求的专用计算机系统,它一般由嵌入式微处理器、外围硬件设备、 传统的基于 DSP 计算 - Serial 基于 FPGA 计算 - Parallelism 250 MHz 1 clock cycle = 250 MSPS 600 MHz 1 clock cycle = 600 MSPS C8 C128 126 loops needed to process samples FPGA 运行频率 DSP 运行频率 6 门、触发器等逻辑电路实现一些特定的功能。 Ø 最核心技术:算法并行处理。相比于传统CPU的串 行处理架构 Ø 存储器架构:芯片内有大容量存储器,不需要和外 面的 DDR 做反复读写。 Ø DSP 硬核:硬核乘加器,一个时钟实现。 Ø 数据的处理以FPGA 时钟 cycle 来计算的 Ø 100M 时钟,10ns Ø D 触发器:数据可以准确和时钟同步。一个 时钟 cycle 可以实现多个数据流的同步:数0 码力 | 34 页 | 6.89 MB | 1 年前32_FPGA助力Python加速计算_陈志勇
Python 工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈? Ø 传统的计算平台:基于通用处理器的架构,Intel x86 Ø 新的嵌入式计算平台:MCU,DSP,FPGA,GPU、ASSP等 Ø 嵌入式计算: Ø 嵌入式系统是以应用为中心,以计算机技术为基础,软硬件可裁剪,适用于应用系统对功能、可靠 性、成本、体积、功耗有严格要求的专用计算机系统,它一般由嵌入式微处理器、外围硬件设备、 传统的基于 DSP 计算 - Serial 基于 FPGA 计算 - Parallelism 250 MHz 1 clock cycle = 250 MSPS 600 MHz 1 clock cycle = 600 MSPS C8 C128 126 loops needed to process samples FPGA 运行频率 DSP 运行频率 6 门、触发器等逻辑电路实现一些特定的功能。 Ø 最核心技术:算法并行处理。相比于传统CPU的串 行处理架构 Ø 存储器架构:芯片内有大容量存储器,不需要和外 面的 DDR 做反复读写。 Ø DSP 硬核:硬核乘加器,一个时钟实现。 Ø 数据的处理以FPGA 时钟 cycle 来计算的 Ø 100M 时钟,10ns Ø D 触发器:数据可以准确和时钟同步。一个 时钟 cycle 可以实现多个数据流的同步:数0 码力 | 33 页 | 8.99 MB | 1 年前3FPGA助力Python加速计算 陈志勇
Python 工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈? ➢ 传统的计算平台:基于通用处理器的架构,Intel x86 ➢ 新的嵌入式计算平台:MCU,DSP,FPGA,GPU、ASSP等 ➢ 嵌入式计算: ➢ 嵌入式系统是以应用为中心,以计算机技术为基础,软硬件可裁剪,适用于应用系统对功能、可靠 性、成本、体积、功耗有严格要求的专用计算机系统,它一般由嵌入式微处理器、外围硬件设备、 传统的基于 DSP 计算 - Serial 基于 FPGA 计算 - Parallelism 250 MHz 1 clock cycle = 250 MSPS 600 MHz 1 clock cycle = 600 MSPS C8 C128 126 loops needed to process samples FPGA 运行频率 DSP 运行频率 6 门、触发器等逻辑电路实现一些特定的功能。 ➢ 最核心技术:算法并行处理。相比于传统CPU的串 行处理架构 ➢ 存储器架构:芯片内有大容量存储器,不需要和外 面的 DDR 做反复读写。 ➢ DSP 硬核:硬核乘加器,一个时钟实现。 ➢ 数据的处理以FPGA 时钟 cycle 来计算的 ➢ 100M 时钟,10ns ➢ D 触发器:数据可以准确和时钟同步。一个 时钟 cycle 可以实现多个数据流的同步:数0 码力 | 34 页 | 4.19 MB | 1 年前3Adventures with Legacy Codebases: Tales of Incremental Improvement
TSANWrite tests!Moving up the testing pyramid Unit Tests DSP Regression VST3 Unit Tests Integration E2EMoving up the testing pyramid Unit Tests DSP Regression VST3Changing legacy APIs should you?Breaking Legacy CodeThe desire to standardizeWe have built the same things… ● Lots of similar and unique DSP algorithms ● 7 UI technologies ● 4 installer technologies ● etc….47 xkcd.com/2030/Discover your hidden0 码力 | 77 页 | 4.34 MB | 5 月前3
共 140 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14