积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部综合其他(6)人工智能(5)云计算&大数据(1)产品与服务(1)机器学习(1)

语言

全部中文(简体)(4)英语(2)中文(简体)(1)

格式

全部PDF文档 PDF(7)
 
本次搜索耗时 0.028 秒,为您找到相关结果约 7 个.
  • 全部
  • 综合其他
  • 人工智能
  • 云计算&大数据
  • 产品与服务
  • 机器学习
  • 全部
  • 中文(简体)
  • 英语
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 AI大模型千问 qwen 中文文档

    Qwen Qwen Team 2024 年 05 月 11 日 快速开始 1 文档 3 i ii Qwen Qwen is the large language model and large multimodal model series of the Qwen Team, Alibaba Group. Now the large language models have been upgraded to Qwen1.5. Both language models and multimodal models are pretrained on large-scale multilingual and multimodal data and post-trained on quality data for aligning to human preferences. Qwen is capable generation, vision understanding, audio understanding, tool use, role play, playing as AI agent, etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; •
    0 码力 | 56 页 | 835.78 KB | 1 年前
    3
  • pdf文档 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

    Mixtral 8x22B Command R Command R+ Grok-1 DBRX Qwen1.5 32B Qwen1.5 72B LLaMA 1 Family LLaMA 2 Family LLaMA 3 Family Mixtral Family Command R Family Qwen1.5 Family (a) 0 50 100 150 200 250 300 DeepSeek-V2 representative open-source models, includ- ing DeepSeek 67B (DeepSeek-AI, 2024) (our previous release), Qwen1.5 72B (Bai et al., 2023), LLaMA3 70B (AI@Meta, 2024), and Mixtral 8x22B (Mistral, 2024). We evaluate we elaborately compare DeepSeek-V2 with its open-source counterparts one by one. (1) Compared with Qwen1.5 72B, another model that supports both Chinese and English, DeepSeek-V2 demonstrates overwhelming
    0 码力 | 52 页 | 1.23 MB | 1 年前
    3
  • pdf文档 Trends Artificial Intelligence

    developers 12/24: OpenAI announces o3, its highest-ever performing model 1/25: Alibaba unveils Qwen2.5-Max, which surpasses the performance of other leading models (GPT- 4o, Claude 3.5) on introduces AI overviews to augment its search functions 9/24: Alibaba releases 100 open-source Qwen 2.5 models, with performance in line with Western competitors 1/25: DeepSeek releases Alibaba Vision Models* – Examples Large-Scale* Image Models – Releases Meta Llama 3.2 – 9/24 Qwen2-VL – 12/24 0 10 20 30 2017 2018 2019 2020 2021 2022 2023 2024 2025 (as of 5/25) +109% Rising
    0 码力 | 340 页 | 12.14 MB | 4 月前
    3
  • pdf文档 2024 中国开源开发者报告

    年,中国学术界和产业界大力推进自主研发,在技术创新和模型能力上实现了显著飞 跃,并在全球范围内取得了显著成就。 Hugging Face Open LLM 排行榜数据显示,从智谱 的 GLM 系列、阿里巴巴的 Qwen 系列到深度求索的 DeepSeek 系列,这些自主研发的模型 在国内外各项评测中表现卓越。 每个月来自中国主要研究机构和 公司的开源模型/数据集数量。 图片源自 Hugging Face 区模型社群: https://huggingface.co/spaces/ zh-ai-community/zh-model-rel ease-heatmap 21 / 111 其中,Qwen 系列凭借灵活的多尺寸选项,强大的多语言支持以及友好的模型授权功能, 赢得了社区开发者的高度评价。DeepSeek 通过引入多头潜在注意力(Multi-head Latent Attention 随着开源模型影响力的提高,中国开源社区的活跃度也明显提升。无论是企业、研究机构还 是个体开发者都更加积极地参与到开源工作中。 以阿里巴巴的通义千问 Qwen 为例,据不完全统计,截止 2024 年 9 月,全球已有近 8 万基于 Qwen 的衍生模型,超越了 Meta 的 Llama。该系列模型已被集成到 Hugging Face Transformers、Hugging Chat 和阿
    0 码力 | 111 页 | 11.44 MB | 8 月前
    3
  • pdf文档 清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

    DeepSeek采用模型蒸馏技术,通过将知识从大型复杂模型 (教师模型)迁移到小型高效模型(学生模型),实现性能和 效率的双重优化。DeepSeek选择了多个开源模型作为蒸馏的 目标模型,包括Qwen 系列和Llama 系列  架构创新 通过将模型划分为多个专家模块,实 现高效计算和推理。DeepSeek通过 无辅助损失的自然负载均衡和共享专 家机制,解决了专家模块工作量不平 衡的问题。 著降低了计算成本,使得大规模模型 训练更加可行。 FP8混合精度训练 • 推 理 效 率 提 升 : 蒸 馏 后 的 模 型 参 数 量 大 幅 减 少 , 例 如 DeepSeek-R1-Distill-Qwen-7B的参数量仅为7B,相比原始 的DeepSeek-R1(671B参数),计算复杂度显著降低。 • 性能优化:在代码和数学基准测试中,蒸馏技术显著提升了模 型性能。例如,在基准测试中,蒸馏后的DeepSeek-V2
    0 码力 | 85 页 | 8.31 MB | 7 月前
    3
  • pdf文档 DeepSeek图解10页PDF

    需要大量的文本数 据,使其能够掌握复杂的语言模式并应用于不同任务。 接下来,咱们先从较为基础的概念开始。 2.1 LLM 基础概念 模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b,这里的 1.5b, 7b、8b 代表什么?b 是英文的 billion,意思是十亿,7b 就是 70 亿,8b 就 是 80 亿,70 亿、80 亿是指大模型的神经元参数(权重参数
    0 码力 | 11 页 | 2.64 MB | 7 月前
    3
  • pdf文档 普通人学AI指南

    等。 2.1.2 Claude Claude 是 Anthropic 公司开发的一系列大型语言模型,它设计用于执行多种涉 及语言、推理、分析和编码的任务。 2.1.3 通义千问 通义千问(Qwen)是阿里云开发的一系列预训练的大型语言模型,用于聊天、 生成内容、提取信息、总结、翻译、编码、解决数学问题等多种任务。这些模型 在多种语言数据上进行预训练,包括中文和英文,覆盖广泛的领域。 2.2
    0 码力 | 42 页 | 8.39 MB | 7 月前
    3
共 7 条
  • 1
前往
页
相关搜索词
AI模型千问qwen中文文档DeepSeekV2StrongEconomicalandEfficientMixtureofExpertsLanguageModelTrendsArtificialIntelligence2024中国开源开发开发者报告清华大学DeepResearch科研图解10PDF普通通人普通人指南
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩