Moonshot AI 介绍
你怎么样找到⼀个系统性的⽅式去做事情。我觉得这个点是所有技术的⼀个前提条件,也是我们现在 可能最想去迭代做得更好的⼀个点。 张鹏:你说的系统性⽅式是指它可以被复制、被放⼤吗? 杨植麟:对。但这⾥的复制指的是你能把它⽤在做不同的事情上,它不⼀定能够复制到别的地⽅。因 为这是你在⼀个公司⾥⾯形成,要复制到别的地⽅可能很难。但是⼀个公司可以反复地去利⽤这个系 统去做不同的事情。⽐如说我今天可以⽤它去克服⻓⽂本的挑战,明天可以去做⼀个⾃主的AI能⼒, hubCopilot或者Midjourney,本质上其实 没有什么不同,主要是定义的数据不同。 所以我觉得这是极⼤的范式创新,产品经理越来越多需要想的事情是怎么通过两个数据集去开发⼀款 产品,定义好了数据集,其实产品就定义完成了。⼀个是训练数据,⼀个是测试数据,训练数据决定 了模型能提供什么能⼒,测试数据决定了模型的实际可⽤程度。 以前没有AINative的产品,只有AI ⼈,也不⼀定知道怎么去套这种东西。 但是现在有越来越多的产品需要AINative,⽐如今天想开发⼀个跟CharacterAI⼀样的产品,或者在 上⾯做优化,那你就要考虑怎么做优化。如何定义你的两个数据集,可能需要你有很好的数据的⽣产 和处理技术,如何获取数据,以及什么样的数据是有效的等等。 我们需要在不断的探索过程中,把这些流程和开发范式具象化,AGI的新的开发⽅式,可能需要⼀个新 的组织形式才有可能做到。0 码力 | 74 页 | 1.64 MB | 1 年前32024 中国开源开发者报告
和协 作,形成了国际化开源生态。 北京智源研究院和上海人工智能实验室等研究机构,通过与企业和高校合作及开源平台的建 设,建立了更完善的协作机制,从而在开源模型 (如 InternLM) 和数据集 (如 Infinity-MM) 领 域贡献了大量有影响力的基础工作和资源。 2024 年,中国开源社区涌现出众多高质量的自发研究成果。其中,MAP 团队推出的全开 源模型 Map Neo 引人 GPT、OpenAI o1、Llama 等) 的崛起,开源数据和算法在大模型训练中的重要性愈发显著。开源数据集和算法不仅推动了 AI 研究的进步,也在应用层面带来了深远的影响。然而,伴随这些机遇的还有诸多风险与挑战,如 数据质量、版权问题和算法透明性等。本文将浅析大模型训练过程中开源数据集和算法的重要性 和影响,分析其在促进 AI 研究和应用中的机遇,并警示相关的风险与挑战。 任何方案都具有 。 重要的开源数据集和算法在大模型训练中的角色 开源数据集是大模型训练的基石。没有高质量的数据,大模型的性能和应用场景将受到极大 限制。ImageNet、COCO、Wikipedia 和 Common Crawl 是非常重要一批高质量的开源数据 集。以下是这几个数据集在大模型训练历程中的重要角色。 ImageNet:ImageNet 是计算机视觉领域最著名的开源数据集之一,包含数百万张带有标0 码力 | 111 页 | 11.44 MB | 8 月前32023 中国开源开发者报告
月,阿联酋研究团队宣布开源阿拉伯语大模型 Jais。Jais 是一个 经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 2790 亿个英语 / 代码词块的数据集上进行训练。 谷歌发布 AI 代码编辑器:Project IDX 2023 年 8 月,Meta 开源了号称是编程领域 “最先进的大语言模型”——Code Llama,完全免费且可用于研究和商业用途。 年多的长期支持后,Linux 4.9 内核系列在 Linux 4.9.337 更新中 结束了生命周期。 Linux 内核 4.9 于 2016 年 12 月 11 日发布,它带来了对 XFS 文件系统的共 享范围和写时复制支持、用于检测固件引起的延迟的硬件延迟跟踪器、对 来自 Project Ara 的 Greybus 总线的支持、更高效的 BPF 分析器、新的可选 BBR TCP 拥塞控制算法、虚拟映射内核堆栈等特性。 Inter,Linux 和 macOS 版最低要求 OpenGL 4.3,升级渲染能力,等等。 Wine-CE 是在不同指令集架构 Linux 系 统上运行 Windows 程序的兼容层,它基于 Wine 项目和 Qemu 项目。与 Wine 相比, Wine-CE 可 以 模 拟 执 行 不 同 指 令 集 的 Windows 软件,它使用修改过的 Qemu 作为指令翻译层。 历经三年多的开发,Meilisearch0 码力 | 87 页 | 31.99 MB | 1 年前3中国开源软件产业研究报告
模式,软件代码公开,海量用户和开发者在了解软件的过程中不断提出改进意见并查缺补漏,并都在开源社区中交换彼此 的创意和意见,满足市场需求的开发路径自然会获得更多人的青睐和进一步的改进。热衷于开源运动的开发者认为,“集 市”模式通过市场的自然选择,能够发掘出真正具备潜力和价值的项目和创意,从而为软件的持续发展赋能。 “大教堂”和“集市”开发模式的对比和适用性 对于软件产业而言,“大教堂”模 式仍然是众多企业在激烈的市场竞 华为OpenGauss开源数据库架构 应用层 内核层 框 架 层 系 统 服 务 层 内核子系统 驱动子系统 系 统 基 本 能 力 子 系 统 集 基 础 软 件 服 务 子 系 统 集 增 强 软 件 服 务 子 系 统 集 硬 件 服 务 子 系 统 集 系统应用 扩展应用/三方应用 遵循分层设计,按照系统 > 子系统 > 组件的结构逐级展开,在使 用时可以根据实际需要对组件进行裁剪 网络通道10GE 二者构成 实质性相似。 是否能认定软件“抄 袭”,如何做到? 我国法律认为:开源协议属于公开可自由取得的文件,著作权人在公开源代码时明确声 明并附加GPL等开源协议的行为可被视为要约,不特定主体复制、运行、修改、传播附 有开源协议的源代码的行为应为承诺,承诺做出即产生法律效力,合同成立认可开源协 议的法律效力。 开源许可证是否具备 法律效力? 47 ©2022.2 iResearch Inc0 码力 | 68 页 | 3.63 MB | 1 年前32021 中国开源年度报告
者自发地开发了 可以自由使用的“自由软件”。自由软件运动的发起人,也是 GNU 操作系统开发人及自由软件基金会创始 人的 Richard Stallman 将自由软件定义为“用户可以自由地运行、复制、分发、研究、更改和改进的软件”。 在这个时期出现了首批开源许可证 GNU(通用许可证,现在通常称为“GPL”)和 BSD 许可证。 2021 中国开源年度报告 81 开源 1.0 时代 “Support 如集成、使用培训、商业 部署等。支持服务的优势在于可以与客户深度融合。但是这种模式从长远来看会受到限制,主要原因为: (1) 支持通常需要大量的人工工作,因此降低了业务利润 ;(2) 工作缺乏可复制性,部署 / 集成不可扩展, 无法规模性发展 ;(3) 客户转化率低,通常只能将不到 1% 的用户转化为付费客户,主要是因为只有那 些依赖关键任务系统项目的客户才愿意为支持付费。 然而,那些严重依赖项目的人自然会随着时间的推 docs 等。其次是阿里,TOP 10 项目中上榜的项目有 2 个,分别是蚂蚁金服采用 React 封装的一套组 件库 Ant Design ( 位于第 2 名 ),以及致力于配置和管理微服务的特性集 Nacos。百度也上榜了 2 个 项目,主要集中在人工智能领域,是百度深度学习平台 PaddlePaddle 的 2 个项目,分别是核心框架 Paddle 以及相关工具库。0 码力 | 132 页 | 14.24 MB | 1 年前32023年中国基础软件开源产业研究白皮书
www.iresearch.com.cn MindSpore具有多种类模型库、数据集以及内置开发套件,可一站式满足AI开发需求。框架向下支持包括CPU、GPU、昇腾的多类 型算力,向上支持国内包括紫东·太初2、秦岭·翔语、CodeGeeX、鹏程·神农、空天·灵眸等50+大模型。MindSpore深耕学术应用, 飞机气动仿真 MindSpore Lite 简化部署 AI实验室一站式开发 Build-in套件 BERT LSTM Vit ResNet 模型库 图像分类 目标检测 文本分类 … 数据集 在线加载 快速上手官方样例仓库 完备使用教程 代码管理 在线训练 界面启动 Jupyter Notebook 在线推理 支持多种算力 CPU GPU Ascend MindPet iresearch.com.cn 42 LEGAL STATEMENT 版权声明 本报告为艾瑞数智旗下品牌艾瑞咨询制作,其版权归属艾瑞咨询,没有经过艾瑞咨询的书面许可,任 何组织和个人不得以任何形式复制、传播或输出中华人民共和国境外。任何未经授权使用本报告的相 关商业行为都将违反《中华人民共和国著作权法》和其他法律法规以及有关国际公约的规定。 免责条款 本报告中行业数据及相关市场预测主要为公0 码力 | 43 页 | 4.69 MB | 1 年前32021 中国开源年度报告
source projects integrate RPA (Robotic Process Automation) 对于开源项目是否集成了 RPA,即机器人流程自动化工具,有 5 成受访者表示一部分项目集 成了 RPA,较去年有所提升,仅有 1 成的受访者表示从来没有在开源项目中集成过 RPA,比 去年下降了 15%,说明开源项目越来越重视流程的自动化。 Whether for open source 集成、使用培 训、商业部署等。支持服务的优势在于可以与客户深度融合。但是这种模式从长远来看会受到 限制,主要原因为:(1) 支持通常需要大量的人工工作,因此降低了业务利润;(2) 工作缺乏可 复制性,部署/集成不可扩展,无法规模性发展;(3) 客户转化率低,通常只能将不到 1% 的用 户转化为付费客户,主要是因为只有那些依赖关键任务系统项目的客户才愿意为支持付费。 然 而,那些严重依赖项 docs-cn、docs 等。其次是阿里,TOP 10 项目中上榜的项目有 2 个,分别是蚂 蚁金服采用 React 封装的一套组件库 Ant Design (位于第 2 名),以及致力于配置和管理微 服务的特性集 Nacos。百度也上榜了 2 个项目,主要集中在人工智能领域,是百度深度学习 平台 PaddlePaddle 的 2 个项目,分别是核心框架 Paddle 以及相关工具库。 As more and0 码力 | 199 页 | 9.63 MB | 1 年前3全球开源发展态势洞察(2023年第八期)
近日,Nutanix推出Kubernetes数据管理平台 Nutanix Data Services for Kubernetes。具体 功能如下: • NDK为Kubernetes应用提供数据保护、 恢复、迁移、克隆和复制等管理功能; • 支持将恢复时间目标(RTO)和恢复点目 标(RPO)从几天缩短到几分钟; • 提供策略驱动的有状态应用管理; • Kubernetes和IT管理员可以通过制定规则 和限制来管理基础设施,并启用自助式工 通过权利人发布 的正当手段取得源代码,且与我国著作权保护的精神相违背,不应认定其获取了权利人软件的 GPL授权许可。另一方面,非正当手段获取包含GPL协议软件源代码的行为人,由于对权利人软 件实施了复制、修改、分发等行为,其实际上以实践行为做出了对GPL协议要约的承诺,其负有 GPL协议中的所约定的相关义务。 2、“传染性”的认定。判断GPL协议所能传染的衍生软件或修订版本,区分开源代码与自有代0 码力 | 22 页 | 1.99 MB | 1 年前32020 中国开源年度报告
Google,⽽在国内企业中, Alibaba、Huawei 和 Baidu 分别占据前三名。 4.9 机器⼈流程⾃动化 对于开源项⽬是否继承了 RPA,即机器⼈流程⾃动化⼯具,有四成参与者表示⼀部分项⽬集 成了 RPA,16% 的参与者表示⼏乎所有项⽬都有集成 RPA,同时也有 24% 的参与者表示从 来没有在开源项⽬中集成过 RPA。 5、开源社区参与现状 5.1 开源最吸引你的因素 开放 ant-design/ant-design,基于 Ant Design 框架搭建的中后台管理控制台的脚⼿架 ant-design/ant-design-pro 和致⼒于配置和管理微 服务的特性集 alibaba/nacos 外,饿了么(已被阿⾥收购)的开源项⽬ ElmFE/element 作为 前端组件,表现也⼗分突出。 PingCAP 在开源领域的表现也是⾮常地亮眼。Top50 项⽬中上榜的项⽬有 时区,即⼤多数为欧洲的开发者,但 0 时⽆论周末还是⼯作⽇,都有⼤量事件产⽣,⼏乎可以肯定这个项⽬使⽤了⾃动化协作机器 ⼈,⽽且很多定时任务是在 0 时执⾏的;nnstreamer/nnstreamer 开发者的⼯作时间主要集 中在周⼀~周五,位于 UTC+8 时区,表明该项⽬的开发者以亚洲开发者居多,且开发者周末 是双休的。 6、案例分析——Wuhan2020 6.1 简介 Wuhan2020 是 COVID-190 码力 | 46 页 | 4.09 MB | 1 年前3网易数帆 领先的数字化转型技术与服务提供商 2021
图分析 标签管理 画像分析 群组管理 API管理 支持数据产品研发 无代码平台,与 BI 、数据填报、复杂报 表、智能决策深度融合。 开放与集成能力 以标准类接口开放所有资源,支持集 成,兼容性强。 内置增强分析 内置高级分析模型,如预测、聚类,离 散;支持智能问答、智能分析等多种分 析场景。 产品特色 产品能力 业务流程覆盖数据收集、加工、分析、应用等全链路环节,内置可视化报告、自助式 性,提供在线采样、上传数据 多种调试方式,支持任务血 缘、版本管理等。 流批一体存储 提供开发 / 线上模式,实现 开发 / 运维隔离,支持快照 版本管理;通过调试功能为 开发者模拟低成 本开发集 群,在不引入额外成本前提 下全面保障线上安全。 全链路监控 提供任务的全生命周期事件 管理,支持任务运行日志收集 与检索,支持任务运行状态各 维 度 metrics 的 汇 总 与 展 示,实现全链路监控与智能诊0 码力 | 43 页 | 884.64 KB | 1 年前3
共 10 条
- 1