2024 中国开源开发者报告
的产品信息、开发过程信息,从而更全面地理解和解决问题。目前排在 SWE-bench verified 前 4 位都使用了 Claude-3.5-Sonnet,而它是多模态的、具备处理文本和视觉信息的能力,使其能 够理解和修复包含图像或其他视觉元素的 GitHub 问题。 和工具集成的框架:可以支持智能体在处理复杂任务时进行更好的任务管理和执行,并促进 不同 AI 模型和工具之间的协作。 例如 Composio SWE-Kit 是计算机视觉领域最著名的开源数据集之一,包含数百万张带有标 签的图像。它为图像分类、物体检测等任务提供了丰富的数据资源,使得模型能够在视觉理解方 面取得突破。它由普林斯顿大学的计算机科学家李飞飞(Fei-Fei Li)及其团队在 2009 年创建。 ImageNet 包含超过 1400 万张图像,这些图像分为超过 2 万个类别,每个类别都与 WordNet 中的一个词条对应。每个类别的图像数量从数百到数千不等。ImageNet 今我们看到的种类繁多的视觉大模型(VLMs)开启了新的篇章。 COCO(Common Objects in Context):COCO 数据集由微软于 2014 年发布,涵盖 51 / 111 了数十万张日常生活中的图像,并附有详细的标注信息。虽然 COCO 对比 ImageNet 具有更少 的类别,但每一个类别拥有更多的实例,假定这能帮助复杂模型提高物体定位的准确率。它的设 计初衷适用于具有上下文信息的图片中0 码力 | 111 页 | 11.44 MB | 8 月前32023 中国开源开发者报告
的实力,将 LLM 狂 潮卷到天际。 四、 Stable Diffusion 和 Midjourney 这两大图像生成系统 的出现,极大地拓展和加速了 LLM 在计算机视觉领域的应 用,它们突破了传统图像生成方式的局限,仅需要用户提供 文字描述,就可以生成高质量的数字艺术作品。它们的图像 生成质量、样式多样性和用户便捷性都是极大的突破。这为 广大的个人用户和创意行业提供了强有力的工具,彻底改变 英伟达凭借各国、初创公司、大型科技公司和研究人员 对其 GPU 的巨大需求,跻身市值万亿美元俱乐部; 主要芯片供应商开发了不受出口管制影响的替代产品; 在 ChatGPT 的带领下,生成式 AI 的应用在图像、 视频、编码、语音等领域取得了突破性的进展,带动了 180 亿美元的风险投资和企业投资。 O'Reilly 发 布 的 “ 2023 Generative AI in the Enterprise”报告显示: 14 日,OpenAI 正式推出 GPT-4。 GPT-4 是多模态大型语言模型(Large MultiModal Model),这是和 GPT-3 的 一个显著区别,它的输入输出不再局限于文本,可以是图像或者是视频。 Anthropic团队由参与OpenAI GPT-2和GPT-3模型开发的前研究人员组建, 专注于开发通用 AI 系统和语言模型,并秉持负责任的 AI 使用理念。 李彦宏称:“无论0 码力 | 87 页 | 31.99 MB | 1 年前32023年中国基础软件开源产业研究白皮书
功能,可将本机容器化应用编排和管理扩展到边缘端设 备,实现云边协同 • KubeEdge让开发人员可以编写常规的基于http或mqtt 的应用程序在Edge或Cloud的任何地方运行。更轻松的 将复杂的机器学习、图像识别、事件处理等高级应用程 序部署到边缘 • Volcano是一个建立在Kubernetes上的批处理系统,可 对 承 接 应 用 程 序 通 常 运 行 多 种 通 用 领 域 框 架 , 如 在集团业务中的多元应用,框架均没有得到持续演 进,目前处于追赶态势。 提供适用于视觉、语言、 知识图谱、机器学习等某 一AI领域的开发框架。 (X-Deep Learning) 由清华大学计算机系图形 学实验室开发,实现图像 识别、检测、分割、生 成、渲染等AI能力的开源 开发框架。 开源时间 国内首个以AI为主营业务 的企业,对外开放的围绕 机器视觉打造的开发框 架,主要应用于视频分 析、影像处理、金融预测 等领域。 手机电磁仿真、化合物预训练模型、 飞机气动仿真 MindSpore Lite 简化部署 AI实验室一站式开发 Build-in套件 BERT LSTM Vit ResNet 模型库 图像分类 目标检测 文本分类 … 数据集 在线加载 快速上手官方样例仓库 完备使用教程 代码管理 在线训练 界面启动 Jupyter Notebook 在线推理 支持多种算力 CPU0 码力 | 43 页 | 4.69 MB | 1 年前3Moonshot AI 介绍
⼀段创业经验学到最 多的。 ⼤模型很烧钱,把握好投⼊的速度,同时还要保证⾃⼰还是要拿出东西,有产品数据,是⾮常关键的 问题。 预测下⼀个token是唯⼀问题 36氪:AI领域有⼏⼤⽅向:图像识别(CV)、⾃然语⾔处理(NLP)、机器学习(ML)。前⼏年CV更 热闹,上⼀波AI四⼩⻰(商汤、旷视、云从、依图)都是这个⽅向。你⼀直在做NLP,为什么? 杨植麟:抛开偶然因素,还是有⼀些 杨植麟:我们看到,即使对于OpenAI本⾝来说,现在GPT需要解决的问题仍有很多。⽐如怎么训练出 ⼀个好的视频模型,能够让⽂本和视频实现真正意义上的跨模态交互。当下的跨模态模型更像是⼀个 单任务模型,它只知道怎么去⽣成这个图像,但是⼤脑部分⾮常薄弱。 基于DiffusionModel的技术路径,⼀个重⼤问题是你没有办法去做真正的跨模态建模,只能基于很简 单的⽂本向量去做decoding。本质上,它并没有对不同模态的联合概率去做⼀个可规模化的建模,这 ⽂窗⼝其实是⼤模型技术未来发展的必由之 路。 如今,以OpenAI为代表,⼏乎所有的头部⼤模型企业都会⾛多模态技术道路,因为⼈类⽂明的总和不 ⽌以⽂字的形式存在硬盘上,还隐藏于海量的语⾳、图像、视频等数据形态中。MoonshotAI创始⼈ 杨植麟曾提到,他们相信对海量数据的⽆损压缩可以实现⾼程度的智能。⽽⽆损压缩等同于对数据联 合概率分布的预测,这就找到了与多模态数据⽣成的契合点,多模态数据的⽣成本质上也是在做数据0 码力 | 74 页 | 1.64 MB | 1 年前3网易数帆 领先的数字化转型技术与服务提供商 2021
媒体内容理解、音 视频效率工具、语音/NLP/CV 能力组件等产品和服务,助力企业智能化升级,拓展智慧生产力。 PRODUCT 多媒体内容解析 综合运用 CV、语音、NLP 等技术,针对视频、图像、音频、文本等 多媒体内容进行基础识别与解析,获得离散的内容表示信息。 综合内容理解 基于离散的内容解析结果,结合领域知识和多模态融合技术, 综合分析与推理获取内容的层次化语义描述及统计分析信息,0 码力 | 43 页 | 884.64 KB | 1 年前32021 中国开源年度报告
GitHub stars 达到 9.4k+,fork 数达到 1k+,总下载量超过 100 万次。Jina 用户场景多样,可以满足 不同行业对神经搜索的需求,比如游戏制作公司的 3D 模型,电商网站上的图像和能够理解混合语义的 2021 中国开源年度报告 103 问答聊天机器人。Jina 在资本市场上也受到多个知名投资机构认可,目前公司总融资金额已达到 3,900 万美元,最新 A 轮融资 30 码力 | 132 页 | 14.24 MB | 1 年前32021 中国开源年度报告
上吸引了大量用户,GitHub stars 达到 9.4k+,fork 数达到 1k+,总下载量超过 100 万次。 Jina 用户场景多样,可以满足不同行业对神经搜索的需求,比如游戏制作公司的 3D 模型,电 商网站上的图像和能够理解混合语义的问答聊天机器人。Jina 在资本市场上也受到多个知名投 资机构认可,目前公司总融资金额已达到 3,900 万美元,最新 A 轮融资 3,000 万美元,该轮 融资由新投资方美国投资机构0 码力 | 199 页 | 9.63 MB | 1 年前3
共 7 条
- 1