OpenAI-12天新品发布会内容总结

yoyo 12/21/2024 o1模型o1-APIWebRTCo3模型Sora强化微调

# 1. 新品发布会

OpenAI于2024年12月5日正式宣布将举行为期12天的系列发布活动 12 Days of OpenAI (opens new window)，期间每个工作日发布一个产品或样品，活动将包括备受期待的视频生成工具Sora和新的推理模型o1、o3系列等。

第1天 (opens new window)：发布o1和o1 pro模型，数学和科学表现更佳，同时推出月费200美元的ChatGPT Pro订阅服务。
第2天 (opens new window)：介绍强化微调技术，这是新的模型训练方法，支持使用少量训练数据在特定领域创建专家模型。
第3天 (opens new window)：发布视频生成工具Sora，仅ChatGPT Plus、ChatGPT Pro付费用户可用，二者使用次数都受限。
第4天 (opens new window)：升级ChatGPT Canvas，面向所有用户开放使用（包括免费用户），支持了代码执行的能力。
第5天 (opens new window)：宣布ChatGPT集成到Apple Intelligence，可通过Siri使用ChatGPT的功能，但中国大陆暂不支持。
第6天 (opens new window)：高级语音模式支持了视频输入和实时屏幕共享，这些视觉信息可以更好地理解用户的指令和问题。
第7天 (opens new window)：推出了ChatGPT Projects，旨在帮助用户更高效地组织管理对话内容，同时为复杂任务提供支持。
第8天 (opens new window)：升级了ChatGPT Search，面向所有用户开放使用（包括免费用户），集成语音模式并提升速度。
第9天 (opens new window)：发布了o1模型的API，支持函数调用、结构化输出、视觉识别等，同时推出了WebRTC实时API。
第10天 (opens new window)：推出ChatGPT热线电话，无需账号可通过电话或WhatsApp与其互动，该功能方便老年人用户。
第11天 (opens new window)：Mac版ChatGPT可通过 “Work with Apps” 功能，与Xcode、Notion等开发和文档工具协同工作。
第12天 (opens new window)：介绍了o3 mini和o3模型，推理性能领先，并登顶Arc AGI基准测试榜单，二者预计明年1月上线。

注：除了强化微调技术、o3 mini 和 o3 模型之外，其他的目前均已实装上线。

# 2. 面向普通用户

# 2.1 发布o1和o1-pro模型

# 2.1.1 ChatGPT Pro订阅服务

OpenAI推出了ChatGPT Pro订阅服务，价格为每月200美元，可以无限制访问o1并允许访问o1-pro模型。而原先的ChatGPT Plus用户只能有限的访问o1，没有o1-pro的访问权限。OpenAI 后续计划为 Pro 用户提供更多增值服务，例如更长的上下文窗口（目前是 128K）、更快的响应速度等。

ChatGPT-Pro订阅服务

# 2.1.2 o1及o1-pro的能力提升

o1 基础版：适用于日常使用，功能强大、反应迅速。

多模态能力增强：处理文本和图像的能力大幅提升，支持图像内容分析和相关问题解答。
语言理解能力提升：更准确捕捉语言细节和上下文，文本生成、翻译和摘要表现更加流畅自然。
错误率降低：比起预览版，错误率降低了35%，生成内容更加准确可靠。
响应速度提升：速度提升50%，减少用户等待时间，带来更流畅的使用体验。

o1 pro版：面向对AI性能要求更高的专业用户，强大而精确。

深度推理能力：可处理复杂的数学和科学问题，支持多步推理和专业计算，思考时间约1-3分钟，有进度条展示。
专业领域知识：在科学、数学、编程等领域表现出色，提供专业、准确的解答。
长文本处理能力：支持更长的文本输入和输出，轻松应对长文档处理与内容生成。
自定义能力：提供更多微调选项，用户可根据自身需求进行个性化定制。

O1系列模型性能对比

# 2.1.3 o1模型的实际使用效果

o1及o1 pro模型（需要ChatGPT Pro订阅服务，我没开）比之前的o1-preview更加完备，支持了多模态输入，功能已实际上线。

o1模型已实际上线

这里以普特南数学竞赛的题目测试o1模型的能力，题目是做对了的。

o1模型解决普特南数学竞赛题目

参考答案见该论文：https://kskedlaya.org/putnam-archive/2023s.pdf (opens new window)

验证o1答案是正确的

# 2.2 发布Sora视频生成模型

# 2.2.1 Sora简介及技术原理

Sora 是一个文生视频模型，它能够根据文本指令生成视频，这些视频不仅逼真，而且包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。据Sora技术报告介绍，Sora不仅能够理解用户在提示中所要求的内容，还理解这些内容在物理世界中的存在方式。

Sora 的工作原理是使用扩散模型，它从一个看起来像静态噪声的视频开始，然后通过多个步骤逐渐去除噪声，最终生成视频。它使用类似于 GPT 模型的变换器架构，这使得它能够处理更广泛的视觉数据，包括不同的持续时间、分辨率和宽高比。Sora 还使用了 DALL·E 3 中的重述技术，为视觉训练数据生成高度描述性的字幕，从而使模型能够更忠实地遵循用户在生成视频中的文本指令。

Sora技术原理

Sora的技术原理详见官方技术报告：https://openai.com/index/video-generation-models-as-world-simulators/ (opens new window)

# 2.2.2 Sora模型的使用权限

Sora 已经正式上线，登录网址为 https://sora.com (opens new window)，目前仅ChatGPT Plus、ChatGPT Pro订阅账号才能体验其功能，其中：

Plus 会员账号有 50 条/月的快速生成机会，每条视频长度最多 5 秒，最高清晰度为 720p 。
Pro 会员账号有 500 条/月快速生成机会以及无限次的慢速生成机会，每条视频长度最多 20 秒，最高清晰度为 1080p，并且可同时提交 5 个生成任务，另外还可以将视频进行无水印下载。

Sora视频生成主界面

# 2.2.3 Sora的实际使用效果

输入Prompt之后等待一段时间即可生成视频，可导出Video和Gif格式，Sora的详细功能见官方介绍文档：https://openai.com/sora (opens new window)

Sora实际使用效果

从实测的效果来看，Sora的效果并没有带来太多惊喜。无论是在视频时长、生成效果一致性、还是指令遵循方面，都没有明显强于市面上的已有视频模型（如快手的“可灵”）。

# 2.3 ChatGPT Canvas功能升级

# 2.3.1 ChatGPT Canvas升级概述

OpenAI升级了ChatGPT Canvas的一些功能，并且面向所有用户开放使用了（也包括ChatGPT免费用户），通过引入文档编辑与Python代码执行能力，支持实时协作创作、自动调试和内容优化。

具体升级点概括：

GPTs可以使用Canvas。
使用Canvas编码后，Python代码由客户端执行可以直接运行并查看结果，如果有错误会被修复。
用Canvas写文章可以对文章进行操作添加表情图标emoji、润色、调整阅读级别、调整文章长度、给出修改建议。
对已有的文章进行批注。
普通用户可以使用Canvas了。

ChatGPT-Canvas位置更改

# 2.3.2 ChatGPT Canvas使用效果

ChatGPT Canvas能够实现人机协同交互式写作及编程等任务，使用体验还是很不错的。

ChatGPT-Canvas使用效果

# 2.4 ChatGPT集成到Apple Intelligence

随着推送给用户的 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 ，更多的智能服务接入苹果设备，其中就包含用于创建自定义表情符号的 Genmoji、用于生成图像的 Image Playground 和 Image Wand，以及集成到 Siri 的 ChatGPT 等服务。

在更新至最新系统后，用户可以通过 Siri 或写作工具直接访问 OpenAI 的 ChatGPT（GPT-4o 版本），同时还能完成一键识物、总结和复制文本、跨语言翻译以及提取电话号码等操作。

ChatGPT集成到Apple-Intelligence

苹果方面表示，明年将推出更多苹果智能的更新，其中就包含对 Siri 将迎来重大进化，尤其是在跨应用操作方面。目前，苹果智能暂不支持中国大陆地区，主要面向特定英语地区用户开放。

# 2.5 高级语音模式支持视觉功能

ChatGPT的高级语音模式支持了视频输入和实时屏幕共享功能。使ChatGPT能“看到”用户和周围环境，基于这些视觉信息来更好地理解用户的指令和问题。高级语音模式使用多模态4o模型，可直接输入音频并输出音频，支持语言超过50种，面向移动端用户，目前仅对Plus和Pro订阅用户开放。

高级语音模式支持视觉功能

注：OpenAI的高级语音功能反应速度很快，具有像人一样的语气和音色，而且随时可以被打断，真的很像在跟人聊天，其效果着实让我感到很惊艳。但它也有一些令我感到不满的地方，比如有时没有听懂我的问题（可能是我发音不准，也可能是它理解能力有限），再比如动不动就告知“原则上我不能讨论此话题，还有其他需要帮忙的吗？”，但我只是问了点儿并不敏感的技术问题而已。

# 2.6 推出ChatGPT Projects功能

# 2.6.1 什么是ChatGPT Projects

简单来说，“Projects” 是 ChatGPT 中的一种新型组织工具。它允许用户创建特定项目，上传相关文件，设置自定义指令，并将所有与该项目相关的对话集中在一个地方。你可以将其理解为一种智能文件夹，它不仅能帮助你整理对话，还能为复杂任务提供上下文支持。

# 2.6.2 ChatGPT Projects使用效果

旨在帮助用户更高效地组织和管理对话内容，同时为复杂任务提供支持。它允许用户在各类项目中结合使用所有既有ChatGPT功能，包括SearchGPT、Canvas以及编码等，形成一个更为完整的工作环境。该功能目前是付费用户可用，后续会推给免费用户。

ChatGPT-Projects功能位置

# 2.7 ChatGPT Search功能升级

# 2.7.1 ChatGPT Search升级概述

ChatGPT Search升级了搜索功能，它采用了GPT-4o模型的微调版本。功能通过与第三方搜索提供商及ChatGPT的合作伙伴直接提供的内容相结合，用户能快速并准确地获取所需信息。新增的可搜索信息包括最新体育比分、新闻、股票报价等实时信息。用户可以通过指向相关网络资源的链接获得快速、及时的答案。主要亮点如下：

搜索性能提升：搜索速度更快，移动端体验更好，加入了地图体验。
语音搜索整合：用户可以通过语音对话获取实时网络信息。
全球免费开放：搜索功能向全球的所有用户免费开放。
对话式搜索： ChatGPT能够保持对话上下文、理解用户意图。

# 2.7.2 ChatGPT Search使用效果

点击搜索框的联网按钮，即可主动开启ChatGPT Search功能，它将联网搜素信息并总结答案。

# 2.8 ChatGPT开通AI热线电话

用户无需账号可通过电话或WhatsApp与ChatGPT互动。其中，美国用户可以拨打1-800-CHATGPT （1-800-242-8478），通过OpenAI的实时对话功能——高级语音模式每月与这款广受欢迎的聊天机器人免费通话15分钟；其他国家的用户可以使用WhatsApp向同一号码发送消息，与聊天机器人互动。

这个功能一方面是考虑到可能有用户在网络信号不佳的情况下需要使用ChatGPT。另一方面，这将有助于一些不太能够触达网页端和App端的用户群体使用AI产品，例如老年人用户。

# 2.9 Mac版ChatGPT接入应用程序

ChatGPT for Mac 全新升级，强化了与开发工具和文档工具的深度集成。通过“Work with Apps”功能，用户可以轻松与Warp、Xcode、Notion、Apple Notes等30多款应用协同工作，实现编程支持、文本生成与编辑等任务的自动化操作。新功能已在Mac最新版ChatGPT应用中推出，而Windows用户还需等待。

在编程领域，ChatGPT能够在Xcode中提供代码补全和功能扩展，并支持Warp终端的实时开发协作，同时兼容JetBrains IDE系列、VSCode分支版本等。
在写作方面，新增对Notion、Apple Notes、Quip等工具的支持，结合语音模式提供更加自然高效的交互体验。通过搜索优化写作内容，确保信息准确性。

Mac版ChatGPT接入应用程序

# 2.10 介绍o3和o3 mini模型

# 2.10.1 为什么命名跳过o2

OpenAI即将发布其新一代推理模型，并将其命名为"o3"。这是对现有o1模型的重大升级，但OpenAI公司选择跳过"o2"这个版本号，这一命名决策源于潜在的商标问题——"o2"可能与英国电信公司O2产生商标冲突。

# 2.10.2 o3模型性能有多强

作为OpenAI当前性能最强的推理模型，o3在多项基准测试中表现卓越，特别是编程和数学领域显著提升，多项超人类专家。

[1] 编程能力

在真实世界软件任务评估（HumanEval-Verified）中，o3以 71.7%的准确率刷新记录，相比前代模型o1提升超过20%；在竞争性代码编程平台（Competition Code）上的ELO评分高达 2727，远超o1的1891。

直播中， Sam问同时在教授竞技编程的研究主管Mark能拿多少分，Mark回答自己在类似平台的最好成绩大概是2500分。Sam随即透露，o3的分数甚至超过了首席科学家Yakov。当得知公司里有人能拿到 3000 多分后，Sam 调侃道：“他还能享受这优势几个月吧，o3在编程方面的表现确实不可思议。”

[2] 数学推理

o3在美国数学奥林匹克考试（AIME）中获得前所未有的 96.7%准确率，在博士级科学问题测试（GPQA Diamond）上准确率达到 87.7%，显著超过人类专家平均水平的 70%。

[3] 前沿测试五年来首次被攻克

Mark提到，在现有的传统基准测试中，o3已接近饱和，突显了更难测试的必要性。最近，Epic AI的前沿数学基准测试脱颖而出，被认为是眼下最难的数学评估。该数据集包含全新、未发表且极端复杂的问题，即使专业数学家解决一道题也可能需数小时甚至数天时间。目前市面上的所有产品在该测试中的准确率都低于2%，而o3在严格设置下准确率却达到了25%以上，展现出强大的数学推理能力。

[4] 在Arc AGI测试中的表现

Arc AGI是由François Chollet在2019年设计的一个独特基准测试，旨在评估AI系统的通用智能水平。其特别之处在于，它不考察已学习的知识，而是要求模型通过观察几个示例，推断新任务规则并即时学习。例如：推断规则 “在空格处放置深蓝色方块”。

这种规则对人类来说直观，但对 AI 系统却极具挑战性。在这项五年来未被攻克的测试中，o3实现了历史性突破：在低算力配置下，其准确率达到 75.7%，创下公开记录新高；在高算力下表现更是提升至 87.5%，高于人类平均水平的85%。这是AI系统首次在需要即时理解和学习新规则的任务中超越了人类表现，验证了AI在新颖性适应方面的实质性进展。

# 2.10.3 o3模型成本有多贵

高算力下的o3执行每个任务需要耗费超过1千美元，这个的推理成本实在是太高昂了。

针对需要在性能与成本之间取得平衡的应用场景，OpenAI推出了 o3 mini。它继承了此前o1 mini在数学和编码方面的优势，并在性价比上实现了更大突破。

最引人注目的是其创新的“自适应思考时间”功能，提供低、中、高三种推理强度选项，让用户能根据任务复杂度灵活调整模型的思考时间，就像给大脑切换不同的工作模式。在实际的编程测试中，o3 mini在中等推理时间下性能已超越o1，而成本和延迟仅为其一小部分。意味者它能以更经济的方式完成高难度的编程任务，为开发者提供了一个理想选择。

# 2.10.4 o3距离AGI还有多远

对于整个AI行业来说，o3的价值可能在于，它证明了AI进步不仅仅依赖于简单地扩大模型规模和增加训练数据，更关键的是架构创新，这种方法为AI的发展开辟了新的方向。尽管o3取得了突破性进展，但称其为AGI还为时过早，o3的主要局限包括：

技术层面的局限：1）仍然依赖自然语言指令而非可执行的符号程序。2）缺乏与现实世界的直接交互能力。3）无法通过直接执行来评估解决方案的有效性。
性能层面的局限：1）在某些基础任务上仍会出现失误。2）在即将发布的ARC-AGI-2测试中，预计其得分可能降至30%以下（而普通人类仍能保持95%以上的得分）。3）依赖专家标注的人工生成数据，缺乏自主学习能力。
效率层面的局限：1）高昂的计算成本。2）大量的计算资源消耗。3）在某些任务上的效率低于人类。