Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

1. 精心翻译的优质博客内容
1. 前沿技术分享
1. 认知分享

📚 博客内容：

1. 翻译：精选国外优质博客文章，涵盖编程、人工智能、产品、运营等多个领域。
1. 分享：探索各种前沿技术，从编程语言到软件开发，从云计算到人工智能。
1. 认知：结合自身经验和思考，分享对科技、生活、学习等方面的独到见解。

Sam Altman 最新深度交流：软件开发的终局、GPT-6 的剧透与给开发者的建议

本文整理自 OpenAI CEO Sam Altman 今早面向开发者举办的一场交流会的在线直播。以下为本场直播的精华内容，由我和 Gemini 3 Pro 共同整理而成。软件工程师的未来：不是消亡，而是爆发很多人担心 AI 会让程序员失业，Sam 引用了**杰文斯悖论（Jevons paradox）**来反驳这个观点：当某种资源（这里是代码）的生产效率极速提高、成本极速降低时，需求反而会呈指数级增长。未来的软件工程师是什么样的？Sam 认为，“写代码”本身将不再是工作的核心。未来的工程师不需要把大量时间花在敲击键盘或调试 Bug 上。相反，工程师的定义将通过以下方式被重塑：价值捕捉者：利用计算机完成自己想要的任务，或者通过计算机为他人创造有用的体验。宏观调控者：你会看到更多人能独自完成以前需要整个团队才能做到的事。 Sam 预测，世界对软件的需求丝毫没有减弱。未来，我们使用的软件将不再是千人一面的通用版本，而是**“为你一人定制”**的。你会习惯于软件根据你的使用习惯不断自我微调，甚至在此时此刻为你即时生成一个小程序来解决当下的问题。这将创造出比现在大得多的 GDP 总量。给创业者的冷水：构建变得容易，但卖出去更难了对于开发者来说，技术门槛的降低是一把双刃剑。 Sam 分享了他以前在 Y Combinator 的观察：曾经，创始人们认为“做产品”是最难的；现在，随着 Cursor、Codex 等工具的普及，构建产品变得极其容易，真正的瓶颈变成了 GTM（Go-To-Market，推向市场）。即使在那个“极大丰富”的 AI 未来，人类的注意力仍然是稀缺资源。 Sam 给出的建议很务实：即便 AI 可以自动化销售和营销，你依然要面对激烈的竞争。不要指望技术红利能自动解决获客问题，生意的本质逻辑（提供差异化价值、建立网络效应）没有变。终极测试：问问你自己，如果 GPT-6 发布了，且性能惊人地强，你的初创公司会感到开心还是难过？你应该去做那些极度渴望模型变得更强的业务，而不是做那些“修补模型缺陷”的套壳生意，后者会极其痛苦。关于 GPT-6 与未来的模型：我们要修好“偏科” 坦白说，Sam 承认目前的模型有点“偏科”。例如 GPT-5 在某些方面很强，但在写作风格上可能还不如以前的版本讨喜。对于未来的模型演进（以 GPT-6 为代表的下一代），OpenAI 的目标非常明确：全能型选手：未来的模型将在推理、编程、写作等所有维度上同时变强。智能是可互换的，一个能进行复杂科学推理的模型，理应也能写出清晰甚至有见地的文章。速度与成本：Sam 做了一个大胆的预测——不管是到 2027 年还是更早，高端智能的成本至少会降低 100 倍。同时，OpenAI 正在努力平衡“推理深度”和“响应速度”，让复杂的输出能在 1/100 的时间内完成。学习能力：你不必担心今天基于旧框架构建的应用会被淘汰。未来的模型将具备“看一眼就会”的能力——给它展示一个新的环境或工具，它就能像最聪明的人类一样迅速掌握并可靠地使用。 AI Agent（智能体）的形态：不仅仅是聊天关于 Agent，至今没有一个标准答案。Sam 认为未来会有两种极端的用户画像：...

10 个适合初学者的 Claude Code 构建创意（附完整提示词）

本文翻译自 X 博主 Zara Zhang 发布的文章：10 beginner-friendly ideas to build with Claude Code (Prompts included)。只要你会打字，就能用 Claude Code 进行构建。 1. 将你的简历变成个人网站这里有 10 个让你入门的想法。无需任何技术背景。我已附上了你可以直接使用的具体提示词。把你的简历投喂给 Claude Code，让它为你构建一个精美的作品集网站。想要特定的外观？先在网上找一些视觉参考，然后让它匹配那种风格。 “这是我的简历 [附上文件]。请为我构建一个干净、现代的个人网站，展示我的经验和项目。我喜欢这个 [参考链接] 的视觉风格。试着匹配这种美学。我完全没有编程经验，所以请一步步指导我。” （要附加文件，只需将其拖入与 Claude Code 的聊天窗口即可。） 2. 构建一个用于语言学习的浏览器扩展程序创建一个扩展程序，让你可以在外语网站上高亮文本，根据上下文获取 AI 驱动的释义，并将单词保存到你自己的词汇表中。 “为我构建一个语言学习用的浏览器扩展。当我在任何网页上高亮文本时，它应该根据周围的上下文显示 AI 生成的解释，并让我把单词保存到个人词汇表中。我不懂代码。请给我简单、按部就班的说明，告诉我所有需要做的事情。” 3. 基于你的健康数据创建一个习惯追踪器上传你的体检报告，让 Claude Code 根据结果为你构建一个个性化的习惯追踪和打卡应用。 “这是我最近的体检报告 [附上文件]。根据结果，为我构建一个简单的日常习惯追踪应用，帮助我改善需要关注的领域。包含一个连胜（streak）功能来帮我坚持下去。用大白话解释所有内容。我不是开发人员。” 4. 整理你杂乱的文件夹桌面或下载文件夹乱糟糟的？直接让 Claude Code 来整理。真的，只要告诉它你想要什么，然后让它去干活。 “我的下载文件夹一团糟。检查一遍，根据文件类型和内容将文件整理到合理的子文件夹中。在移动任何东西之前，先把你的计划展示给我看并征求我的同意。我不懂技术，所以解释要简单点。” 5. 转录您的会议录音把你的会议音频或视频文件丢进一个文件夹。Claude Code 可以使用 OpenAI Whisper（本地运行且免费！）转录它们，清理错误，并标记发言人。 “我在 [文件夹路径] 有一个会议录音文件夹。使用 OpenAI Whisper 将每个文件转录为文本。清理明显的错误，并在能区分不同人的地方加上发言人标签。将每个转录保存为单独的文档。一步步指导我完成所有需要的设置。我是个纯新手。”...

Claude Code 进阶教程：详解 Skills、Subagents 与 MCP 高级用法 • Eyad

Varick Agents CTO Eyad Khrais 吃到上一篇 Claude Code 入门文章：The complete claude code tutorial 的红利后（在 X 上大受欢迎，总阅读量接近 500 万），又迅速写了第二篇 Claude Code 进阶的文章：The claude code tutorial level 2。这篇文章的核心在于介绍 Skills（技能）、Subagents（子智能体）和 MCP connectors（MCP 连接器）这三大高级功能。关键细节 Skills（技能）：教导 Claude 特定工作流定义与结构：Skill 是一个 Markdown 文件，包含 YAML 头信息（名称、描述）和具体的指令正文。创建方式：在 ~/.claude/skills/ 目录下创建文件夹和 SKILL.md 文件。工作原理：采用“渐进式披露”原则。Claude 启动时仅加载 Skill 的名称和描述（约 100 tokens），只有在判定相关时才加载完整指令。这允许用户拥有数十个技能而不占用过多上下文。应用场景：代码审查标准、Git 提交信息规范（如 Conventional Commits）、数据库查询模式、API 文档格式等。 Subagents（子智能体）：隔离上下文与任务分发核心优势：解决上下文退化问题。主对话将复杂任务委托给子智能体，子智能体在独立的 200K 窗口中运行，仅返回摘要给主对话，从而防止主上下文被污染。内置类型： Explore：快速、只读的代码库搜索与分析。 Plan：用于规划模式下的研究和架构决策。 General-purpose：处理需要多步操作的复杂任务。自定义智能体：用户可在 ~/.claude/agents/ 中定义自定义智能体（如安全审查员），设定特定的系统提示词和工具权限（如只读或读写）。通信模式：主智能体委托任务 -> 子智能体执行 -> 子智能体返回摘要。注意：子智能体不能再生成子智能体。 MCP Connectors（模型上下文协议）：连接外部世界功能：一种标准化的接口，允许 AI 模型直接调用外部工具和数据源，无需为每个工具单独集成。操作命令：使用 claude mcp add --transport http <name> <url> 添加连接。推荐集成： GitHub：管理代码库、PR 和 Issue。 Slack：读取频道历史和摘要。 PostgreSQL：直接查询数据库。 Linear/Jira：集成任务跟踪。实际效果：将原本需要切换 5 个标签页（查看 Issue、设计图、Slack 讨论、写代码、更新工单）的工作流，整合为一个连续的会话。原文：The claude code tutorial level 2 这是官方 Claude Code 教程的第二部分，我将涵盖更高级的概念，帮助你更充分地利用 Claude Code。如果你还没读过第一部分，我强烈建议你在读这篇文章之前先读一下。这篇文章直接建立在那些基础之上。...

Claude Code 使用指南：从入门到精通的 CTO 级最佳实践 • Eyad

本文整理自 Varick Agents CTO Eyad Khrais 发布的文章：The complete claude code tutorial 作者 Eyad 结合其 7 年的软件工程经验指出，使用 Claude Code 等 AI 工具时，最大的错误是直接开始输入或生成代码。成功的关键在于先进行架构规划和系统设计，通过与 AI 的深度对话确定方案，而非单向指令。 AI 模型是无状态的，输出质量完全取决于输入的质量。如果 Claude 的表现不佳，通常是因为用户的提示词（Prompt）模糊、缺乏上下文或架构指令不明确。掌握清晰的沟通技巧和约束条件是提升效率的核心。高效使用 Claude Code 需要精细化管理上下文窗口，利用 .clauderc 文件进行项目级配置，并灵活运用 MCP 和 Hooks 等高级功能来实现自动化和系统化集成，而非仅仅将其作为一次性问答工具。关键细节规划模式（Plan Mode）的重要性先思考再输入：直接生成代码往往效果不佳。建议先进入“计划模式”（按两次 Shift+Tab），花时间与 AI 讨论架构、端到端状态和调试思路。双向对话：不应只是单向下达指令，而应与 ChatGPT 、 Gemini 或 Claude 进行深入的来回对话，共同确定系统设计方案。核心配置文件 .clauderc 的使用技巧作为入职文档： .clauderc 是一个 Markdown 文件， Claude 在每次会话前都会读取。它应像给“失忆后的自己”写的笔记，而非给新员工的文档。保持精简： Claude 只能可靠地遵循约 150 到 200 条指令。文件内容应简短且与项目高度相关，避免无关信息。解释“为什么”：告诉 Claude 指令背后的原因（例如：“使用 TypeScript 严格模式是因为我们曾遇到隐式类型导致的生产错误”），这能帮助模型做出更好的判断。持续更新：将其视为活文档，一旦发现需要重复纠正 AI 某件事，就应立即将其加入配置文件。上下文窗口管理的艺术性能衰减点：模型性能在上下文使用率达到 20-40% 时就开始下降，而不是 100% 。会话隔离：每个功能或任务应开启一个新的会话，避免上下文混杂。外部记忆：对于复杂任务，让 Claude 将计划和进度写入外部文件，以便跨会话读取。复制粘贴重置法（The copy-paste reset）：当上下文臃肿时，复制关键信息，运行 /compact 或 /clear 清空上下文，然后只粘贴最关键的内容，以恢复模型智商。提示词与沟通策略具体明确：避免模糊指令（如“构建一个认证系统”），应提供具体的技术栈、存储方式和中间件要求。设定负面约束：明确告诉 Claude 不要过度设计或添加不必要的抽象，特别是对于 Claude 4....

2026 AGI-Next 前沿峰会：中国大模型“四巨头”的真实对话

本文整理自 2026 年 1 月 10 日，在由清华大学基础模型北京市重点实验室、智谱 AI 发起的 AGI-Next 前沿峰会上的一场含金量极高的闭门会：唐杰/杨植麟/林俊旸/姚顺雨罕见同台，“基模四杰”开聊中国AGI。以下内容由我和 Gemini 3 Pro 共同整理完成。由清华大学和智谱AI发起的AGI-Next前沿峰会上，当下中国大模型最核心的四股力量罕见地凑齐了：刚刚敲钟港股的智谱AI创始人唐杰、腾讯CEO办公室新任首席科学家姚顺雨（前OpenAI研究员）、拥有全球最强开源生态的阿里通义负责人林俊旸，以及刚拿了5亿美元融资的月之暗面CEO杨植麟。如果说2025年是中国大模型靠“快节奏迭代”和“疯狂开源”在国际上博得声量的一年，那么站在2026的开端，这四位掌舵人却显得格外冷静，甚至有些“悲观”。唐杰一上来就给全场泼了盆冷水：“别觉得差距缩小了。美国还有大量闭源模型没放出来，中美大模型的差距，说不定并没有缩小。” 在这个定调下，这场对话没有客套的商业互吹，只有关于技术路线的真实分歧和对未来的硬核预判。一、 Chat时代结束了，下一注押在哪？对于过去的2025年，唐杰有一个断言：DeepSeek出来之后，关于“Chat（对话）”这一范式的探索已经结束了。智谱的一年前的预判是Chat会替代搜索，但结果是谷歌自己革了自己的命。对于大模型公司而言，继续卷对话已经没有意义。智谱把新的筹码（Bet）全部押在Coding（代码）和Reasoning（推理）上。集推理、Agentic能力于一体的GLM-4.5，就是这一策略的产物。而作为“Scaling Law（缩放定律）”的忠实信徒，杨植麟依然坚持Scaling是重点。但他眼中的Scaling不再是单纯的一力降十会，而是要讲究**“Taste（品味）”**。 “通过架构和数据层面的改进，我们要让模型拥有不同的Taste，这样才不会千篇一律。”杨植麟认为，未来的竞争不看谁的参数更大，而看**Token Efficiency（Token效率）和Long Context（长文本）**的结合——即在长语境下，你的模型到底比别人强多少。唐杰对此表示赞同。那种疯狂堆算力、堆RL（强化学习）就能获得巨大收益的日子已经过去了。他提出了一个新的衡量标准：Intelligence Efficiency（智能效率）。在这个新阶段，算这笔账很重要：投入多少算力，甚至能不能用更少的Scaling，换来同等的智力提升？二、 To B 还是 To C？分化已经开始前OpenAI研究员、现任腾讯核心科学家的姚顺雨，带来了极其敏锐的硅谷视角。他发现，大模型领域正在经历一场剧烈的分化。 “Chat”在To C端已经到了瓶颈。姚顺雨举了个生动的例子：你今天问ChatGPT“我该吃什么”，和去年问它，体验差别并不大。因为对普通用户来说，模型的抽象代数能力变强了，你根本感知不到。C端用户需要的不是更强的模型，而是更丰富的Context（上下文）和Environment（环境）——比如模型知道今天很冷，知道你老婆想吃辣，这才能给出好建议。但在To B端，逻辑完全相反。“智能越高，生产力越高，赚的钱越多。” 姚顺雨观察到，美国企业愿意为最强的模型付溢价。一个月200美金的最强模型，和50美金的次强模型，企业会毫不犹豫选前者。因为OpenAI 4.5可能做对9个任务，差一点的模型只能做对6个，为了这3个的差距，企业还得雇人去监控，得不偿失。阿里通义的林俊旸则认为，这种分化是自然发生的。他提到了Anthropic（Claude的开发商），这家公司之所以成功，不是因为为了做Coding而做Coding，而是因为他们频繁和企业客户交流，发现企业的真实需求就是Coding。 “现在美国API消耗量里，Coding占了绝对主导。但在中国，Coding的Token消耗量还没那么大。”林俊旸一针见血地指出。三、下一个圣杯：自主学习与“主动”AI 硅谷现在最火的词是什么？姚顺雨透露，大街小巷的咖啡馆都在聊**“自主学习”**。这并不是什么科幻概念，而是正在发生的事实。Cursor每几个小时就用最新的用户数据训练；Claude 95%的代码已经是Claude自己写的了。 “这更像是一种渐变，而不是突变。”姚顺雨认为，2026年我们最大的挑战是想象力：如果AI真的实现了自主学习，它应该长什么样？是一个自动赚钱的交易系统，还是解决了一个人类未解的科学难题？林俊旸则更关注AI的**“主动性”**。现在的AI无论是ChatGPT还是各种Agent，都需要人类去Prompt（提示）才能启动。未来的AI，能不能环境就是Prompt？它看到环境变化，就自己决定去做事？ “但我最担心的不是AI说错话，而是它做错事。”林俊旸坦言，如果AI突然产生一个想法，觉得应该往会场扔个炸弹，这就是灾难。如何让AI既有主动性又安全，是比提升智力更难的课题。四、 20%的胜率，与“穷人的创新” 在对话的最后，主持人李广密抛出了一个尖锐的问题：三五年后，全球最领先的AI公司是中国团队的概率有多大？向来敢说的林俊旸给出了一个数字：20%。 “这已经非常乐观了。”他解释道，中美在算力上的差距是客观存在的，甚至可能有1-2个数量级的差异。美国的巨头可以用大量的算力去探索下一代Research，而中国的团队光是做交付，可能就占用了绝大部分算力。但他同时也提到了一个有趣的观点：“穷则思变”。正因为算力吃紧，中国团队必须要在算法和Infra（基础设施）的联合优化上下苦功夫。这种**“穷人的创新”**，反而可能在特定路径上跑出来。他回忆起2021年和做芯片的同事“鸡同鸭讲”的经历，大家都因为认知错位错失了机会，但现在，软硬结合的创新或许是打破僵局的关键。姚顺雨则对中国的人才充满信心。他认为，只要一个技术路径被证明是可行的（比如预训练），中国团队能以极高的效率复现并局部优化。真正的挑战在于：我们是否有勇气去探索那些不确定性极高、没人做过的新范式？ “中国对于刷榜或者数字看得太重了。”姚顺雨提到DeepSeek的一个优点，就是他们不太关注榜单，只关注什么是正确的事。结语这场闭门会没有给出“中国AI必胜”的廉价鸡血，却展现了一种理性的韧性。正如学术界代表杨强教授所言，AI的发展就像人类睡觉，需要清理噪音才能第二天学得更好。而唐杰的总结则更为从容： “永远不要想着环境是最好的。我们恰恰是幸运的，经历了环境从没那么好到变好的过程。如果我们笨笨地坚持，也许走到最后的就是我们。” 2026，中国大模型正在告别盲目的“卷”，走向更务实的“深”。

揭开 AI Agent 评估的神秘面纱 • Anthropic

本文翻译自 Anthropic 官方技术博客：Demystifying evals for AI agents。主要观点有效的评估（Evals）是团队自信地发布 AI Agent 的基础。与单轮对话的 LLM 不同，Agent 涉及多轮交互、工具调用和状态修改，这使得它们更难评估。缺乏评估会导致团队陷入被动的“打地鼠”模式，仅能在生产环境中发现问题。相反，建立评估体系能让问题在早期显现，量化改进效果，并促进产品与研究团队的协作。一个完整的评估体系包括任务（Task）、评分器（Grader）、评估工具（Harness）和数据集（Suite）。针对不同类型的 Agent（如代码、对话、研究、计算机操作），需要采用不同的评估策略。评分器通常结合了基于代码的确定性检查、基于模型的灵活评分（LLM-as-judge）以及人工审核，以平衡速度、成本和准确性。构建评估体系不需要一开始就追求完美。文章提出了一个实用的路线图：从少量的现实失败案例开始，逐步建立无歧义的任务集，设计稳健的测试环境和评分逻辑，并长期维护。重要的是要结合自动化评估、生产监控、A/B 测试和人工审查，形成一个多层次的质量保障网络（类似瑞士奶酪模型），以全面理解 Agent 的性能。关键细节核心定义与组件构建 Agent 评估时涉及以下关键概念： Task (任务)：具有定义输入和成功标准的单个测试用例。 Trial (尝试)：对任务的一次执行，通常需要多次运行以应对非确定性。 Grader (评分器)：对 Agent 表现进行打分的逻辑，可包含多个断言。 Transcript (实录)：完整的交互记录，包括输出、工具调用和推理过程。 Outcome (结果)：试验结束时环境的最终状态（例如数据库中是否存在预定记录）。不同类型 Agent 的评估策略 Coding Agents：通常使用确定性评分器。例如 SWE-bench Verified 通过运行单元测试来验证代码修复是否成功。 Conversational Agents：侧重于交互质量和任务完成度。常使用 LLM 模拟用户进行多轮对话，并结合状态检查（如工单是否解决）和语气评分。 Research Agents：评估较为主观。策略包括检查内容的依据性（Groundedness）、覆盖率（Coverage）和来源质量。 Computer Use Agents：在沙盒环境中运行，通过检查截图或 DOM 状态来验证结果。例如 WebArena 和 OSWorld。评分器类型基于代码 (Code-based)：如字符串匹配、静态分析。优点是快速、便宜、客观；缺点是缺乏灵活性。基于模型 (Model-based)：如 LLM 评分量表。优点是灵活、能捕捉细微差别；缺点是成本较高，需人工校准。人工评分 (Human)：专家审查。优点是质量金标准；缺点是昂贵且慢，通常用于校准模型评分器。处理非确定性与指标由于 Agent 行为在不同运行间存在差异，文章提出了两个关键指标：...

2026 开年 AI 流量大洗牌：ChatGPT 暴跌，Gemini 与 Kling 狂飙

Similarweb 发布截止到 2026 年 1 月 2 日的最新 AI 应用 Web 端访问数据。注意：该 PDF 文档中提到的增长率都是“基于域名级别（domain level）的 total visits（总访问量）”，“不包含 API 使用或集成”，可以简单的理解为这是 Desktop 与 Mobile Web 两端的 web 访问量统计。 OpenAI 的至暗时刻与谷歌的翻盘 OpenAI 2025 年太惨了，被 Google 按在地上摩擦。 ChatGPT 流量也从年初的 86.7%，降低为现在的 64.5%，可以预见的是今年大概率继续被 Gemini 蚕食。反观 Gemini 从年初的 5.7% 来到现在的 21.5% 排名第二。马斯克的 Grok 和 DeepSeek 流量相当都在 3.5 %左右，并列第三。 Anthropic 因为核心精力都在 toB 上面，toC 应用 Claude 2025 年整体流量变化不大，从年初的 1.5% 升至年底的 2%。但考虑到 Claude Code 的成功，2026 年如果 Claude Code 和 Claude 本身集成较好的好，机会也非常大。...

Manus 首席科学家季逸超（Peak）深度访谈：Manus 跑出 1 亿美金 ARR 的背后

2025 年 3 月 5 日，一家在武汉的创业公司蝴蝶效应发布一款 Agent 产品： Manus，该产品能够调度不同的工具解决复杂问题，其在 GAIA 等基准测试中表现出 SOTA 的性能。该产品一经发布便引发国内外的关注和讨论，火爆程度堪比 DeepSeek R1 的盛况。 2025 年 12 月 17 日，Manus 宣布年度经常性收入（ARR）已突破 1 亿美元。消耗总 token 量超过 147万亿 token，创建了超过 8000 万台虚拟计算机。 2025 年 12 月 30 日，Meta 以 20 亿美元收购 Manus 的公司蝴蝶效应。收购完成后，蝴蝶效应公司将保持独立运作，创始人肖弘出任 Meta 副总裁。配图来自于2025 年 7 月 Manus 团队对谈 YouTube 联合创始人陈士骏。左起依次为：季逸超（Manus 联合创始人、首席科学家）、肖弘（Manus 创始人兼 CEO）、陈士骏、张涛（Manus 联合创始人，产品负责人）本文整理自 Manus 被 Meta 收购前对外接受的最后一次专访，张小珺对谈季逸超（Peak）：Manus’ Final Interview Before the Acquisition: Oh, the Surreal Odyssey of 2025。这篇访谈长达 3 小时 31 分钟，季逸超的分享畅汗淋漓，信息量超大，虽然本文能让你快速了解其中的核心输出和认知，但我还是建议大家去看原视频，开 1....

2025 AI 圈大事件复盘：推理模型、Agent、视频生成与开源生态演进

2022年 11 月 30 日 ChatGPT 横空出世已经过去 3 年了，2023 年 OpenAI 再次给世界一震撼，重磅发布了 GPT-4，而2024 年 OpenAI 仍然一枝独秀，给 AI 的发展带来了两个新的方向，一个是视频生成，一个是推理范式，前者的代表是 Sora，后者的代表是 o1。时间来到 2025 年，OpenAI 终于不再一枝独秀，迎来众多挑战者，全球 AI 可以说是呈现百花齐放的状态，有 Google 和 Anthropic 等闭源模型的兴起，有 DeepSeek、Qwen、Kimi、GLM、Minimax、Mistral 等开源模型的觉醒，当然也有 Llama 4 开源模型的落寞。本文将按照时间顺序带你一起回顾一下 2025 年 AI 圈每一个核心大事件、技术突破及社会影响。 DeepSeek R1 火爆全球 2024 年 12 月 6日，OpenAI 重磅发布 o1 系列推理模型，把大模型的发展从仅使用系统 1 思维（快速、自动、直观、容易出错）发展到系统 2 思维（缓慢、深思熟虑、有意识、可靠）。而就在 2025 年 1 月 20 日，中国 AI 创业公司 DeepSeek（深度求索）发布了其最新一代开源模型 DeepSeek R1，该模型也是一个推理模型，在基准测试中其表现与 OpenAI 的 o1 模型相当，但价格却显著低于 o1（大概是其 1/30）。这一事件迅速在全球科技界引发了海啸般的反应，被西方媒体和战略分析师称为 AI 领域的“斯普特尼克时刻”（Sputnik Moment）。R1 不仅在性能上紧追 OpenAI 的顶尖闭源模型，更重要的是，它打破了关于大模型训练成本的固有认知。...

AI Agents 开始吞噬 SaaS • Martin Alderson

2025年12月15日· Martin Alderson 过去十五年，我们目睹了软件吞噬世界。整个行业被软件吞没——零售、媒体、金融——只要你说得出来的，在过去几十年里都经历了 SaaS 工具激增带来的惊人颠覆。这催生了大量 SaaS 公司——总估值达数万亿美元。在我上一篇关于软件成本是否因 AI 编程智能体而下降 90% 的文章中，我主要关注了市场的供应端。如果这个假设成立，SaaS 工具的需求端会发生什么？我一直在思考软件工程变革带来的这些二阶和三阶效应。 “自建还是购买”（build vs buy）的权衡考量开始发生变化。软件吞噬了世界。智能体将要吞噬 SaaS。我看到的信号最明显的起点就是需求开始蒸发——尤其是对于“更简单”的 SaaS 工具。我相信许多软件工程师已经开始意识到这一点——很多我以前会考虑寻找免费增值或付费服务来做的事情，现在我经常可以让智能体在几分钟内完全按照我想要的方式解决。有趣的是，我甚至没有注意到这种转变。它就这样发生了。如果我想要一个内部仪表板，我甚至不会觉得 Retool 或类似工具会让它更容易。我直接构建仪表板。如果我需要在媒体摄取过程中重新编码视频，我只需让 Claude Code 编写一个围绕 ffmpeg 的健壮封装器——而不必承担将原始文件发送到单独服务的成本（和速度损耗），也不必担心触及层级限制或试图在脑海中适应另一个 API 的心智模型。对于不那么纯粹的软件开发任务，这一点更为明显。例如，我已经让 Gemini 3 在几分钟内生成了非常高质量的 UI/UX 原型图和线框图——不需要使用单独的服务或寻找起始模板。同样，当我想做演示文稿时，我不需要使用平台来美化幻灯片——我只需让 Claude Code 将我的 markdown 导出为设计精美的 PDF。我开始看到的另一个可能影响更大的转变是，人们真的开始质疑大型“企业级” SaaS 公司的续约报价。虽然这还处于非常早期的阶段，但我相信这是一个非常重要的新兴行为。我现在已经看到几个例子：SaaS 供应商 X 发来了他们惯常的年度两位数百分比的涨价通知，而现在团队开始问：“我们真的需要支付这笔钱吗，还是我们可以自己构建所需的功能？”一年前，这充其量是一个很快会被否定掉的假设性问题。现在，这是一个人们正在投入真正精力去思考的现实选项。最后，大多数 SaaS 产品包含许多客户并不需要或不使用的功能。SaaS 产品工程的许多复杂性在于管理这一点——当你只有一个客户（你的组织）时，这种复杂性一夜之间就消失了。同样，当客户就是开发者本人时，这个客户拥有路线图的完全控制权。不用再指望 SaaS 供应商将你的请求优先于其他客户。维护方面的异议对此的主要异议是“谁来维护这些应用程序？”。这是一个真实且正确的异议。软件有 bug 需要修复，有扩展问题需要解决，有安全漏洞需要修补，这一点没有改变。我认为首先需要指出的是，很多 SaaS 维护得很差（根据我的经验，往往越贵质量越差）。通常，安全风险来自于需要连接和交互内部数据的外部第三方本身。如果你能将所有这些都移到现有的 VPN 或访问解决方案之后，你会突然大幅减少组织的攻击面。最重要的是，智能体本身极大地降低了维护成本。我遇到过一些最痛苦的维护任务——从弃用的库更新到另一个支持更好的库——通过智能体变得容易多了，特别是在静态类型的编程生态系统中。此外，公司构建内部工具最大的顾虑是只有一个人了解所有内容——如果他们离开，所有的内部知识也就随之而去。智能体不会离职。而且通过一个考虑周全的 AGENTS.md 文件，它们可以向未来的任何人解释代码库。最后，SaaS 同样伴随着维护问题。我这个月从一位朋友那里看到的一个最近的爆发点是，一家 SaaS 公司决定弃用他们现有的 API 端点并转移到另一套 API，而新 API 并没有提供所有相同的方法。由于这是一个核心系统，这是一个巨大的问题，需要大量的资源来更新、测试和推出受影响的集成。...