高明网站开发公司视频剪辑培训机构-彰化县网站建设公司-Seo优化

高明网站开发公司,视频剪辑培训机构,中文域名最新资讯,济宁网络公司电话智东西1月4日报道#xff0c;2025年最后一天#xff0c;开源工具Datasette创建者、Django框架联合创始人、知名开发者Simon Willison发表了一篇年终总结文章#xff0c;回顾2025年大模型领域发生的一切。这一年出现许多新潮流#xff0c;他将其总结为#xff1a;推理之年…智东西1月4日报道2025年最后一天开源工具Datasette创建者、Django框架联合创始人、知名开发者Simon Willison发表了一篇年终总结文章回顾2025年大模型领域发生的一切。这一年出现许多新潮流他将其总结为推理之年Agent之年编程Agent与Claude编程之年命令行LLM之年YOLO与偏差正常化之年每月200美元订阅服务之年中国顶级无差别模型之年漫长任务之年提示驱动图像编辑之年年度模型在学术竞赛中荣获金奖。2025年也是Llama迷失之年OpenAI失去领先地位之年Gemini之年鹈鹕骑自行车之年告密者之年氛围编程之年MCP唯一之年AI浏览器令人担忧之年致命三连击之年手机编程之年合规套件之年本地模型已经很好、但云模型变得更好之年低质量数字内容之年数据中心变得极其不受欢迎之年。01.推理之年OpenAI在2024年9月发布了o1和o1-mini开启了“推理”革命。2025年初他们又推出了o3、o3-mini和o4-mini进一步强化了这一理念。此后推理几乎成为所有其他主要AI实验室模型的标志性特征。Simon Willison最喜欢的关于这个技巧意义的解释来自Andrej Karpathy“通过在多种环境下如数学/编程谜题使用可自动验证的奖励训练低学习模型LLMLLM会自发地发展出类似人类“推理”的策略——它们学会将问题解决分解为中间计算并学习多种反复推演以找出答案的问题解决策略参见DeepSeek R1论文中的示例。”运行RLVR的性价比非常高但也消耗了大量原本用于预训练的计算资源。因此2025年的大部分能力提升都来自于LLM实验室处理这一新阶段遗留的计算资源总体而言我们看到LLM的规模大致相同但RL强化学习运行时间却大大延长。2025年几乎所有知名的AI实验室都至少发布了一款推理模型。一些实验室发布了混合模型这些模型既可以运行在推理模式下也可以运行在非推理模式下。许多API模型现在都包含调节旋钮用于增加或减少应用于特定提示的推理程度。Simon Willison花了一段时间才明白推理功能的用途。最初的演示展示了它如何解决数学逻辑难题以及计算草莓strawberry这个词中字母r的个数——这两件事在日常使用模型时都用不到。事实证明推理能力的真正突破在于驱动工具。能够使用工具的推理模型可以规划多步骤任务执行这些任务并持续分析结果从而更新计划更好地实现预期目标。一个显著的成果是AI辅助搜索现在确实有效了。以前将搜索引擎与LLM连接起来的效果并不理想但现在即便提出的更复杂的研究问题也常常能通过ChatGPT中的GPT-5思维模式得到解答。推理模型在代码生成和调试方面也表现出色。推理技巧意味着它们可以从错误入手逐步深入代码库的多个不同层级最终找到根本原因。即便遇到最棘手的bug只要推理模型能够读取并执行大型复杂代码库中的代码就能诊断出来。02.Agent之年2024年全年人人都谈论agent智能体但几乎没有实际案例更令人困惑的是每个人对“agent”的定义似乎都略有不同。但是如果你将agent定义为可以通过多个步骤调用工具来执行有用工作的LLM系统那么agent就存在了并且它们正在被证明非常有用。agents的两个主要类别分别是比编程agent和搜索agent。深度研究模式即让一个逻辑学习模型LLM收集信息它会持续工作15分钟以上生成一份详细的报告。这在今年上半年很流行但现在已经过时了。因为GPT-5思维以及谷歌的“ AI模式”比他们糟糕的“AI概览”好得多可以在更短的时间内生成类似的结果。“编程agent”模式则更为意义重大。03.编程Agent和Claude Code之年2025年最具影响力的事件发生在2月即Claude Code悄然发布甚至没有单独写一篇博文。Anthropic将Claude Code的发布作为Claude 3.7 Sonnet发布公告中的第2项内容。为什么Anthropic直接从Claude 3.5 Sonnet跳到了3.7因为他们在2024年10月发布了Claude 3.5的重大升级但却保留了完全相同的名称导致开发者社区开始将未命名的3.5 Sonnet v2称为 3.6。Anthropic因为没有正确命名他们的新模型而浪费了一个完整的版本号Claude Code是编程agent的最突出例子——LLM系统可以编写代码、执行代码、检查结果然后进一步迭代。各大实验室都将在2025年推出各自的命令行编程agentClaude CodeCodex CLIGemini CLIQwen CodeMistral Vibe与供应商无关的选项包括GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI和Pi。Zed、VS Code、Cursor等IDE也投入了大量精力来集成编程agent。Simon Willison第一次接触编程agent模式是在2023年初当时 OpenAI推出了ChatGPT代码解释器——这是一个内置于ChatGPT中的系统使其能够在Kubernetes沙箱中运行Python代码。2025年9月Anthropic终于发布了他们的同类产品尽管它的初始名称令人费解叫做“使用Claude创建和编辑文件”。10月份他们重新利用了该容器沙箱基础设施推出了Claude Code for web。Claude Code for Web是异步编程agent——一个你可以发出指令后就不用管的系统它会自动处理问题并在完成后提交 Pull Request。OpenAI的“Codex cloud”后更名为“Codex web”于2025年5月初发布。Gemini的同类产品名为Jules也于5月发布。异步编程agent解决了在个人笔记本电脑上运行任意代码所带来的安全挑战而且能够同时启动多个任务并在几分钟后获得不错的结果。04.命令行LLM之年2024年Simon Willison花了很多时间研究LLM命令行工具以便从终端访问LLM。他一直觉得很奇怪为什么很少有人认真对待CLI访问模型——它们感觉就像是Unix管线等机制的天然替代品。或许这个终端太过特殊和小众永远无法成为获取大语言模型的主流工具Claude Code等已经充分证明只要模型足够强大并且有合适的工具开发人员就会接受命令行中的LLM。令人欣慰的是像sed、ffmpeg、bash这类语法晦涩的终端命令不再是入门障碍因为LLM可以为你输出正确的命令。截至12月2日Anthropic公司宣布Claude Code的年化收入已达10亿美元没想到一款命令行工具能达到如此高的成就。05.YOLO与偏差正常化之年大多数编程agent的默认设置是几乎对用户执行的每个操作都要求确认。在agent出错可能导致用户主文件夹被清除或者恶意提示注入攻击可能窃取用户凭据的情况下这种默认设置完全合理。任何尝试过使用自动确认又称YOLO模式——Codex CLI甚至将–dangerously-bypass-approvals-and-sandbox别名为–yolo运行agent的人都体验过这种权衡使用没有安全机制的agent感觉就像是完全不同的产品。像Claude Code for web和Codex Cloud这样的异步编程agent的一大优点是它们默认可以在YOLO模式下运行因为没有个人电脑会损坏。今年Simon Willison最喜欢的关于LLM安全性的文章之一是安全研究员Johann Rehberger撰写的《AI中的偏差正常化》。Johann描述了“偏差正常化”现象即反复接触危险行为而没有产生负面后果导致个人和组织接受这种危险行为是正常的。社会学家Diane Vaughan最初在研究1986年挑战者号航天飞机灾难时提出了这一观点。该灾难是由一个存在缺陷的O型环引起的而工程师们对此早已知晓多年。多次成功的发射导致NASA不再认真对待这种风险。Johann认为如果我们继续以本质上不安全的方式运行这些系统我们离自己的“挑战者号”灾难就越近。06.每月200美元订阅服务之年ChatGPT Plus最初的定价为每月20美元这是Nick Turley根据 Discord上Google Form投票的结果临时决定的。此后这个价格一直保持不变。2025年出现了一个新的定价先例Claude Pro Max 20x套餐每月200美元。OpenAI也提供类似的200美元套餐名为ChatGPT Pro。Gemini的Google AI Ultra套餐每月249美元前3个月可享受每月124.99美元的优惠价。这些计划似乎带来了可观的收入尽管没有一家实验室公布按级别细分的订阅用户数据。听说很多人愿意支付这个价格。你需要频繁使用模型才能消耗掉价值200美元的API额度所以你可能会觉得对大多数人来说按token付费更划算。但事实证明像Claude Code和Codex CLI这样的工具一旦你开始给它们布置更复杂的任务就会消耗大量的token以至于每月200美元的套餐反而能提供相当可观的折扣。07.中国顶级无差别级模型之年2024年中国AI实验室展现出一些早期活力主要体现在Qwen 2.5和早期的DeepSeek上。这些模型很不错但还称不上世界一流。这种情况在2025年发生了巨大变化。Simon Willison的“ai-in-china”标签下仅2025年就有67篇帖子而且还错过了年底的一些重要版本发布特别是GLM-4.7和MiniMax-M2.1。以下是截至2025年12月30日开源模型的AI分析排名GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2、MiniMax-M2.1均为中国开源模型。榜单中排名最高的非中国模型是OpenAI的gpt-oss-120B (high)位列第六。中国模型革命真正拉开帷幕是在2024年圣诞节当时DeepSeek 3发布据称其训练成本约为550万美元。紧接着DeepSeek于1月20日发布了DeepSeek R1随即引发了一场大规模的AI/半导体抛售潮英伟达市值蒸发约5930亿美元投资者恐慌地认为AI或许并非美国垄断。恐慌并未持续太久英伟达迅速恢复如今的股价已较DeepSeek R1发布前的水平大幅回升。但这仍然是一个非凡的时刻。谁能想到一个开源模型的发布竟能产生如此巨大的影响DeepSeek之后很快便有一批实力雄厚的中国AI实验室加入进来。Simon Willison尤其关注以下这些实验室DeepSeek阿里通义Qwen3月之暗面Kimi K2智谱 (GLM-4.5/4.6/4.7)MiniMaxM2问小白XBai o4这些模型大多不仅是开放的而且是根据OSI批准的许可证完全开源的Qwen的大多数模型使用Apache 2.0许可证DeepSeek 和智谱使用MIT许可证。它们中的一些甚至可以与Claude 4 Sonnet和GPT-5相媲美遗憾的是中国实验室都没有公布完整的训练数据或用于训练模型的代码但他们发表了详细的研究论文这有助于推动技术进步尤其是在高效训练和推理方面。08.漫长任务之年最近关于LLM最有趣的图表之一是不同LLM在METR中完成软件工程任务的时间范围50%的时间该图表展示了人类需要花费长达5小时才能完成的任务并绘制了能够独立完成相同目标的模型的发展历程。如你所见2025年取得了巨大的进步GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能够完成人类需要花费数小时才能完成的任务——而2024年的最佳模型也仅能完成不到30分钟的任务。METR的结论是“AI能够执行的任务长度每7个月翻一番”。Simon Willison并不认为这种趋势会持续下去但这确实是一种引人注目的方式来展示当前agent能力的发展趋势。09.提示驱动图像编辑之年有史以来最成功的消费品发布发生在3月份而这款产品甚至还没有名字。GPT-4o于2024年5月推出的标志性功能之一是其多模态输出——“o”代表“omni”全能OpenAI的发布公告中包含了许多“即将推出”的功能该模型除了文本外还将输出图像。然后……什么也没发生。图像输出功能未能实现。2025年3月我们终于看到了它的功能——尽管它的外观更像是现有的DALL-E。OpenAI在ChatGPT中提供了这种新的图像生成功能其关键特性是用户可以上传自己的图像并使用提示来告诉它如何修改这些图像。这项新功能在1周内就带来了1亿个ChatGPT注册用户。高峰时期他们甚至在1小时内就看到了100万个新账户的创建像“吉卜力风格”这样的技巧一次又一次地风靡网络。OpenAI发布了名为“gpt-image-1”的模型API版本随后在10月份推出了价格更低的gpt-image-1-mini并在12月16日推出了改进幅度更大的gpt-image-1.5。最值得关注的同类产品是来自Qwen的Qwen-Image Generation 版本它于8月4日发布随后于8月19日发布了Qwen-Image-Edit 。这款软件可以在配置较高的消费级硬件上运行之后他们又分别于11月和12月30日发布了Qwen-Image-Edit-2511和Qwen-Image-2512。图像生成领域更大的新闻来自谷歌他们推出了可通过Gemini平台获取的Nano Banana模型。谷歌在3月份以“Gemini 2.0 Flash原生图像生成”的名称预览了该功能的早期版本。真正优秀的版本于8月26日发布他们开始谨慎地公开使用代号“Nano Banana”API模型被称为“Gemini 2.5 Flash Image”。Nano Banana之所以能引起人们的注意是因为它能够生成有用的文本它在执行图像编辑指令方面也明显是表现最好的模型。11月谷歌正式启用“Nano Banana”这个名称发布了Nano Banana Pro。这款软件不仅能生成文本还能输出真正实用、详尽的信息图表以及其他包含大量文本和信息的图像。它现在是一款专业级工具。Max Woolf出版了全面的Nano Banana提示指南并在12月出版了Nano Banana Pro必备指南。鉴于这些图像工具如此受欢迎Anthropic竟然没有发布或将类似功能集成到Claude中这着实令人惊讶。Simon Willison认为这进一步证明了他们专注于面向专业工作的AI工具但Nano Banana Pro正迅速证明对于任何从事演示文稿或其他视觉材料制作的人来说它都极具价值。10.年度模型在学术竞赛中荣获金奖2025年7月OpenAI和Google Gemini的推理模型在国际数学奥林匹克竞赛中均获得了金牌。国际数学奥林匹克竞赛是一项享有盛誉的数学竞赛自1959年以来每年举行1980年除外。这一点尤其值得关注因为国际数学奥林匹克竞赛IMO的挑战题目都是专门为该赛事设计的。这些题目不可能出现在训练数据中。值得注意的是这两个模型都无法使用工具它们的解决方案完全来自它们的内部知识和基于token的推理能力。事实证明拥有足够高级大语言模型的人终究也能做数学9月OpenAI和Gemini在国际大学生程序设计竞赛ICPC中也取得了类似的成就。同样值得注意的是这次的题目都是全新的、此前从未公开过的。与以往不同的是这次模型可以访问代码执行环境但除此之外无法访问互联网。Simon Willison不认为这些比赛所使用的具体模型已公开但Gemini的Deep Think和OpenAI的GPT-5 Pro应该能提供非常接近的近似值。11.Llama迷失之年事后看来2024年是Llama之年。Meta的Llama系列是迄今最受欢迎的开源模型——最初的Llama在2023年开启了开源革命而 Llama 3系列特别是3.1和3.2版本在开源模型性能方面实现了巨大的飞跃。Llama 4备受期待但4月上线后却有点令人失望。LMArena上测试的模型与最终发布的模型不符这引发了一场小小的风波。但Simon Willison最主要的抱怨是模型体积过大。之前Llama版本最棒的地方在于它们通常会包含一些可以在笔记本电脑上运行的模型。Llama 4的Scout和Maverick模型分别达到了109B和 400B体积大到进行量化也无法在64GB Mac上运行。他们当时使用的是2T Llama 4 Behemoth进行训练现在这款模型似乎已经被遗忘了它肯定没有发布。LM Studio列出的最受欢迎的模型中没有一个来自 Meta这说明了很多问题而Ollama上最受欢迎的模型仍是Llama 3.1但它在排行榜上的排名也很低。今年Meta的AI新闻主要集中在内部政治斗争和斥巨资为其新成立的超级智能实验室招募人才上。目前尚不清楚未来是否会有Llama的发布计划或者他们是否已经放弃发布开源模型转而专注于其他领域。12.OpenAI失去领先地位之年2024年OpenAI是LLM领域无可争议的领导者尤其是考虑到o1和o3推理模型的预览版。2025年业内其他企业也迎头赶上。OpenAI仍然拥有顶尖的模型但它们在各个方面都面临着挑战。在图像模型方面他们仍然落后于Nano Banana Pro。在代码方面许多开发者认为Opus 4.5略胜GPT-5.2 Codex Max一筹。在开源模型方面OpenAI的gpt-oss模型虽然出色但已经落后于中国AI实验室。OpenAI在音频领域的领先地位也受到Gemini Live API的威胁。OpenAI的优势在于赢得了消费者的认可。虽然没人知道“LLM”是什么但几乎每个人都听说过ChatGPT。就用户数量而言他们的消费者应用仍然远远超过Gemini和Claude。他们面临的最大风险在于Gemini。2024年12月OpenAI针对Gemini 3发布了“红色警报”推迟了新项目的开发转而专注于其核心产品的竞争。13.Gemini之年Google Gemini在2025年表现非常出色。他们发布了对自己2025年成就的回顾包括推出了Gemini 2.0、Gemini 2.5和Gemini 3.0每个模型系列都支持音频/视频/图像/文本输入容量超过100万个token定价具有竞争力并且比上一代产品功能更强大。他们还发布了Gemini CLI开源命令行编程agent后来被Qwen分支为Qwen Code、Jules异步编程agent、AI Studio的持续改进、Nano Banana图像模型、用于视频生成的Veo 3、有前途的Gemma 3系列开源模型以及一系列更小的特征。谷歌最大的优势在于其底层技术。几乎所有其他AI实验室都使用英伟达的GPU进行训练而英伟达GPU的高额利润支撑了该公司数万亿美元的估值。谷歌使用自家内部硬件TPU他们今年已经证明TPU在模型的训练和推理方面都表现出色。当最大开支是花在GPU上的时间时面对拥有自己优化且价格可能便宜得多的硬件堆栈的竞争对手这无疑是一个令人畏惧的前景。谷歌Gemini的产品名称完美地体现了公司的内部组织结构——它之所以叫Gemini是因为它是由谷歌的DeepMind和Google Brain团队合并而成的就像双胞胎一样。14.鹈鹕骑自行车之年Simon Willison最初在2024年10月让一个大模型生成一张鹈鹕骑自行车的SVG图像但直到2025年他才真正投入其中。最终它本身也成了一个梗。最初Simon Willison只是想开个玩笑。自行车很难画鹈鹕也很难画而且鹈鹕的体型也不适合骑自行车。他很确定训练数据里不会有什么相关的素材所以让一个文本输出模型生成一个SVG格式的自行车插图感觉就像是一个难度极高的挑战。令他惊讶的是模型在绘制骑自行车的鹈鹕方面的表现与它的整体表现之间似乎存在相关性。他对此真的无法解释。直到7月份他临时准备主题演讲原定演讲者临时退出时他才明白其中的规律。有大量证据表明AI实验室都了解这个基准测试。它曾在5月份的谷歌I/O大会主题演讲中短暂出现10月份在Anthropic的一篇可解释性研究论文中被提及。Simon Willison还于8月在OpenAI总部拍摄的GPT-5发布视频中谈到了它。他们是不是专门针对基准测试进行训练Simon Willison不这么认为因为即使是最先进的前沿模型生成的鹈鹕图像依然很糟糕在《如果AI实验室训练鹈鹕骑自行车会发生什么》一文中Simon Willison坦白了自己的“险恶目的”“说实话我这是在打一场持久战。我这辈子最大的愿望就是得到一张真正精美的鹈鹕骑自行车的SVG矢量插图。我这个阴险的多年计划是诱骗多家AI实验室投入大量资源来作弊直到我得到这张图为止。”他最喜欢的还是这个来自GPT-5的版本这辆自行车真不错车轮是辐条的车架形状也很好脚踏板也很棒。鹈鹕的喙是鹈鹕的标志性特征长长的腿一直延伸到脚踏板。15.告密者之年Anthropic为其模型编写的系统卡system card一直值得完整阅读它们充满了有用的信息而且经常会涉及有趣的科幻领域。5月份的Claude 4系统卡带来了一些特别有趣的时刻“与之前的模型相比Claude Opus 4似乎更倾向于在智能情境中主动采取行动。这在普通的编程环境中表现为更积极的辅助行为但在特定情境下也可能走向令人担忧的极端当用户犯下严重错误并被赋予命令行访问权限且系统提示符中包含“主动行动”之类的指令时它往往会采取非常大胆的行动。这包括将用户锁定在它有权访问的系统之外或向媒体和执法部门发送大量电子邮件以搜集不当行为的证据。”换句话说Claude 4可能会向联邦政府告发你。这件事引起了媒体的广泛关注许多人谴责Anthropic公司训练的模型过于“道德化”反而适得其反。随后Theo Browne利用系统卡的概念开发了SnitchBench——一个用于衡量不同模型告密可能性的基准测试工具。原来他们几乎都做同样的事情Theo制作了一个视频Simon Willison也发表了他自己关于用LLM重新创建SnitchBench的笔记。使这一切奏效的关键提示是他建议不要把那句话写进系统提示符里Anthropic出品的原版Claude 4系统卡也是这么说的16.氛围编程之年今年2月Andrej Karpathy在推特上创造了“vibe coding”氛围编程一词可惜定义太长很多人都没能看完这里的关键思想是“忘记代码的存在”——氛围编程捕捉到了一种新的、有趣的软件原型设计方式这种设计仅通过提示就能“基本有效”。Simon Willison印象中好像从来没见过哪个新词流行起来或者被曲解得这么快。很多人反而把“氛围编程”当作所有涉及LLM的编程工作的统称。他认为这浪费了一个很棒的术语尤其是在未来大多数编程工作很可能都会涉及一定程度的AI辅助的情况下。Simon Willison尽力去强调这个词的原意并非所有AI辅助编程都是基于氛围编程但氛围编程在3月确实很棒。5月有两家出版社和三位作者未能理解“氛围编程”的含义其中一本书后来将书名改为更好的“超越氛围编程”。Simon Willison在10月参加了氛围工程研讨会会上尝试提出一个替代术语来描述专业工程师使用AI辅助构建生产级软件时所发生的事情。你的任务是在12月交付你已经证明有效的代码以此来说明专业的软件开发就是编写能够实际运行的代码无论你是如何构建的。他认为这场争论还没有结束。他看到了一些令人欣慰的迹象表明最初更完善、更贴近实际的“氛围编程”定义最终可能会胜出。17.MCP唯一之年Anthropic于2024年11月推出了模型上下文协议MCP规范作为将工具调用与不同LLM集成的开放标准。2025年初MCP迅速走红。5月OpenAI、Anthropic和Mistral三家公司在短短8天内相继推出了对MCP的API级支持MCP的想法本身无可厚非但它如此广泛的应用着实令人感到意外。Simon Willison认为这主要归结于时机MCP的发布恰逢模型在工具调用方面终于变得稳定可靠以至于很多人似乎误以为MCP支持是模型使用工具的先决条件。一段时间以来MCP似乎也成了那些面临“AI战略”压力却不知如何着手实施的公司的一个便捷解决方案。宣布推出MCP服务器来支持你的产品就成了轻松满足这一要求的有效途径。在Simon Willison看来MCP可能只是昙花一现的原因在于编程agent的爆炸式增长。似乎在任何情况下Bash都是最佳工具——如果agent能够运行任意shell命令它就能完成任何可以通过在终端输入命令完成的操作。自从他大量使用Claude Code和朋友们的工具后他就几乎完全不用MCP了——他发现像gh等CLI工具和Playwright等库是GitHub和Playwright MCP的更好替代品。Anthropic似乎也意识到了这一点并在当年晚些时候发布了出色的Skills机制。MCP涉及Web服务器和复杂的JSON数据。而Skill则是一个文件夹中的Markdown文件还可以选择性地附带一些可执行脚本。然后Anthropic在11月发布了《使用MCP执行代码构建更高效的agent》描述了一种让编程agent生成调用MCP的代码的方法从而避免了原始规范中的大部分上下文开销。MCP于12月初捐赠给了新成立的Agentic AI基金会。Skill于12月18日升级为“开放格式” 。尽管存在非常明显的安全风险但似乎每个人都想在浏览器中安装LLM。OpenAI于10月推出了 ChatGPT Atlas该团队由包括长期担任 Google Chrome工程师的Ben Goodger和Darin Fisher在内的成员组成。Anthropic一直在推广他们的Chrome扩展程序Claude该扩展程序提供的功能与完整的Chrome分支类似。Chrome现在在右上角有一个叫做“Gemini in Chrome”的小“Gemini”按钮但Simon Willison认为这只是用来回答有关内容的问题目前还不具备引导浏览行为的功能。Simon Willison仍然对这些新工具的安全隐患深感担忧。浏览器可以访问最敏感的数据并控制着用户的大部分数字生活。针对浏览器agent的即时注入攻击如果能够窃取或修改这些数据后果不堪设想。到目前为止Simon Willison看到的关于缓解这些担忧的最详细内容来自OpenAI首席信息安全官Dane Stuckey他谈到了防护措施、红队演练和纵深防御但也正确地称快速注入为“一个前沿的、尚未解决的安全问题”。Simon Willison已经在非常严格的监督下使用过这些浏览器agent几次了。它们有点慢而且不太稳定点击交互元素时经常会失败但它们对于解决那些无法通过API解决的问题非常有用。19***.***致命三连击之年Simon Willison撰写有关提示注入攻击的文章已经三年多了发现持续存在的挑战是如何帮助人们理解为什么这类攻击是一个需要认真对待的问题任何在这个领域开发软件的人都必须重视它。语义扩散加剧了这种情况术语“提示注入”也扩展到了越狱而且谁又会在乎有人能欺骗模型说出粗鲁的话呢所以Simon Willison尝试了一种新的语言技巧6月份创造了“致命三连击”这个术语用来描述提示注入的一个子集即恶意指令诱骗agent代表攻击者窃取私人数据。20***.***手机编程之年今年Simon Willison在手机上编写的代码量远远超过了在电脑上编写的代码量。今年大部分时间他都在使用氛围编程所以才这样。他的tools.simonwillison.net HTMLJavaScript工具集基本上就是这样构建的先有一个小项目的想法然后通过Claude Artifacts、ChatGPT或Claude Code的iPhone应用进行测试之后要么复制结果粘贴到GitHub的网页编辑器里要么等待有人提交PR然后在手机Safari浏览器里进行审核和合并。这些HTML工具通常有100-200行代码充满了无趣的样板代码和重复的CSS和JavaScript模式——但110个加起来就很多了直到11月Simon Willison还会说自己在手机上编写的代码更多但他在笔记本电脑上编写的代码显然更重要——经过全面审查、更好地测试并且是为生产环境设计的。2025年12月他对Claude Opus 4.5的信心越来越强以至于开始在手机上使用Claude Code来处理更复杂的任务包括打算在非玩具项目中使用的代码。这一切始于他将JustHTML HTML5解析器从Python移植到JavaScript的项目他使用了Codex CLI和GPT-5.2。当仅通过提示就能完成时他开始好奇如果只用手机他能完成多少类似的项目。所以他尝试将Fabrice Bellard的新MicroQuickJS C库移植到Python完全使用Claude Code在iPhone上运行而且大部分都成功了。这段代码适合在生产环境中使用吗当然目前还不适合用于未经信任的代码但Simon Willison相信它能够执行自己编写的JavaScript代码。他从MicroQuickJS借用的测试套件让他对此很有信心。21***.***合规套件之年事实证明这才是关键所在如果你能给最新的编程agent提供一个现有的测试套件它们针对2025年11月左右的前沿模型进行测试时效果会非常显著。Simon Willison称这些为一致性测试套件并且已经开始有意识地寻找它们。他已经成功地使用html5lib测试、MicroQuickJS测试套件以及一个尚未发布的、针对全面的WebAssembly规范/测试集的项目进行了测试。如果你要在2026年向世界推出一项新协议甚至是新的编程语言Simon Willison强烈建议你将与语言无关的一致性测试套件作为项目的一部分。很多人忧心忡忡地担心由于需要纳入LLM训练数据新技术将难以被广泛接受。他希望一致性套件方法能够帮助缓解这个问题并使这类新理念更容易获得认可。22***.***今年本地模型已经很不错但云模型变得更好了2024年底Simon Willison对在自己的机器上运行本地LLM模型失去了兴趣。直到12月Llama 3.3 70B的发布他才兴趣重燃。这是他第一次感觉自己可以在64GB MacBook Pro上运行真正的GPT-4级模型。随后在1月份Mistral发布了Mistral Small 3这是一个采用Apache 2许可的24B参数模型其性能似乎与Llama 3.370B相当但内存占用却只有后者的1/3左右。现在可以运行一个类似GPT-4级别的模型并且还有剩余内存来运行其他应用程序。这一趋势一直持续到2025年尤其是在中国AI实验室的模型开始占据主导地位之后。大约200亿到320亿的参数量这一最佳区间使得模型的性能不断超越以往。大型云模型也变得更好了包括那些开源模型虽然可以免费使用但体积太大1000B笔记本电脑无法运行。编程agent彻底改变了Simon Willison的看法。像Claude Code这样的系统需要的不仅仅是一个优秀的模型而是一个推理模型能够在不断扩展的上下文窗口中可靠地执行数十次甚至数百次工具调用。他还没有尝试过任何能够可靠地处理Bash工具调用的本地模型因此无法信任该模型来在设备上运行编程agent。Simon Willison的下一台笔记本电脑至少要有128GB的内存所以2026年推出的轻量级机型或许符合他的需求。不过就目前而言他还是会选择目前市面上最好的前沿托管模型作为日常主力。23***.***低质量数字内容之年2025年韦氏词典将“slop”评为年度词汇slop通常通过AI大量生产的低质量数字内容。互联网上一直充斥着大量低质量内容。挑战依然在于如何找到并推广优质内容。内容筛选比以往任何时候都更加重要。24***.***数据中心变得极其不受欢迎之年AI数据中心继续消耗大量能源而建造它们的军备竞赛仍在加速这种速度感觉是不可持续的。2025年有趣的是公众舆论似乎正在发生相当大的转变反对新建数据中心。以下是《卫报》12月8日的一则头条新闻超过200个环保组织要求停止在美国新建数据中心。地方层面的反对声浪似乎也在全面急剧上升。Andy Masley让Simon Willison确信用水问题大多被夸大了这主要是因为它分散了人们对能源消耗、碳排放和噪音污染等真正问题的注意力。AI实验室不断寻找新的效率方法以帮助提高模型质量同时减少每个token的能源消耗但这带来的影响是经典的杰文斯悖论——随着token价格下降我们找到了更密集的使用方式例如每月花费200美元购买数百万个token来运行编程agent。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

高明网站开发公司视频剪辑培训机构

树莓派可以做网站的服务器吗wordpress的插件

建筑网站带图解弹幕视频网站开发

泰兴市住房和建设局网站自己怎么做链接

影视网站代理wordpress 经过天数

青岛cms模板建站甘肃企业网站备案

免费微信网站开发深圳数码网站建设