AI 日报 | 2026年06月30日
Anthropic 今日举办「AI for Science」线上大会,诺奖得主 John Jumper 加盟后的首秀;港大教授李弘扬创立源策未来,数亿元种子轮押注全身具身大脑;开源编码 Agent Ornith-1.0 凭 RL 自改进范式登顶多个基准——AI Coding 与具身智能双线并行,从模型自主进化到机器人全身智能,产业纵深持续扩展。
Anthropic「AI for Science」大会:John Jumper 首秀 + 诺华/BMS/Genentech 联合站台
6月30日,Anthropic 举办「The Briefing: AI for Science」线上直播活动,演讲嘉宾包括诺华 CEO Vas Narasimhan(Anthropic 董事)、BMS 董事长兼 CEO Chris Boerner、Genentech 研发负责人 Aviv Regev,以及 AlphaFold2 共创者、诺贝尔化学奖得主 John Jumper。这是 Jumper 6月19日从 Google DeepMind 加盟 Anthropic 后的首次公开亮相。大会核心议题:Claude 如何压缩药物研发时间线、BioMysteryBench/VirBench 基准发现(确定性检索工具比模型选择更关键),以及 Anthropic 90天内的五步生命科学布局——Coefficient Bio 4亿美元收购、自建湿实验室、两个基准发布、Jumper 引进、本次大会。
值得关注的原因:Anthropic 不再只是"AI编程公司",正在系统性构建生命科学全栈能力(从蛋白质预测到监管策略),John Jumper 的加盟使 AI for Science 从概念验证进入实质推进阶段。VirBench 的核心发现——74分差距几乎是数据访问问题而非模型问题——对所有 AI 应用开发者具有普遍启示。
信息来源:Anthropic 官方活动页 | ChatForest 深度分析
源策未来 Archon Robotics:数亿元种子轮押注「全身具身大脑」
港大计算与数据科学学院助理教授李弘扬创立的「源策未来 Archon Robotics」完成数亿元种子轮融资,投资方包括真格基金、高榕创投、IDG资本、五源资本等头部美元基金及港大联名基金、奇绩创坛。公司成立于2026年4月,研发总部位于上海漕河泾,专注研发通用全身人形基座模型。核心洞察:现有具身数据集结构性缺位——第一视角视频缺全身位姿、机械臂数据缺物理交互、人形真机数据成本高达每小时数百至近千元,导致现有方案只能做桌面抓取,无法应对推门、双手持物开关门等需要重心转移的任务。本轮资金主要用于全身人形基础模型研发、多模态全身动作数据采集,以及年底前开源人形基座模型落地。
值得关注的原因:从"桌面抓取"到"全身移动操作"是具身智能的核心跨越。源策未来直接瞄准数据结构性缺位这一最大瓶颈,并提出开源基座模型路线,与国内银河通用、千寻等"演示→量产"路径形成差异化互补。港大教授创业+顶级美元基金种子轮的组合,标志着学术界对具身数据问题的系统性回应。
Ornith-1.0:RL 自改进开源编码 Agent,9B 超越 35B 同级模型
deepreinforce-ai 团队发布 Ornith-1.0 系列,定位「自改进开源编码 Agent」,提供 9B-Dense、31B-Dense、35B-MoE、397B-MoE 四档模型,MIT 协议全球可访问。核心训练范式:用强化学习同时优化「生成解决方案」与「驱动方案展开的 scaffold」,通过联合优化让模型自主发现更好的搜索轨迹,而非依赖预设 Agent 流程。基准测试中,9B 版本在 Terminal-Bench 2.1 拿到 43.1 分(超过 Qwen3.5-35B 的 41.4),SWE-bench Verified 69.4%(超过 Qwen3.5-35B 的 70% 接近持平),397B 版本在 Terminal-Bench 2.1 达 77.5 分,与 Claude Opus 4.7/4.8 同台竞技。
值得关注的原因:Ornith-1.0 的 RL 自改进范式代表 AI Coding 的下一阶段——不再是"更好的补全",而是"模型自己学会如何搜索和规划"。9B 小模型超越 35B 大模型的同级对比,直接挑战了"参数量=编码能力"的传统认知。MIT 开源+多规模覆盖,对本地部署和边缘场景的 AI Coding 生态具有实际撬动力。
信息来源:GitHub deepreinforce-ai/Ornith-1 | HackerNews 讨论
韩国1万亿美元AI投入:半导体 + 物理AI + 人形机器人2028商用
韩国政府与头部科技公司联合宣布约1万亿美元一揽子计划,三大旗舰项目:Samsung/SK海力士投入585亿美元建设新晶圆厂(目标5年内DRAM产能翻倍);SK集团/GS集团/Naver投入357亿美元建设大规模AI数据中心;现代汽车投入58亿美元建设机器人制造工厂和AI数据中心,Boston Dynamics Atlas 人形机器人目标2028年年产3万台。韩国总统李在明将"半导体、物理AI、AI数据中心"列为国家跃迁三大轴心,政府同时将物理AI定为"国家战略产业",目标3年内开发基于世界模型的通用基础模型,2028年实现人形机器人在10个主要行业商业化部署。
值得关注的原因:这是迄今全球最大的国家级AI综合投入计划,物理AI与人形机器人首次被提升至与半导体同等的国家战略高度。现代工会已投票批准罢工以抗议 Atlas 机器人部署,折射出"AI替代人类劳动"的社会张力正在从理论讨论走向现实冲突。中国具身智能产业可从韩国"半导体→物理AI→数据中心"三轴联动模式中获得产业链协同的参考框架。
信息来源:Ars Technica 报道 | BBC News
普林斯顿 CEO-Bench:14位硅基CEO仅有4位保住本金
普林斯顿团队搭建 CEO-Bench,将14款主流大模型放入"100万美元启动金、500天模拟周期、零客户"的真实 SaaS 经营场景,让模型自主运营虚拟公司。结果:14位硅基CEO仅4位保住本金——Claude Fable 5 以4715万美元位列第一(本金翻47倍),Claude Opus 4.8 第二(2780万),GPT-5.5 第三(2130万),第四名竟是纯 rule-based 启发式算法(1576万),而非任何大模型。5个模型中途破产离场(GLM 5.1、Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20)。核心发现:探索型策略远优于保守型;编程 Agent(Claude Code/Codex)硬套 CEO 角色反而表现大幅下降——"强加马鞍,不如裸骑"。
值得关注的原因:CEO-Bench 是迄今最严格的 AI Agent 商业决策压力测试。Fable 5 的压倒性优势印证了 Anthropic 在长程推理上的领先,但 rule-based 算法排第四揭示了"简单规则+领域知识"可能比"通用智能无约束"更稳健。编程 Agent 不等于万能 Agent 的结论,直接指向垂直场景 Harness 框架的必要性——对 AI Coding 工具开发者而言,这是一个关于产品边界的重要信号。
信息来源:CEO-Bench 官方 | 量子位报道