🤖 AI 速览

今日主线是 AI 从演示走向真实流程:企业智能体开始关注学习、审计与可靠性,端侧模型接近生产可用;同时,Claude Fable 5、Codex、Kimi 等推动编程智能体升温,但 Token 成本、可验证性和软件工程约束正成为新的关键变量。
📋 文章元数据
发布时间
2026-06-13
类型
ai-daily
字数
3679
阅读时长
18 min

2026-06-13 AI日更 | 智能体进入组织流程,端侧模型与 AI 编程成本同时升温 链接到标题

今日主线是 AI 从演示走向真实流程:企业智能体开始关注学习、审计与可靠性,端侧模型接近生产可用;同时,Claude Fable 5、Codex、Kimi 等推动编程智能体升温,但 Token 成本、可验证性和软件工程约束正成为新的关键变量。

📖 本期 Watch List 深度导读 链接到标题

今天最值得深读的主线,是“智能体从演示走向组织流程”。OpenAI Academy 把学习明确纳入部署环节,Arbor 与 ToolSense 则分别从树搜索认知层、工具知识审计切入,回应企业真正落地时的可靠性问题。建议工程和产品团队重点看。

第二条线是 AI 评测正在变得更“场景化”:购物多轮推理、AI 同行评审攻防、潜在推理模型因果分析,都在提醒我们,漂亮的可观察模式不等于真实能力。

最后,医疗、低资源语言与科学传播相关论文集中出现,说明模型应用正深入高价值、强约束领域;EDEN、AfriSUD、MentalMARBERT 和科学图表视频生成,适合关注垂直数据与多模态知识表达的读者。

🌐 X 平台 AI 热点快讯 链接到标题

话题 1:Developers Share Weekend Builds Powered by OpenAI’s Codex 链接到标题

  • 分类:AI · News
  • 概况:热度时间:,相关帖子数:47
  • 是什么事:开发者在 X 上集中分享了周末使用 OpenAI Codex 构建的应用、工具和原型项目。
  • 为什么重要:这显示出代码生成模型正在降低软件开发门槛,并加速从想法到可运行产品的迭代速度,是 AI 编程助手实用化的重要信号。
  • 讨论概况:讨论焦点集中在 Codex 的开发效率、代码质量和适用场景上;支持者认为它显著提升原型开发速度,质疑者则关注生成代码的可靠性、安全性以及是否会削弱开发者对底层实现的掌控。

话题 2:SpaceX Launches Record $75 Billion IPO, Creating Thousands of Employee Millionaires 链接到标题

  • 分类:AI · News
  • 概况:热度时间:12 hours ago,相关帖子数:805000
  • 是什么事:SpaceX据称启动估值约750亿美元的创纪录IPO,引发市场对其员工财富效应和商业航天前景的关注。
  • 为什么重要:SpaceX的卫星互联网、发射能力和算力基础设施可能影响AI公司在全球连接、边缘计算和太空数据获取方面的长期布局。
  • 讨论概况:X上的讨论集中在IPO估值是否合理、员工成为百万富翁的财富效应、SpaceX与AI基础设施的潜在关联,以及商业航天是否正在形成新的科技资本泡沫。

话题 3:Elon Musk Becomes World’s First Trillionaire After SpaceX IPO 链接到标题

  • 分类:AI · News
  • 概况:热度时间:,相关帖子数:10000
  • 是什么事:SpaceX据称完成创纪录IPO后估值突破约2万亿美元,埃隆·马斯克因持股升值成为全球首位万亿美元富豪。
  • 为什么重要:这一事件凸显了航天、卫星互联网、电动车与AI相关基础设施资本化的巨大规模,也显示少数科技企业家对AI算力、通信网络和前沿技术生态的影响力进一步集中。
  • 讨论概况:X上的讨论主要分为两派:支持者将其视为创新、风险投资和市场回报的胜利;批评者则关注财富不平等、政府合同和补贴对私人财富形成的作用,以及是否应加强对超级富豪和关键科技平台的监管与征税。

话题 4:Claude Fable 5 Tops Coding Benchmarks Amid Access Frustrations 链接到标题

  • 分类:AI · News
  • 概况:热度时间:1 day ago,相关帖子数:9300
  • 是什么事:Anthropic 的 Claude Fable 5 被称在多项编码基准测试中领先,但用户对其访问限制和可用性表达不满。
  • 为什么重要:编码能力是大模型商业化和开发者采用的关键指标,若 Claude Fable 5 的表现属实,将加剧 AI 编程助手和基础模型之间的竞争。
  • 讨论概况:X 上讨论集中在其基准成绩是否能转化为真实开发效率、访问门槛和限流是否影响用户体验,以及 Anthropic 是否应优先扩大可用性而非强调排行榜表现。

话题 5:Moonshot AI Releases Kimi-K2.7-Code, Top Open-Source Coding Model 链接到标题

  • 分类:AI · News
  • 概况:热度时间:8 hours ago,相关帖子数:2900
  • 是什么事:Moonshot AI 发布了 Kimi-K2.7-Code,称其为当前表现领先的开源代码模型。
  • 为什么重要:这显示中国 AI 公司在代码生成与智能体编程模型上的竞争力继续提升,也可能进一步推动开源编码模型在开发工具、企业自动化和 AI Agent 场景中的应用。
  • 讨论概况:X 上的讨论主要集中在其基准测试是否真正领先、与 DeepSeek、Qwen、Claude Code 等模型的差距、开源许可与可商用性,以及实际编程体验是否能匹配官方宣传。

话题 6:Hundreds Queue for Cursor AI Hackathon at a16z San Francisco 链接到标题

  • 分类:AI · News
  • 概况:热度时间:19 hours ago,相关帖子数:397
  • 是什么事:数百名开发者在旧金山 a16z 办公室排队参加 Cursor AI 黑客松,显示 AI 编程工具社区活动热度高涨。
  • 为什么重要:这反映出以 Cursor 为代表的 AI 编程助手正从工具使用扩展为开发者生态和创业入口,进一步推动软件开发流程与人才竞争的变化。
  • 讨论概况:X 上的讨论主要集中在 AI 编程工具是否已成为新一代开发者基础设施;支持者认为现场排队体现真实需求和创业活力,质疑者则认为热度可能被风投和社交媒体放大,尚需证明长期留存和实际生产力提升。

话题 7:Mexico Beats South Africa 2-0 in 2026 World Cup Opener 链接到标题

  • 分类:AI · Entertainment
  • 概况:热度时间:2 days ago,相关帖子数:482000
  • 是什么事:2026年世界杯揭幕战中,东道主墨西哥以2比0击败南非,相关消息在 X 上引发大量转发与讨论。
  • 为什么重要:该事件本身并非 AI 技术新闻,但大型体育赛事的实时传播、自动剪辑、数据分析、个性化推荐和内容审核都会放大 AI 在媒体分发与线上娱乐中的作用。
  • 讨论概况:X 上讨论主要集中在墨西哥开门红、南非被罚下后比赛走势、球迷街头庆祝以及赛事转播和短视频传播热度;也有人质疑该话题被归入 AI 分类是否合理。

话题 8:Yemeni ‘Spider-Man’ Climber Dies in Volcanic Crater Fall 链接到标题

  • 分类:AI · Sports
  • 概况:热度时间:,相关帖子数:766
  • 是什么事:也门知名攀爬者、“蜘蛛侠”绰号人物在一处火山口攀爬时坠落身亡,引发 X 平台关注。
  • 为什么重要:事件本身并非 AI 技术进展,但其快速传播凸显了社交平台在突发死亡事件中对算法推荐、影像核验、风险内容标注与未成年人安全提示的治理需求。
  • 讨论概况:X 上讨论主要集中在事故细节与安全责任、极限运动是否应被流量激励、相关视频是否应继续传播,以及平台算法是否放大高风险挑战内容。

话题 9:Real Madrid Hires Mourinho and Signs Bernardo Silva in Double Move 链接到标题

  • 分类:AI · Sports
  • 概况:热度时间:22 hours ago,相关帖子数:158000
  • 是什么事:皇家马德里同时官宣重新聘请穆里尼奥执教,并从曼城签下中场贝尔纳多·席尔瓦。
  • 为什么重要:该话题作为AI与体育交叉热点,反映出AI生成或虚拟足球新闻正大规模进入公众视野,引发对信息真实性及AI在体育叙事中角色的关注。
  • 讨论概况:讨论焦点集中在事件是否为AI制造的虚假转会消息、AI生成体育新闻的伦理边界,以及此类虚构内容在社媒高热度传播所暴露的信息核实漏洞。

话题 10:Real Madrid Appoints Mourinho and Signs Bernardo Silva in Stunning Double Move 链接到标题

  • 分类:AI · Other
  • 概况:热度时间:2 days ago,相关帖子数:333000
  • 摘要:Real Madrid Appoints Mourinho and Signs Bernardo Silva in Stunning Double Move:

话题 11:Thomas Partey Misses Ghana’s World Cup Opener After Canada Visa Denial 链接到标题

  • 分类:AI · Sports
  • 概况:热度时间:6 hours ago,相关帖子数:109000
  • 摘要:Thomas Partey Misses Ghana’s World Cup Opener After Canada Visa Denial:

话题 12:AI Builds Full Hogwarts Replica in One Prompt 链接到标题

  • 分类:AI · Other
  • 概况:热度时间:,相关帖子数:101
  • 是什么事:X 平台上出现关于“用一个提示词让 AI 构建完整霍格沃茨复刻版”的热议,但相关信息主要来自话题标题,缺少具体演示细节和来源验证。
  • 为什么重要:这一话题反映了生成式 AI 在复杂场景建模、交互式内容生成和创意工作流自动化方面的想象空间,也凸显外界对“一句话生成大型虚拟世界”能力边界的关注。
  • 讨论概况:讨论焦点集中在该成果是否真实可复现、使用了哪些模型或工具、是否只是剪辑展示或夸张营销,以及此类能力对游戏开发、影视资产制作和版权合规可能带来的影响。

话题 13:Tesla FSD 14.3.4 Delivers Superhuman Reactions and European Rollout 链接到标题

  • 分类:AI · News
  • 概况:热度时间:,相关帖子数:117
  • 是什么事:特斯拉发布/推送 FSD 14.3.4,被用户称在驾驶反应速度上接近或超过人类,并引发关于欧洲市场 rollout 的关注。
  • 为什么重要:FSD 的迭代体现了端到端自动驾驶模型在真实道路场景中的持续进展,若能在欧洲扩展,将成为 AI 驱动自动驾驶商业化和监管落地的重要信号。
  • 讨论概况:X 上讨论集中在新版本的反应速度、接管率和安全性是否真正优于人类;同时也有用户关注欧洲上线时间、监管审批、道路规则适配,以及特斯拉是否存在过度营销的问题。

话题 14:BTS Launches ARIRANG Tour Homecoming in Busan with Electric Energy 链接到标题

  • 分类:AI · Entertainment
  • 概况:热度时间:1 day ago,相关帖子数:732000
  • 是什么事:防弹少年团在釜山启动了ARIRANG归乡巡演,现场采用增强现实技术营造震撼电音氛围。
  • 为什么重要:这场演出将AI驱动的增强现实深度融合进大型现场表演,验证了实时渲染、空间计算与人浪互动的规模化应用,为娱乐产业的虚实融合树立新标杆。
  • 讨论概况:X平台上围绕技术实现的流畅度、AR特效是增强了现场感还是分散了注意力、以及这种科技体验是否能复刻到其他巡演场次展开热议,粉丝对纯粹现场情绪与技术介入的平衡存在分歧。

今日 X 上的 AI 舆情小结 链接到标题

今天的舆论主线明显围绕“AI 正从演示走向基础设施”展开,尤其是 Codex、Claude、Kimi、Cursor 等编程工具密集成为焦点,开发者普遍认可 AI 正在显著加快原型开发、降低软件构建门槛,并催生新的开发者生态。共识在于,代码模型、自动驾驶、AR 娱乐、内容生成和太空通信等方向都在被视为下一阶段技术竞争与商业化入口;但分歧集中在基准成绩能否转化为真实生产力、热门项目是否被资本和社媒放大,以及访问限制、可用性和长期留存是否匹配宣传。另一条暗线是“AI 与信息真实性”的冲突:从虚构体育新闻、霍格沃茨生成演示,到非 AI 事件被算法推入 AI 话题,用户对平台分类、来源核验和生成内容边界的怀疑在上升。潜在风险则包括生成代码的安全与可维护性、自动驾驶过度营销带来的公共安全问题、极限内容和突发死亡影像被算法放大,以及 SpaceX/马斯克相关叙事中体现出的财富、算力、通信网络和关键科技平台进一步集中。总体看,市场情绪偏兴奋,但信任、监管、可验证性和权力集中正在成为与技术进步同步升温的核心忧虑。

💡 大佬观点(Influencer Insights) 链接到标题

以下是对过去 24 小时内 X 平台多位 AI 大佬推文的深度分析报告。


AI 行业动态日报:端侧智能爆发,Fable 5 争议与软件工程重构 链接到标题

1. 共同关注的技术趋势与产品热点 链接到标题

1.1 端侧模型(On-Device Models)全面崛起与新范式确立 本周的核心叙事非“端侧模型”莫属。从大厂到独立开发者,一致认为本地部署的 AI 模型已达到“可用”甚至“好用”的临界点。

  • 性能飞跃:@zhixianio 进行了“苦行僧”式实验,强迫自己仅使用本地模型 (Qwen3.6-35B-A3B-oQ6-fp16-mtp) 工作。结果发现无论是编程 (Coding) 还是个人助理 (PA) 场景,响应速度比远程 LLM 更快,智商在线,且原生多模态体验甚至优于 DeepSeek V4 Pro
  • 量化技术突破:Google 通过 @googledevs 发布的 Gemma 4 QAT (量化感知训练) 模型引发极大关注。@zhixianio 认为这是端侧优化的全新思路,通过在训练阶段就假定模型会被量化,从而大幅降低内存占用并提升本地推理速度。他认为这是 Android 设备即将内置强大模型的信号。
  • 应用场景具象化:端侧模型不再只是跑分,@zhixianio 展示了用 Mac 跑模型来“解冻饭团”,并制作了播客《认知有县》E5 期,用端侧 TTS 生成主持人,标志着端侧智能开始从极客玩具转变为准生产工具

1.2 Claude Fable 5:极致智能与“Token 焚化炉”的冰火两重天 Anthropic 的新模型 Claude Fable 5 成为了圈内无可争议的焦点,但其评价呈现两极分化。

  • 强悍的逻辑与规划能力:@zhixianio 惊叹其 40 分钟独立完成 70% 的开发工作,并主动纠正了人类设计的缺陷。@vista8 和 @dotey 证实了其思考深度,它能因一个想法思考 15 分钟才开始行动,生成的代码质量极高。
  • 昂贵的代价:@dotey 和 @Pluvio9yte 指出了其最大的痛点——巨大的 Token 消耗。@dotey 引述 @jerryjliu0 的推文称,其团队成员在 10 小时内消耗了等值于 1500 美元的 Token。@dotey 评论道:“越来越多的企业终于发现 AI 比员工还贵了!”。@Pluvio9yte 建议理性消费,并指出了 /effort max 的隐藏开关。

1.3 OpenAI Codex:长时任务 (Goal) 机制与 Token 经济模型迭代 OpenAI 的编程智能体 Codex 在长时任务上展现出惊人的稳定性。

  • “种田流”开发:@vista8 分享了 Codex 的 /goal 指令,让 AI 在睡觉时自动开发迭代网站,最长运行时间达 10 小时,实现了从代码生成、测试到部署上线的全流程自动化。他为 Codex 编写了专门的 PRD 生成 Skill 以适配这种新的开发范式。
  • Token 重置玩法:面对用户的 Token 焦虑,OpenAI (@OpenAI) 推出了邀请好友刷新周限额的功能。@dotey (@dotey) 调侃称,Codex 已将 Token 用量重置机制玩出了新高度,甚至允许用户自行保存重置机会。@ruanyf 提到其朋友公司利用云厂商的合规缓存机制大幅降低了 API 成本。

1.4 YouMind 1.0 发布:AI 原生创作工具的成人礼 前飞书产品负责人玉伯 (@lifesinger) 打造的 YouMind 正式发布 1.0 版,获得了 @dotey、@vista8、@gefei55 等大佬的集体祝福。@vista8 指出其近半年流量猛涨,证明了即便在 AI 时代,沉下心打磨两年的创作工具依然有巨大市场。@gefei55 认为这是大厂技术人成功转型增长的典范。


2. 值得注意的独特观点与行业前瞻 链接到标题

2.1 AI 与软件工程:重构而非取代 @dotey 针对“AI 重新定义软件工程”的观点进行了纠正,提出 “AI 没有重新定义软件工程,AI 放大了软件工程的重要性”。与此同时,@Pluvio9yte 分享了他从“Vibe Coder”进化为全栈工程师的痛苦经历,提出了 Contract First(契约优先) 的开发理念。他认为在混乱的 AI 编码过程中,定义好 API 和数据契约是所有工作的前提,并基于此二开了 OpenSpec 框架。

2.2 AI 效率悖论与经济负担 @ruanyf 尖锐地指出,尽管 AI 提升了个人效率,但如果按 OpenClaw 创始人一月消耗 130 万美元 Token 的量级计算,企业级 AI 编程将远比雇佣人类程序员昂贵。他抛出了 AI 降本增效的深层矛盾:既然 AI 能快速完成一周的工作,员工是否可以放假?如果不加薪不放假的 AI 化,对员工的意义何在?

2.3 机器人与世界模型的终局推演 @AI_Jasonyu 重点转述了黄教授 (@huang_biwei) 对机器人发展的激进预测。黄教授认为现有的 VLA+堆数据路径不通,断言 2027 年初机器人将迎来“GPT-3 时刻”。其核心论点将世界模型分为三阶:渲染 (Sora) -> 模拟 (李飞飞) -> 想象 (因果大模型),并强调 “压缩即智能”应升维为“结构化的压缩才是智能”

2.4 AI 引发的外包行业地震与组织变革 @dotey 观察到地产巨头 OpenDoor 裁撤了整个印度离岸团队(200 多人),转而组建美国本土的 AI 原生团队。这传递了一个严峻信号:AI 不仅替代基础劳动力,更开始颠覆因人力成本差价而产生的全球外包产业链

2.5 深度思考:Token 虚假指标论 @lijigang 发出哲学警示,提醒开发者不要陷入 Token 消耗账单的焦虑中。他认为 Token 消耗是“虚假指标”,问题是否被解决才是“真实指标”。这种观点是对当前 Fable 5 等模型巨额消耗现象的一种冷静反思。


3. 推荐的工具、资源与实用经验 链接到标题

3.1 编程开发与 AI Agent

  • oMLX v0.4.0:由 @jundotkim 发布,支持原生 Swift macOS 界面,是 Mac 端侧运行大模型的利器。@zhixianio 高度推荐并常驻使用。
  • Codex Skills
    • 乔木 Goal Meta Skill (@vista8):将一句话需求转化为 Codex /goal 指令的工具,提升 AI 长时任务的成功率。
    • 10 个中文创作者 Codex Skills (@wsl8297):涵盖写作、去 AI 味、配图、小红书卡片制作的全流程自动化工具包。
  • AI 视频字幕工具:@xiaohu 开源,@Pluvio9yte 推荐的本地视频一条龙处理工具(下载>转写>翻译>润色>烧录字幕)。

3.2 产品设计与前端

  • baoyu-design skill (@dotey):功能大更新,支持导入 Figma 本地文件 (*.fig),可在对话内重建完整的设计系统。
  • 在线 Logo 设计工具:@vista8 用 Fable 5 生成的纯 HTML+JS 实现的非 AI Logo 设计器,展示了 Fable 在图形化编程领域的潜力。

3.3 知识管理与 AI 阅读

  • 影子之书阅读法:@lijigang 提出的一种 AI 阅读新范式,通过 AI 分析作者未写出的潜台词、反对观点和思想传承,将读书从二维平面扩展到多维空间。
  • OfoxAI:@AI_Jasonyu 推荐的高性价比中转站,提供 GPT-5.5 等模型的折扣 API,主打稳定性与直连低延迟。

3.4 硬件与出海

  • Giffgaff 保号卡:@AI_Jasonyu 再次强调其 0 月租永久保号的海外手机号优势,适合长期出海注册账户。
  • Mac 效率工具包:@Pluvio9yte 推荐了 Bartender 6(状态栏管理)、Maccy(开源粘贴板)和 Mos(鼠标滚动优化)。

📚 附录:今日 Watch List 更新源列表 链接到标题

时间窗口:最近 3 天;覆盖 22 个源;共 34 条更新

All-In Podcast (A_full) 链接到标题

  • All-In’s Best Ideas Pitch Competition: 4 Investors Present Their Top Trades Live
    • 发布时间:2026-06-12 09:25 北京时间
    • 摘要:- 安永 - 安永帮助私募股权公司将市场洞察转化为行动,应对复杂性并开辟新的增长和长期价值之路。
      • 纽约证券交易所 - 感谢我们的合作伙伴纽约证券交易所 - 一个致力于建设未来的现代化市场和交易所。
      • Plaud,我们在 All-In Liquidity Summit 上的官方可穿戴人工智能笔记合作伙伴,捕捉到了每一个见解。
      • All-In 最佳创意推介竞赛:4 位投资者现场展示他们的最佳交易。
    • EN 要点:
      • (0:00) Chamath explains the Best Ideas format
      • (2:31) Suvretta Capital Management’s Aaron Cowen pitches MGM Resorts
      • (13:07) Bornite Capital’s Dan Dreyfus pitches Talen Energy
      • (27:19) EcoR1 Capital’s Oleg Nodelman pitches Aktis Oncology

Stratechery by Ben Thompson (A_full) 链接到标题

  • 2026.24: Hey Siri, Tell Me a Fable
    • 发布时间:2026-06-13 01:00 北京时间
    • 摘要:- 欢迎回到本周的Stratechery!
      • 提醒一下,每周、每周五,我们都会发送 Stratechery 捆绑包中的内容概述;突出显示的链接对所有人免费。
      • 此外,您可以完全控制我们发送给您的内容。
      • 就此而言,这是本周我们最喜欢的一些。
      • 苹果终于发布了智能。 蒂姆·库克 (Tim Cook) 作为首席执行官的最后一次 WWDC 在很大程度上是为了清理苹果两年前制造的混乱,尽管库克并没有推动 Siri AI 的演示——那是工程主管、现任 Siri 主管迈克·罗克韦尔 (Mike Rockwell),但随着他的任期即将结束,最终的产品感觉像是一次合适的送别。
    • EN 要点:
      • Welcome back to This Week in Stratechery
      • As a reminder, each week, every Friday, we’re sending out this overview of content in the Stratechery bundle; highlighted links are free for everyone
      • Additionally, you have complete control over what we send to you
      • If you don’t want to receive This Week in Stratechery emails (there is no podcast), please uncheck the box in your delivery settings

OpenAI Blog (A_full) 链接到标题

  • New OpenAI Academy courses for the next era of work

    • 发布时间:2026-06-12 18:00 北京时间
    • 摘要:- 人工智能正在赋予组织新的行动能力。
      • 曾经需要稀缺时间或专业知识才能完成的工作可以通过人工智能不断向前推进。
      • 但只有当人们知道如何在工作中应用这些工具并将成功的使用转化为可重复的工作方式时,这一承诺才成为现实。
      • 在 OpenAI,我们将学习视为部署的一部分。
      • 我们构建模型和产品,并与在其业务中应用它们的组织密切合作。
    • EN 要点:
      • OpenAI introduces three Academy courses that help people build practical AI skills, create repeatable workflows, and apply agents in everyday work.
  • How Preply combines AI and human tutors to personalize learning

    • 发布时间:2026-06-12 08:00 北京时间
    • 摘要:- 通过 90 多种语言的个性化一对一教学,Preply 的使命是让任何人、任何地方都能获得高质量的语言教育。
      • 语言学习本质上是人类的。
      • 它需要对话、信心、动力和文化理解。
      • 虽然 Preply 导师为学习者提供了不可替代的精力、动力、文化差异和人际关系,但他们也面临着重复性任务:编写个性化计划和课程笔记。
      • 与此同时,学生通常需要有明确的进步感才能保持较高的参与度。
    • EN 要点:
      • Preply uses OpenAI to launch AI-generated lesson summaries, providing personalised feedback and language learning exercises.

ArXiv cs.AI (B_intro+search) 链接到标题

  • ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12451v1 公告类型:新。
      • 摘要:在大型工具目录上部署为代理的大型语言模型面临着关键的工具检索瓶颈。
      • 由于基于嵌入的检索方法依赖于可能无法捕获专门工具语义的紧凑编码器,因此参数化工具检索通过将每个工具编码为附加到 LLM 词汇表的虚拟标记来解决此问题,并分两个阶段进行微调(记忆然后检索 SFT)以使用 LLM 作为检索器,从而在标准 ToolBench 检索基准上实现强大的性能。
      • 然而,这些基准测试使用详细、完全指定的查询,并且它们的评估应用约束解码,将输出限制为有效的令牌路径,两者都没有揭示模型是否真正理解其工具。
    • EN 要点:
      • arXiv:2606.12451v1 Announce Type: new
      • Abstract: Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck
      • As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by…
      • Yet these benchmarks use verbose, fully-specified queries, and their evaluation applies constrained decoding that restricts outputs to valid token paths, neithe…
  • Arbor: Tree Search as a Cognition Layer for Autonomous Agents

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12563v1 公告类型:新。
      • 摘要:Arbor 是一个多代理框架,它引入结构化树搜索作为在大型、有状态的动作空间中运行的自主代理的认知层。
      • 先前的自主优化系统在具有无状态评估的孤立目标上运行。
      • Arbor 相反维护了一个明确的评分假设搜索树,作为跨代理的共享工作记忆,随着每次测量而发展,将失败视为重塑后续探索的诊断信号,并随着先前的成功改变瓶颈分布而扩展。
    • EN 要点:
      • arXiv:2606.12563v1 Announce Type: new
      • Abstract: Arbor is a multi-agent framework that introduces structured tree search as a cognition layer for autonomous agents operating in large, stateful action…
      • Prior autonomous optimization systems operate on isolated targets with stateless evaluation
      • Arbor instead maintains an explicit search tree of scored hypotheses that serves as the shared working memory across agents, evolving with every measurement, tr…
  • Strategic Decision Support for AI Agents

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12587v1 公告类型:新。
      • 摘要:传统上,决策支持研究人类如何使用机器学习模型来做出更好的决策。
      • 在现代代理系统中,这种角色划分越来越颠倒:人工智能代理代表用户行事,而人类和工具则成为围绕他们的支持机制。
      • 这种角色逆转将可靠性问题带到了最前沿,因为代理错误可能是后果性的,并且代理行为必须与人类目标和约束保持一致。
    • EN 要点:
      • arXiv:2606.12587v1 Announce Type: new
      • Abstract: Traditionally, decision support studies how humans use machine learning models to make better decisions
      • In modern agentic systems, this division of roles is increasingly reversed: AI agents act on behalf of users, while humans and tools becomes support mechanisms…
      • This role reversal brings reliability concerns to the forefront, since agentic errors can be consequential and agent behavior must remain aligned with human goa…
  • Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12594v1 公告类型:新。
      • 摘要:现代精益定理证明者只有通过大量的训练和推理计算才能实现强大的性能,部分原因是经过验证的证明数据稀缺和形式证明搜索的长推理痕迹,这使得监督微调(SFT)和采样都变得昂贵。
      • 我们推出 Pythagoras-Prover,这是一个计算高效的开源精益定理证明器系列,专为实际计算预算而构建。
      • 该系列跨越两代范式:4B 和 32B 参数的自回归模型,以及第一个基于扩散的概念验证证明器 (4B),可在推理时迭代地完善精益证明。
    • EN 要点:
      • arXiv:2606.12594v1 Announce Type: new
      • Abstract: Modern Lean theorem provers achieve strong performance only with substantial training and inference compute, driven in part by scarce verified proof d…
      • We introduce Pythagoras-Prover, a compute-efficient open-source family of Lean theorem provers built for practical compute budgets
      • The family spans two generation paradigms: autoregressive models at 4B and 32B parameters, and a first proof-of-concept diffusion-based prover (4B) that iterati…
  • PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12616v1 公告类型:新。 -摘要:闭环驾驶模拟器通常在其环境中填充非自我交通代理,这些代理的行为方式大致相同,由基于规则的交通管理器或针对单一行为模式训练的学习模型产生。
      • 最近的工作通过观察数据或法学硕士推断的奖励权重的事后标签引入了风格变化,但这些信号充当了风格应该奖励的代理,而不是明确要求以这种风格驾驶的人类的示范。
      • 我们引入了 PersonaDrive,这是一个管道,它可以根据从风格指导的人类驾驶数据集中检索到的演示来调节视觉语言动作 (VLA) 驾驶代理,其中参与者在驾驶员循环装备上按照激进、中立和保守的指令驾驶 CARLA 排行榜路线。
    • EN 要点:
      • arXiv:2606.12616v1 Announce Type: new
      • Abstract: Closed-loop driving simulators typically populate their environments with non-ego traffic agents that behave largely the same way, produced either by…
      • Recent work introduces style variation through post-hoc labels on observational data or LLM-inferred reward weights, but these signals act as proxies for what a…
      • We introduce PersonaDrive, a pipeline that conditions a vision-language-action (VLA) driving agent on retrieved demonstrations from a style-instructed human dri…
  • “Did you lie?” Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12618v1 公告类型:新。
      • 摘要:用于语言模型的强大测谎仪可以实现对模型行为进行审计、监控和事后调查的强大技术,但评估它们需要测试平台,在测试平台中模型可以验证其所言非虚。
      • 我们表明,现有的训练有素的模型生物体经常达不到这一要求,使得先前的阳性和阴性检测结果难以解释。
      • 我们通过 13 种推理模型生物来解决这个问题,这些生物的隐藏信念在思想链中得到验证,并被证明可以推广到持续的任务,同时还有多种欺骗,这是一个涵盖广泛的谎言诱导动机的提示说谎测试平台。
    • EN 要点:
      • arXiv:2606.12618v1 Announce Type: new
      • Abstract: Robust lie detectors for language models could enable powerful techniques for auditing, monitoring, and post-hoc investigation of model behaviour, but…
      • We show that existing trained model organisms often fail this requirement, leaving prior positive and negative detection results difficult to interpret
      • We address this with 13 reasoning model organisms whose hidden beliefs are verified in chain-of-thought and shown to generalise to held-out tasks, alongside Var…
  • TrajGenAgent: A Hierarchical LLM Agent for Human Mobility Trajectory Generation

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12657v1 公告类型:新。 -摘要:人员流动数据对于交通、城市规划和流行病控制非常重要,但大规模轨迹收集通常成本高昂且隐私受到限制,从而激发了现实的合成轨迹生成。
      • 现有的基于 LLM 的生成器通常依赖于即时工程(保留零样本推理,但缺乏细粒度的时空基础)或轨迹级微调(提高统计精度,但会产生大量计算成本,并可能削弱一般推理)。
      • 我们提出 TrajGenAgent,一种语义感知的分层 LLM 代理框架,用于生成人类移动轨迹,无需模型微调。
    • EN 要点:
      • arXiv:2606.12657v1 Announce Type: new
      • Abstract: Human mobility data is important for transportation, urban planning, and epidemic control, but large-scale trajectory collection is often costly and p…
      • Existing LLM-based generators typically rely on either prompt engineering, which preserves zero-shot reasoning but lacks fine-grained spatiotemporal grounding,…
      • We propose TrajGenAgent, a semantic-aware hierarchical LLM-agent framework for human mobility trajectory generation without model fine-tuning
  • Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12674v1 公告类型:新。
      • 摘要:紧凑语言模型 (LM) 降低了工具代理的成本、延迟和部署风险。
      • 然而,MCP 风格的工具使用需要的不仅仅是孤立的函数调用:代理必须从实时目录中发现工具,满足模式,保留中间输出之间的依赖关系,并在执行的证据中提供最终响应。
      • 小型规划人员经常生成看似合理的工作流程图,但在工具解析、参数验证、依赖性跟踪或执行下会失败。
    • EN 要点:
      • arXiv:2606.12674v1 Announce Type: new
      • Abstract: Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents
      • Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies acr…
      • Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution
  • From AGI to ASI

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12683v1 公告类型:新。
      • 摘要:在过去的十年中,构建人类水平的通用人工智能已经从遥不可及的猜测转变为许多最大的人工智能组织下一个十年的具体目标。
      • 实现这一目标将对人类社会产生深远的影响,这给未来十年提出了许多复杂的问题。
      • 本报告调查了人工智能本身如何在后通用人工智能世界中沿着机器智能的连续体继续发展。
    • EN 要点:
      • arXiv:2606.12683v1 Announce Type: new
      • Abstract: Over the last decade, building human-level artificial general intelligence has moved from far-fetched speculation to being a concrete next-decade targ…
      • Achieving this goal would have profound and far-reaching impacts on human society, which raises many complex questions for the decade ahead
      • This report investigates how AI itself might continue to develop in a post-AGI world along the continuum of machine intelligence
  • Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12702v1 公告类型:新。
      • 摘要:大语言模型 (LLM) 越来越多地集成到临床系统中,因此评估这些系统的实际效用至关重要。
      • 然而,静态基准往往衡量正确性而不是用户接受度、跨查询的聚合性能,并且需要密集注释的数据集——导致评估临床系统的主要盲点。
      • 在这项工作中,我们对嵌入在学术医疗中心电子健康记录中的法学硕士系统进行了以部署为中心的评估,该中心的用户反馈很少,但密切反映了部署条件。
    • EN 要点:
      • arXiv:2606.12702v1 Announce Type: new
      • Abstract: Large language models (LLMs) are increasingly integrated into clinical systems, making it essential to evaluate the real-world utility of these system…
      • However, static benchmarks tend to measure correctness rather than user acceptance, aggregate performance across queries, and require densely annotated datasets…
      • In this work, we perform a deployment-centered evaluation of an LLM system embedded within electronic health records at an academic medical center, where user f…

ArXiv cs.CL (B_intro+search) 链接到标题

  • EDEN: A Large-Scale Corpus of Clinical Notes for Italian

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12569v1 公告类型:新。
      • 摘要:我们提出了 EDEN(急诊科电子笔记),这是意大利医院急诊科制作的一个新的、独特的大型临床笔记语料库。
      • 当前版本的语料库由大约 400 万条完全匿名的临床记录组成,涵盖急诊科住院期间患者护理的不同阶段。
      • 此外,临床专家通过结构化病例报告表 (CRF) 对约 6000 个注释的子集进行了手动注释,其中包含与急诊科两种患者情况(呼吸困难和意识丧失)相关的 132 个项目。
    • EN 要点:
      • arXiv:2606.12569v1 Announce Type: new
      • Abstract: We present EDEN (Emergency Department Electronic Notes), a new and unique large-scale corpus of clinical notes produced in Emergency Departments of It…
      • The corpus, in its current version, is composed of approximately 4 million clinical notes fully anonymized, covering diverse phases of patient care during the s…
      • In addition, a subset of about six thousand notes has been manually annotated by clinical experts through a structured Case Report Form (CRF) containing 132 ite…
  • Helping Figures Tell their Story! Paper-Grounded Video Generation Explaining Complex Scientific Figures

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12576v1 公告类型:新。
      • 摘要:科学人物将复杂的管道压缩到单个画布中,但理解它们需要纸质的、与视觉亮点相一致的逐步叙述,而当前视频生成系统和基准测试缺少这种功能。
      • 为了解决这个问题,我们引入了基于纸张的图形到视频生成:从图形及其纸张生成带叙述的、基于区域的演练视频。
      • 我们提出了 MINARD(通过区域分解对叙事建筑进行多模态解释),这是一个生成纸质叙事并依次将其基于图形区域的管道。
    • EN 要点:
      • arXiv:2606.12576v1 Announce Type: new
      • Abstract: Scientific figures compress complex pipelines into a single canvas, yet understanding them requires paper-grounded, step-by-step narration aligned wit…
      • To address this, we introduce paper-grounded figure-to-video generation: generating narrated, region-grounded walkthrough videos from a figure and its paper
      • We propose MINARD (Multimodal Interpretation of Narrated Architecture via Region Decomposition), a pipeline that generates paper-grounded narrations and sequent…
  • MARD: Mirror-Augmented Reasoning Distillation for Mechanism-Level Drug-Drug Interaction Prediction

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12578v1 公告类型:新。
      • 摘要:机制水平的药物相互作用 (DDI) 预测需要确定涉及哪种酶或药效轴、方向以及证据,而不仅仅是两种药物是否相互作用。
      • 我们引入了可重复的机制级 DDI 标记和评估协议,具有结构化的 7 族/147 亚型分类法、泄漏安全冷分流协议以及可审核的推理指标,用于评估平面相互作用分类之外的药理学预测。
      • 我们提出了一个产生 7B 推理 MARD(镜像增强推理蒸馏)的管道,结合了三种训练创新:将模型预测联系起来的方向标签上的单标记 KL 散度、具有程序化硬负例的每损失 PRM 加权 DPO 以及泄漏安全机制感知检索通道。
    • EN 要点:
      • arXiv:2606.12578v1 Announce Type: new
      • Abstract: Mechanism-level drug-drug interaction (DDI) prediction requires identifying which enzyme or pharmacodynamic axis is implicated, in which direction, an…
      • We introduce a reproducible mechanism-level DDI labelling and evaluation protocol with a structured 7-family/147-subtype taxonomy, leakage-safe cold-split proto…
      • We propose a pipeline that produces a 7B reasoning MARD (Mirror-Augmented Reasoning Distillation), combining three training innovations: a single-token KL diver…
  • Constrained Semantic Decompression in LLMs through Persian Proverb-Conditioned Story Generation

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12599v1 公告类型:新。
      • 摘要:将密集、抽象的谚语转变为引人入胜且道德上忠实的叙事,需要深刻的文化理解和坚实的语义基础。
      • 我们将这个问题描述为\emph{约束语义解压缩}任务,并研究谚语条件故事生成作为大型语言模型(LLM)中抽象到实现的测试平台。
      • 以波斯语为重点,我们引入了谚语对齐叙事数据集 (PAND),将谚语与人类编写的故事和明确的含义配对。
    • EN 要点:
      • arXiv:2606.12599v1 Announce Type: new
      • Abstract: Transforming a dense, abstract proverb into an engaging and morally faithful narrative requires deep cultural understanding and robust semantic ground…
      • We frame this problem as a \emph{constrained semantic decompression} task and study proverb-conditioned story generation as a testbed for abstraction-to-realiza…
      • Focusing on Persian, we introduce the Proverb Aligned Narrative Dataset (PAND), pairing proverbs with human-written stories and explicit meanings
  • Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12608v1 公告类型:新。
      • 摘要:对话式购物助理现在为数亿客户提供服务,但没有现有的基准能够联合评估真实购物对话所需的开放式多轮推理、领域专业知识和标准级质量。
      • 购物推理在语言模型应用中是独一无二的。
      • 与事实问答或可验证代码生成不同,它需要在多轮对话中平衡主观偏好、预算限制和跨产品权衡,这是以前的电子商务和通用基准测试所缺乏的功能。
    • EN 要点:
      • arXiv:2606.12608v1 Announce Type: new
      • Abstract: Conversational shopping assistants now serve hundreds of millions of customers, yet no existing benchmark jointly evaluates the open-ended multi-turn…
      • Shopping reasoning is unique among language model applications
      • Unlike factual question answering or verifiable code generation, it requires balancing subjective preferences, budget constraints, and cross-product trade-offs…
  • MentalMARBERT: Domain-Adaptive Pre-training and Two-Stage Fine-Tuning for Arabic Mental Health Disorders Detection

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12649v1 公告类型:新。
      • 摘要:由于方言变异、非正式语言、有限的高质量注释资源以及严重的类别不平衡,从阿拉伯语社交媒体文本中检测心理健康障碍仍然具有挑战性。
      • 虽然英语心理健康自然语言处理 (NLP) 取得了长足进步,但阿拉伯语多类障碍分类的研究仍然不足。
      • 这项研究提出了阿拉伯语心理健康文本分类的两阶段框架。
    • EN 要点:
      • arXiv:2606.12649v1 Announce Type: new
      • Abstract: Detecting mental health disorders from Arabic social media text remains challenging due to dialectal variation, informal language, limited high-qualit…
      • While English mental health natural language processing (NLP) has progressed substantially, Arabic multi-class disorder classification remains insufficiently st…
      • This study proposes a two-phase framework for Arabic mental health text classification
  • Observable Patterns Are Not Explanations: A Causal-Geometric Analysis of Latent Reasoning Models

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12689v1 公告类型:新。
      • 摘要:潜在推理模型(LRM)用连续的思维取代了显式的思维链。
      • 最近的工作将可观察的潜在状态模式(例如类似 BFS 的边界和可解码的算术计算)视为内部推理机制的证据。
      • 根据缺乏建议的重复或课程的对照评估两种 LRM(椰子和 CODI),我们发现这些模式也出现在对照中,并且并不总是对行为产生因果影响。
    • EN 要点:
      • arXiv:2606.12689v1 Announce Type: new
      • Abstract: Latent reasoning models (LRMs) replace explicit chain-of-thought with continuous thoughts
      • Recent work treats observable latent-state patterns, such as BFS-like frontiers and decodable arithmetic computation, as evidence for internal reasoning mechani…
      • Evaluating two LRMs (Coconut and CODI) against controls lacking the proposed recurrence or curriculum, we find these patterns also appear in the controls and do…
  • AfriSUD: A Dependency Treebank Collection for Evaluating Models on African Languages

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12708v1 公告类型:新。
      • 摘要:尽管非洲语言具有语言多样性和全球重要性,但在支持 NLP 的研究和资源中,非洲语言的代表性仍然不足。
      • 我们的目标是通过引入 AfriSUD 来弥补这一差距,这是第一个大规模的语法注释树库集合,涵盖九种不同的非洲语言,涵盖撒哈拉以南非洲的主要语系和地区。
      • 使用表面句法通用依赖关系 (SUD) 框架,我们社区主导的工作提供了高质量、经过母语验证的数据,这些数据捕获了凝集和语气等类型学关键特征。
    • EN 要点:
      • arXiv:2606.12708v1 Announce Type: new
      • Abstract: Despite their linguistic diversity and global significance, African languages remain underrepresented in research and resources to support NLP
      • We aim to bridge this gap by introducing AfriSUD, the first large-scale collection of syntactically annotated treebanks for nine diverse African languages spann…
      • Using the Surface-Syntactic Universal Dependencies (SUD) framework, our community-led effort provides high-quality, native-speaker verified data that capture ty…
  • Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12716v1 公告类型:新。
      • 摘要:将大型语言模型 (LLM) 和多模态 LLM (MLLM) 集成到科学同行评审工作流程中,为对抗性操纵带来了新颖且重大的风险,特别是考虑到科学论文的多模态性质,其中图形(而不仅仅是文本)传达了核心证据。
      • 这造成了一个巨大的差距:目前关于人工智能同行评审的稳健性研究绝大多数都是纯文本的。
      • 此外,该问题与标准越狱不同,因为同行评审攻击旨在引发特定领域的有针对性的失败(例如,“夸大此分数”),而不是一般的安全策略违规,对此不存在实际的防御措施。
    • EN 要点:
      • arXiv:2606.12716v1 Announce Type: new
      • Abstract: The integration of Large Language Models (LLMs) and Multimodal LLMs (MLLMs) into scientific peer-review workflows introduces novel and significant ris…
      • This creates a significant gap: current robustness studies on AI peer-review are overwhelmingly text-only
      • Moreover, the problem is distinct from standard jailbreaking, as a peer-review attack seeks to induce a domain-specific, targeted failure (e.g., “inflate this s…
  • Agent-based models for the evolution of morphological alternation patterns

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.12748v1 公告类型:新。
      • 摘要:为什么英语“go”的过去式是明显不相关的“went”?
      • 这种交替在语言中很常见。
      • 它们既无助于沟通,也无助于学习,但它们可以持久存在,存活数百年或数千年。
    • EN 要点:
      • arXiv:2606.12748v1 Announce Type: new
      • Abstract: Why is the past of English “go” the apparently unrelated “went”
      • Such alternations are frequent in languages
      • They neither aid communication nor learnability, yet they can be persistent, surviving over centuries or millennia

ArXiv cs.LG (B_intro+search) 链接到标题

  • Restless bandits with imperfect binary feedback: PCL-indexability analysis and computation

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11192v1 公告类型:新。
      • 摘要:我们研究具有二元潜态和不完美二元反馈的不安强强盗,其动机是具有传感错误的机会主义频谱访问。
      • 对于相关的信念状态模型,我们开发了一个基于部分守恒定律(PCL)的分析和计算框架,用于建立可索引性和评估 Whittle 指数,建立在真实状态折扣不安强盗的验证定理的基础上。
      • 该框架通过相关的确定性骨架、更新分解和单词组合来分析随机动力学。
    • EN 要点:
      • arXiv:2606.11192v1 Announce Type: new
      • Abstract: We study restless bandits with binary latent states and imperfect binary feedback, motivated by opportunistic spectrum access with sensing errors
      • For the associated belief-state model, we develop a partial conservation laws (PCL)-based analytical and computational framework for establishing indexability a…
      • The framework analyzes the stochastic dynamics via an associated deterministic skeleton, renewal decompositions, and combinatorics on words
  • To Intervene or Not: Guiding Inference-time Alignment with Probabilistic Model Blending

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11201v1 公告类型:新。
      • 摘要:法学硕士的广泛部署使得模型对齐成为必要,以使新训练的模型安全有效地响应用户指令。
      • 在不同的方法中,推理时间对齐通常更便宜,因为它仅在输出生成期间进行干预(即提供指导)。
      • 现有提案应用从某些一致模型中提取的指导,而没有正确评估其可靠性。
    • EN 要点:
      • arXiv:2606.11201v1 Announce Type: new
      • Abstract: The wide deployment of LLMs has made model alignment necessary to make newly trained models safely and effectively respond to user instructions
      • Among different methods, inference-time alignment is often cheaper as it intervenes (i.e., offers guidances) only during output generation
      • Existing proposals apply guidances extracted from certain aligned models without properly assessing their reliability
  • Dual-Stance Evaluation of Sycophancy: The Structure of Agreement and the Limits of Intervention

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11205v1 公告类型:新。 -摘要:激活转向可以改变法学硕士的行为,但标准评估通常不会测试减少阿谀奉承的方向是否也会抑制与事实正确的陈述的一致性。
      • 我们引入了双立场评估,它测试每个主题的两种立场,并将其应用于 Llama-3-8B-Instruct 上的质心差异转向。
      • 我们发现了一种分离:该模型代表了几何上不同的子空间中的阿谀奉承和事实一致,但转向方向平等地投射到两者上,并且不能有区别地瞄准其中任何一个。
    • EN 要点:
      • arXiv:2606.11205v1 Announce Type: new
      • Abstract: Activation steering can shift LLM behaviour, but standard evaluations do not typically test whether a sycophancy-reduction direction also suppresses a…
      • We introduce dual-stance evaluation, which tests both stances of each topic, and apply it to centroid-difference steering on Llama-3-8B-Instruct
      • We find a dissociation: the model represents sycophantic and factual agreement in geometrically distinct subspaces, yet the steering direction projects equally…
  • Few-Shot Resampling for Scalable Statistically-Sound Data Mining

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11235v1 公告类型:新。
      • 摘要:知识发现的关键步骤是对数据挖掘结果的评估。
      • 在多种应用中,包括模式挖掘、图形分析等,此步骤包括评估结果的统计显着性,以避免仅由于数据中的噪声或随机波动而导致虚假发现。
      • 虽然针对某些特定应用开发了专门程序,但基于重采样的方法得到了广泛使用,特别是对于无法得出分析结果的复杂分析。
    • EN 要点:
      • arXiv:2606.11235v1 Announce Type: new
      • Abstract: A key step in knowledge discovery is the evaluation of data mining results
      • In several applications, including pattern mining, graph analysis, and others, this step includes the evaluation of the statistical significance of the results,…
      • While specialized procedures have been developed for some specific applications, resampling-based approaches are widely used, in particular for complex analyses…
  • ProHiFlo: Hierarchical Flow Matching with Functional Guidance for De Novo Protein Generation

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11243v1 公告类型:新。
      • 摘要:从头蛋白质生成在治疗设计、酶工程和合成生物学方面具有变革潜力。
      • 虽然基于扩散和流量匹配的方法已经取得了进展,但它们通常以单一分辨率运行,并且缺乏合并功能约束的机制。
      • 我们引入了 ProHiFlo,一种具有三项创新的分层流匹配框架:(1)从粗到细的生成,在细化到全原子坐标之前对骨干几何结构进行建模,从而在保持准确性的同时降低计算成本; (2) 功能指导利用预训练的预测器来引导一代人实现所需的属性,而无需重新训练; (3) 用于高效多尺度处理的自适应SE(3)等变架构。
    • EN 要点:
      • arXiv:2606.11243v1 Announce Type: new
      • Abstract: De novo protein generation has transformative potential in therapeutic design, enzyme engineering, and synthetic biology
      • While diffusion-based and flow matching approaches have achieved progress, they typically operate at single resolution and lack mechanisms for incorporating fun…
      • We introduce ProHiFlo, a hierarchical flow matching framework with three innovations: (1) coarse-to-fine generation that models backbone geometry before refinin…
  • Physics-informed generative AI for semiconductor manufacturing: Enforcing hard physical constraints in generative models by construction

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11247v1 公告类型:新。
      • 摘要:生成模型越来越多地用于提出物理系统的设计、数据和控制操作,但许多此类系统受到严格的物理约束而不是感知合理性的控制。
      • 半导体制造提供了严格的测试用例:生成的掩模、布局、合成缺陷数据和工艺配方必须遵守光刻、传输、反应和设备物理约束,因为物理无效的样品不仅质量低而且无法使用。
      • 本观点认为,半导体制造面临着更广泛的计算科学挑战,即受限物理领域的生成式人工智能必须通过构造获得物理信息,而不仅仅是通过事后过滤进行纠正。
    • EN 要点:
      • arXiv:2606.11247v1 Announce Type: new
      • Abstract: Generative models are increasingly used to propose designs, data, and control actions for physical systems, yet many such systems are governed by hard…
      • Semiconductor manufacturing provides a demanding test case: generated masks, layouts, synthetic defect data, and process recipes must obey lithography, transpor…
      • This Perspective argues that semiconductor manufacturing exposes a broader computational-science challenge, namely that generative AI for constrained physical d…
  • Mechanical Field Networks: Structured Neural Dynamics for Multivariate Systems

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11251v1 公告类型:新。
      • 摘要:许多多元动力系统只能通过轨迹来观察,从而隐藏了控制其联合动力学的机制。
      • 现有方法可以强加可解释的动态或学习灵活的状态转换,但所得到的交互结构通常要么提前指定,要么隐含在学习的动态中。
      • 我们引入了 MF-Net,这是一种循环动态模型,它表示共享场状态中的所有变量,并通过学习的关系律更新该状态。
    • EN 要点:
      • arXiv:2606.11251v1 Announce Type: new
      • Abstract: Many multivariate dynamical systems are observed only through trajectories, leaving the mechanisms governing their joint dynamics hidden
      • Existing approaches can impose interpretable dynamics or learn flexible state transitions, yet the resulting interaction structure is typically either specified…
      • We introduce MF-Net, a recurrent dynamical model that represents all variables in a shared field state and updates this state through a learned relation law
  • Bernstein-Schur Kernels: Random Features by Sketched Modulation and Radial Randomization

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11255v2 公告类型:新。
      • 摘要:Bernstein–Schur 核是有限特征核和完全单调平移不变核的乘积:介于平移不变和点积模板之间的非平稳核利用随机特征,因此 Bochner 采样和多项式草图都不能直接应用于完整核。
      • 我们为整个类提供一个随机特征构造,将两个因子随机化:它勾勒出有限调制并在应用高斯随机傅立叶特征之前对径向因子的一维 Bernstein-Widder 尺度进行采样,给出特征维度 $Dm$,不受精确调制特征的 $O(d^2)$ 大小的影响。
      • 在调制保持精确($m\to\infty$限制)的情况下,我们证明了无偏性、精确方差以及由顶部内核和调制特征值以及内在维度控制的矩阵伯恩斯坦算子范数界限,而不是原始的$N\max_{ij}$路线。
    • EN 要点:
      • arXiv:2606.11255v2 Announce Type: new
      • Abstract: Bernstein–Schur kernels are products of a finite-feature kernel and a completely monotone shift-invariant kernel: nonstationary kernels falling betwe…
      • We give one random-feature construction for the whole class that randomizes both factors: it sketches the finite modulation and samples the radial factor’s one-…
      • With the modulation kept exact (the $m\to\infty$ limit), we prove unbiasedness, an exact variance, and a matrix-Bernstein operator-norm bound controlled by the…
  • Loss Landscape Diagnosis for Gradient-Based Gray-Scott System Inversion: Disentangling the Roles of PINN Components

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11258v1 公告类型:新。
      • 摘要:基于梯度的反应扩散系统反演通常通过代理模型或物理信息神经网络 (PINN) 来实现,而最直接的途径,即通过 PDE 结构本身的反向传播,在很大程度上被避免了。
      • 我们将这种直接途径作为诊断探针,通过展开的格雷-斯科特模拟反向传播稳态损失以恢复其参数,无需替代或神经网络增强。
      • 优化无法收敛,绘制地形图可以直接定位其几何形状中的故障——没有梯度信号的平坦高原,以与分叉边界对齐的陡峭悬崖为界——这种结构在损失函数中重复出现,并且是继承的,但梯度被路由到参数。
    • EN 要点:
      • arXiv:2606.11258v1 Announce Type: new
      • Abstract: Gradient-based inversion of reaction-diffusion systems is typically approached via surrogate models or physics-informed neural networks (PINNs), while…
      • We pursue this direct route as a diagnostic probe, backpropagating a steady-state loss through unrolled Gray-Scott simulation to recover its parameters, with no…
      • Optimization fails to converge, and plotting the landscape directly locates the failure in its geometry – flat plateaus with no gradient signal, bounded by sha…
  • PermDoRA – Understanding Adapter Interference in Language Models: Limits of Parameter-Space Geometry

    • 发布时间:2026-06-12 12:00 北京时间
    • 摘要:- arXiv:2606.11262v1 公告类型:新。
      • 摘要:大型语言模型(LLM)中的访问控制需要模块化机制来实现特定于域的行为,而无需重新训练或跨域干扰。
      • 一个常见的假设是,适配器组合过程中的干扰是由线性参数更新的重叠引起的,这表明强制正交性或方向独立性应该可以提高多域性能。
      • 我们使用 DoRA-RBAC 来测试这个假设,DoRA-RBAC 是一种基于权重分解的低秩适应的分层适配器组合框架。
    • EN 要点:
      • arXiv:2606.11262v1 Announce Type: new
      • Abstract: Access control in large language models (LLMs) requires modular mechanisms to enable domain-specific behavior without retraining or cross-domain inter…
      • A common hypothesis is that interference during adapter composition arises from overlap in linear parameter updates, suggesting that enforcing orthogonality or…
      • We test this hypothesis using DoRA-RBAC, a hierarchical adapter composition framework based on weight-decomposed low-rank adaptation