
国内股票配资
这项由韩国科学技术院(KAIST)与DeepAuto.ai联合开展的研究,于2026年6月3日以预印本形式发布,论文编号为arXiv:2606.04743v1,归属计算机科学·计算与语言(cs.CL)方向。有兴趣深入探究的读者可通过该编号在arXiv平台检索完整论文。
你有没有遇到过这种情况:工作群里的消息堆积如山,日历上的会议一个接一个,文件夹里的文档越来越多,但某个关键截止日期悄悄溜走了,某份报告里的数据自相矛盾了,某个会议早就没人去开了,却还占着最重要的时间窗口——而你完全没有察觉,直到问题爆发。现在的AI助手再聪明,也只在你开口问的时候才会行动,它不会主动翻一翻你的日历说"你下周有个大麻烦"。
KAIST与DeepAuto.ai的研究团队认为,这种"等着被差遣"的模式根本上是一种缺陷。真正有用的助手,应该像一个经验丰富的同事,能在你还没意识到问题存在之前,就已经帮你把隐患找出来。正是带着这个想法,他们设计出了一套名为TIDE的框架——全称Template-guided Iterative Discovery and rEsolution,直译过来叫"模板引导的迭代发现与解决"。这个名字有点拗口,但背后的思路其实非常贴近日常经验,后面会慢慢道来。
一、只等吩咐的助手,为什么是个根本性的问题
现有的AI助手,无论多么强大,本质上都处于一种"被动等候"的状态。你告诉它"帮我安排周三下午一点跟James的会议",它就去安排;你不说,它就静静地待着。这种模式有一个隐含的前提:用户自己已经知道哪里有问题,只需要AI去执行。
但现实恰恰相反。最麻烦的问题往往是那些你还不知道自己不知道的事。研究团队举了几个非常具体的例子:某部门口头批准了一笔预算,但没有人把这个决定记录在案,导致供应商订单因无据可查而卡住,而截止日期就在眼前;同一份报告存在两个版本,数据互相矛盾,两份都要进入即将召开的高层评审;某个例行会议大家已经默契地不去参加了,但日历上的时间块还在,把唯一合适的紧急启动会窗口堵死了。这些问题并不藏在什么神秘角落里——它们就明明白白地躺在邮件、文档、日历条目里,AI原本完全可以读到,却从来没人让它主动去找。
同样的结构在软件开发领域也普遍存在。一个代码仓库里可能同时潜伏着多个互相关联的Bug,其中一个修了,另外几个还在,用户只报告了一个问题,AI只修了那一个,其余的继续等着在某个深夜引发事故。
研究团队把这类情景归纳为一个新任务:从上下文中发现多个隐藏问题。它的关键特征有三点:问题从来没有被明确表达为一个请求;同时存在的问题数量事先未知;只解决最显眼的那一个,其余的仍旧原封不动。这与以往那些"预测用户想要什么"的研究不同——以往大多是预测一个单一需求,而这里面对的是一片散落的隐患,数量不定,相互竞争注意力。
二、最直觉的做法为什么行不通
看到这里,你可能会想:那就直接让AI把所有问题一次全找出来不就行了?或者干脆多开几个AI并行工作,一人找一个,这样覆盖得更全?
研究团队确实考虑过这两种方案,并且在实验中认真测试了它们。结果却颇为出乎意料,两种方案都失败了,而且失败的方式很有启发性。
先说"一次找完"这条路。当你把整个工作区的邮件、文档、日历全塞给AI,让它一口气找出所有问题时,AI的注意力会不由自主地被最显眼的东西吸引。就像一个侦探走进乱成一团的房间,第一眼看到的肯定是最大的那堆乱——床上乱扔的衣服、桌上的外卖盒——而不是抽屉角落里那张记错日期的便条。AI会把精力压在最突出的问题上,给出几个描述模糊的"通用结论",而那些更隐蔽但同样重要的问题就这样被遗漏了。
再说"多个AI并行"这条路。表面上看,开多个独立的AI同时扫描,应该能看到更多地方。但问题在于,这些AI之间互相不通气。每一个都从零开始审视同样的资料,每一个都会被同样最显眼的信号所吸引,于是它们找到的,大多是同一批问题的重复。研究团队在实验里实际测量了这一点:从第二个AI开始,新发现的问题急剧减少,重复发现的问题迅速占据主导。到最后,十个并行AI凑在一起,效果甚至比不上TIDE用两次迭代取得的结果。更根本地说,多开几个AI并没有改变任何结构——问题在于没有人告诉后来的AI"前面已经找到什么了,不要重复",并行只是把同样的盲点复制了好几遍。
三、TIDE的两个核心武器:迭代发现与思维模板
面对上述两个失败,研究团队的解法是两个互补的机制,它们从不同角度各攻一个弱点。
第一个机制叫做迭代发现。不再要求AI一次找完所有问题,而是让它每一轮只找少量新问题,然后明确知晓"我已经找到了什么",再开始下一轮。这个"明确知晓"是关键——后续的每一轮,AI都是在"剩余未发现问题"这片空间里搜索,而不是重新扫描整个空间。回到侦探的比喻:第一轮侦探清点了最显眼的证物;第二轮他再来,知道那些显眼的已经记录在案,就开始注意那些更不起眼的细节;第三轮他清楚了更多已有线索,目光继续向更隐秘处延伸。每一轮的"已发现清单"都在推着他往更深处走。
在技术层面,这个机制的表述相当简洁:第t轮的新发现,等于"把整个文档集合、模板库、以及截至第t-1轮的所有已发现问题"一起喂给AI,让它生成最多k个新候选。发现集随着轮次累积,直到某轮返回空结果,或者达到预设的最大轮次T为止。对于个人工作区任务,T设为10轮;对于代码仓库任务,T设为3轮,因为代码问题通常更集中,不需要那么多轮。
第二个机制叫做思维模板。即便有了迭代,AI在每一轮面对文档时,如果没有任何"先验知识",它的推断仍然可能飘向模糊或投机性的描述,因为它不知道这类问题通常长什么样。思维模板解决的就是这个问题:从过去已经解决过的案例里,把问题的结构抽象出来,形成可以反复使用的"侦查模式卡片",让AI在遇到新情况时能对号入座。
每张模板包含三个部分:一个名字,标明这是哪一类问题;一个模式描述,说明这类问题的结构性特征;以及一个证据流程,告诉AI应该按什么顺序去查看哪些信号、怎么把它们串联起来推断出问题的存在。
举一个论文里给出的具体模板作为例子。这张模板叫做"冲突信息源在截止日期下阻碍审批"。它的模式描述是:同一份原始材料在不同渠道里存在互相矛盾的版本,而一个迫在眉睫的截止日期要求必须在审批完成之前确定哪个版本是权威的。它的证据流程分三步:第一步,找到那份可交付物以及它声称引用的来源;第二步,在不同渠道里找到这份材料的多个副本,确认存在实质性的差异;第三步,把这个冲突与有时间限制的审批节点以及负责解决它的人联系起来。
有了这张模板,AI就不用从零开始猜"这堆文档里可能有什么问题",而是可以按图索骥地去问:"这里有没有某个材料存在多个版本,且审批因此卡住了?"这不是在限制AI只能找模板里描述的问题——研究团队特别设计了一条规则:对于代码仓库的任务,AI同样被鼓励报告不符合任何模板但确实是真实Bug的问题,两种情况同等有效。模板的作用是提供一批"已知的常见模式"作为抓手,而不是设置边界。
模板是从训练集里的已解决案例中构建出来的:对于工作区任务,研究团队生成了40个模板;对于代码仓库任务,生成了108个模板。这些模板在推断时保持固定,不会随着当前任务的进展而修改,但可以跨不同AI后端转用。
四、两个测试战场:个人工作区与软件仓库
为了检验TIDE的实际效果,研究团队搭建了两套真实感极强的测试场景,因为没有任何现有基准专门针对"从上下文中发现多个隐藏问题"这个任务,他们必须自己构建评估数据。
第一套场景是个人工作区。每个测试实例代表一位真实用户的数字工作环境,包含一份描述该用户角色、工作风格、当前优先事项、痛点和人际关系的画像,以及这位用户的工作文档、邮件和日历条目构成的"文件库"。每一个隐藏问题通常需要AI把多份不同文档、邮件和日历条目里的信息拼接起来才能识别——没有任何单一文档会直接写明"这里有个问题"。文件库里还穿插着大量干扰材料,它们看起来与正在进行的项目相关,但实际上并不牵涉任何真实问题。解决方案的形式是从预设动作集里选取一个具体行动,比如"发送邮件"、"安排会议"、"共享文档"、"向上级汇报",并填写执行所需的全部参数。研究团队借助一套数据构建流程生成了30个多问题工作区,共包含150个问题,每个工作区包含4到6个隐藏问题,以及88到113个候选文件。
第二套场景是软件代码仓库。每个测试实例是一个真实开源Python项目在某个提交节点的快照,此时代码里同时存在多个未解决的Bug,修复它们需要对代码库里多个函数各自打补丁。每个问题对应一位真实GitHub用户提交的Issue,金标准解决方案是实际合并进主分支的Pull Request补丁。文件库由从快照里解析出的候选函数构成,其中只有一部分函数包含待修的Bug,其余都是干扰函数。研究团队从SWE-BENCH和TESTEXPLORA两个数据集里收集了Python仓库的GitHub Issue,按"同一仓库、同一锚点提交、至少两个Bug分布在至少两个不同函数"的标准进行分组,最终得到20个多Bug测试实例,涵盖11个真实项目,共146个问题,每个实例包含2到41个问题,候选函数数量从6个到646个不等。
五、实验结果:数字背后的故事
研究团队用四个主流大语言模型作为后端进行测试:GPT-5 mini、Claude Sonnet 4.5、Gemini 3.5 Flash和Qwen 3.6 Flash,这四个模型都支持超长上下文,能一次性读入完整的文件库。评估维度分为三个:检索(AI找到的支持证据与金标准证据的重合度)、识别(AI对问题本身的描述是否正确)和解决(AI提出的行动方案是否有效)。每个维度都分别计算"覆盖率"和"F1分",前者衡量金标准里有多少问题被成功发现,后者综合考虑覆盖率和精准度,对那些找了很多但大多是错的情况予以惩罚。
以GPT-5 mini为例,在工作区任务上,单次单智能体的检索覆盖率是47.60,TIDE达到了69.06;识别覆盖率从47.85提升到67.64;解决覆盖率从49.67跃升到76.08。平行多智能体的表现甚至不如单次单智能体——多个独立AI合力下来,检索覆盖率只有32.15,TIDE的成绩几乎是它的两倍。在代码仓库任务上,各方分数普遍偏低(这个任务本身更难),但TIDE相对于基线的提升幅度依然十分明显,检索覆盖率从8.66提升到16.82,识别从11.15到17.29,解决从12.19到15.52。四个模型后端的结果高度一致,TIDE在每一种模型下都是最佳。
从具体实例分布来看,在工作区任务里,单次单智能体和多智能体大多只能发现一到两个问题,而每个实例其实藏着四到六个。TIDE则频繁能发现四个甚至更多。随着每个实例中金标准问题数量的增加,两个基线的覆盖率越来越跟不上,TIDE却始终保持相对稳定的覆盖能力。
研究团队还做了一个非常直观的拆解实验:把每一轮的新预测和重复预测分开统计。结果显示,多智能体从第二个AI开始,新发现急剧下滑,重复发现迅速占据主导;而TIDE在每一轮迭代里都持续贡献真正新的发现,这种"持续扩张"的特性,正是它覆盖率领先的根本原因。
六、两个机制各自贡献了什么
迭代和模板到底各自贡献了多少?研究团队做了细致的消融实验来拆解这个问题。
在逐轮跟踪覆盖率和精准度的对比中,有模板的TIDE与无模板的TIDE相比,覆盖率的差距相对较小,而精准度的差距则在每一轮都显著可见。这说明,迭代本身主要贡献的是"找到更多",而模板主要贡献的是"找得更准"。两者作用于不同维度,缺一不可。
研究团队还测试了一个很自然的替代方案:既然模板是从训练样本里提炼出来的,那直接把原始训练样本作为"few-shot示范"塞进迭代循环,效果会不会和模板一样好?答案是否定的。带有原始示范的迭代在检索、识别和解决三个维度上都明显低于使用模板的TIDE。这说明,模板的价值不在于"让AI见过例子",而在于把例子背后的结构抽象出来形成可复用的推理模式——这两件事有本质区别。
模板池的大小也有直接影响。研究团队在代码仓库任务上逐步增加可用模板的数量,三个指标随模板数量增加而稳步提升。而且值得注意的是,即便一个模板都没有,只用迭代的版本也已经超越了单次单智能体基线——这说明迭代本身就有独立价值,模板在此基础上叠加进一步增益。
另一个值得关注的发现是模板的跨模型迁移性。GPT构建的模板交给Gemini用,或者Gemini构建的模板交给GPT用,效果与各自用自己构建的模板相当,甚至在某些维度上还略有提升。这意味着模板作为一种抽象化的"问题结构知识",具有相当程度的通用性,不依附于特定模型的思维风格。两个模型在使用模板时的偏好倒有所不同:GPT倾向于集中引用少数几个高频模板,Gemini则更分散,广泛引用更多模板——但最终结果上的差距远小于这种风格差异所暗示的程度。
七、两个具体案例:侦探破案的全过程
论文里给出了两个详细的对比案例,非常清楚地展示了单次单智能体和TIDE在实际表现上的差距。
第一个案例来自工作区场景。金标准问题是:某企业社区影响力经理的志愿者追踪平台在3月8日"社区建设日"活动中出现了重复计数,供应商的修复程序已经就绪,但被一个待审批的IT安全权限申请单卡住,而这批数据将在3月20日的高层汇报中使用。正确答案需要五份文档共同支撑:3月12日供应商支持工单、3月13日权限审批请求、重复的志愿者记录、3月20日高层汇报预读材料、以及数据冻结协调线程。正确的行动是向特定主管发出紧急提醒,附上权限申请卡单情况、供应商部署窗口和汇报截止日期。
单次单智能体找到了什么?它找到了一个完全无关的"设施采购停滞"问题,没有检索到任何一份金标准文档,发出的邮件既没有对准正确的主管,也没有提及权限申请或高层汇报截止。
TIDE在第三轮迭代中找到了这个问题,五份金标准文档全部检索到位,问题描述精确命中了平台重复计数、卡住的权限申请和高层汇报的时间链条,行动方案也正确指向了该主管,并附上了所有关键细节。驱动这一发现的是一张编号TID_11的模板,模式描述为:一份有时间约束的高层交付物依赖于某个修复就绪但被内部审批拖住的正确材料,向主管链路升级可以在交付窗口前解除卡点。
第二个案例来自代码仓库场景。金标准问题是mlxtend库中McNemar检验相关的多函数Bug:两个配对的函数mcnemar_table和mcnemar_tables在构建2×2列联表时,都把对角线以外的两个格子赋值颠倒了,修复必须在两个函数里同步进行。
单次单智能体把这两个函数的问题当作两个独立Bug来处理,每个函数各自打了一个补丁,确实都在局部做了正确修改,但从来没有意识到这是一个跨函数的共同模式,也就没有把它们作为一个关联缺陷统一表述和修复。
TIDE在一个单独的发现条目里同时检索到了两个函数,把tb[1,0]和tb[0,1]的赋值颠倒追溯到了两个构造函数共同违反的文档约定,并生成了一个统一的补丁,在两个函数里同步交换对角线赋值。驱动这一发现的是编号TID_47的模板:两个兄弟工厂函数为相关输入构建相同形状的容器,两者都计算了同一个判别值,但赋值时索引顺序相对于文档约定是反的,这种失败在调用处静默无声,只有在下游消费者按文档约定读取容器时才会暴露。
这两个案例共同呈现了一个清晰的模式:TIDE的改进不是偶发的,而是由可识别的、可复用的推理结构系统性地驱动的。
说到底,这项研究回答的问题相当基本:一个智能助手,如果只在你开口的时候才有反应,那它帮到你的,只是你已经知道的问题。而真正让你措手不及的,恰恰是那些你没想到要问的事。
TIDE的核心贡献并不是一个复杂的算法突破,而更像是一种认知策略的转变:把"找问题"这件事从一次性的大扫描,变成一个有记忆的、不断缩小搜索范围的迭代过程;同时把过去解决过的案例里提炼出的结构性知识,以可复用的形式注入到每一轮推断中。这两件事分别对应"找得更多"和"找得更准",互不干扰,叠加在一起效果显著。
在实际应用层面,这项研究意味着未来的AI助手不只是一个更聪明的执行工具,而有可能成为一个真正意义上的"主动看护者"——能在你的工作流里自己找到那些正在悄悄积累的麻烦,在它们酿成真正的危机之前送到你眼前。从日常工作管理到代码维护,这种能力都有直接的落地价值。
当然,这套方案也有它尚未完全解决的地方。模板目前是一次性构建好的,在推断时不会根据新发现自动扩充;如何让模板库随着AI积累的经验动态成长,是研究团队明确指出的下一步方向。同样,迭代多轮意味着需要多次调用语言模型,这是一种计算成本的投入,尽管实验表明哪怕只用两轮迭代,效果已经超过了用十个并行AI的方案。
如果你对这个话题感兴趣,有一个值得思考的问题:在你自己的日常工作或生活里,有哪些隐患是你很清楚"可能存在"却总没机会系统排查的?如果有一个AI助手每周帮你主动扫描一遍,你最希望它先关注哪个角落?原论文可通过arXiv编号2606.04743v1查阅。
---
Q&A
Q1:TIDE框架中的"思维模板"是怎么来的,普通人能自己造吗?
A:思维模板是从已经解决过的案例里自动提炼出来的,具体方式是把一个已解决问题的描述、相关文档和解决方案一起喂给大语言模型,让它把其中的具体细节抽象掉,只保留结构性的"问题形态"和"应该按什么顺序看哪些信号"。这个过程本身是自动的,不需要人工手写。研究团队为工作区任务生成了40个模板,代码任务生成了108个。普通用户如果有足够多自己领域里的已解决案例,理论上可以用同样的流程构建属于自己场景的模板库。
Q2:TIDE迭代多轮会不会让同一个问题被重复发现,浪费计算资源?
A:这正是TIDE与多智能体并行方案的根本区别所在。多智能体每个都从零开始,确实会大量重复发现相同的显眼问题。TIDE的每一轮迭代都明确知晓"前几轮已经找到了什么",并被要求只报告全新的问题,如果某轮没有新发现就直接终止。实验数据显示,TIDE在每一轮都持续贡献新的发现,而多智能体从第二个开始新发现就急剧减少。
Q3:TIDE只能用于工作区和代码仓库场景吗?
A:从框架设计来看国内股票配资,TIDE并不绑定特定场景,其核心逻辑是:给定任意一组文档集合,通过带记忆的迭代搜索和可复用模板,发现其中同时存在的多个隐藏问题。只要能提供足够的历史已解决案例来构建模板库,原则上这套方法可以迁移到其他场景,比如法律文档审查、医疗记录分析或项目管理文件审核。研究团队选择工作区和代码仓库,主要是因为这两个场景都有现成的数据来源可以构建评估集。
广瑞网提示:文章来自网络,不代表本站观点。