SWE-Master:基于后训练的开源软件工程智能体框架
开源地址:https://github.com/RUCAIBox/SWE-Master
1. 背景与核心洞察 (The Core Insight)
软件工程智能体(SWE Agents)正从概念验证走向生产级应用,但开源社区面临一个根本性的工程瓶颈:缺乏透明且可复现的端到端训练流程。当前主流系统(如OpenAI的Codex、Anthropic的Claude Sonnet)的训练数据构造、强化学习策略及推理框架设计均处于黑盒状态,这导致学术界难以复现结果、验证假设或进行增量改进。
SWE-Master的核心洞察在于:通过系统性的后训练优化(Post-Training),即使从SWE能力极弱的开源基座模型(如Qwen2.5-Coder-32B在SWE-bench Verified上初始resolve rate低于10%)出发,也能通过精心设计的Data Curation → Long-Horizon SFT → RL with Real Execution → Test-Time Scaling流水线,激发出强大的长程软件工程任务解决能力。
该工作在AI技术栈中的定位是:首个完全开源、端 ...
how to build a prompt for anything (and remix them at will)
简介在 AI 开发领域,提示工程 (Prompt Engineering) 是优化大型语言模型 (LLM) 输出的关键技术。本文介绍一个高级提示模板。
关于"LLM 聊天中的 Prompt Engineering"和"Agentic Engineering 中的 Prompt Engineering",最终都归结为一个简单的系统。它在网上疯传——数十万次浏览,数千次收藏,很多人意识到他们一直在对着 AI 许愿,而不是在工程化行为或系统。
读完这篇文章,如果你愿意,你将不再需要复制粘贴任何人的 Prompt。你会想要构建自己的。
1. 停止复制粘贴 Prompt
互联网上充斥着"Top 50 ChatGPT Prompts"的帖子。人们收藏它们,粘贴进去,很多时候得到中等结果,然后继续寻找下一个。
问题出在这里:为一个特定使用场景、特定上下文、特定输出目标构建的 Prompt,永远不会比你自己构建的效果更好。而且这也不该由我来告诉你——这是你自己该搞清楚的。但我还是告诉你了,因为我爱你。
你现在做的事情就像戴别人的处方眼镜。技 ...
Kimi CLI 的 Skills 开发
摘要
随着大型语言模型(LLM)在软件开发领域的广泛应用,如何有效地扩展 AI Agent 的专业能力成为一个重要课题。Kimi Code CLI 通过引入 Agent Skills 机制,为用户提供了一种模块化、可复用的能力扩展方案。本文系统性地介绍了 Kimi CLI Skills 的架构设计、开发流程,并重点阐述了 Flow Skill 这一特殊类型的工作流自动化机制。通过实际案例分析,本文展示了如何构建从简单的知识型 Skill 到复杂的多步骤自动化工作流,为开发者提供完整的 Skills 开发实践指南。
1. 引言
1.1 背景与动机
在现代软件开发中,AI 编程助手已成为提升效率的重要工具。然而,通用的 AI 模型往往缺乏特定领域的专业知识,例如团队编码规范、项目特定的业务逻辑、或复杂的多步骤工作流程。传统的解决方案是通过详细的提示词(Prompt Engineering)来引导 AI,但这种方法存在明显的局限性:提示词难以复用、知识难以沉淀、工作流程难以自动化。
Agent Skills 作为一种开放格式,旨在解决上述问题。它将专业知识和工作流程封装为独立的模块,使 AI ...
TEXT2DB:Integration-Aware Information Extraction with Large Language Model Agents
这篇来自伊利诺伊大学香槟分校(UIUC)顶级数据与自然语言处理实验室的论文,《TEXT2DB: Integration-Aware Information Extraction with Large Language Model Agents》,表面上看是在谈论一个技术问题,但实际上,它揭示了我们在与AI协作时一个长期被忽视却至关重要的瓶颈。
现在,让我们一起为这篇“硬核”的学术论文,搭建一座通往大众理解的“阶梯”。
AI不仅要会“读书”,更要会“归档”:一项研究正在教会AI如何成为你真正的数据库助理
想象一下,你刚雇佣了一位绝顶聪明的实习生。他阅读速度惊人,过目不忘,你让他去阅读成堆的行业报告、新闻稿和客户邮件,他总能精准地抓取出所有关键信息——新产品的发布日期、竞争对手的最新动态、重要人物的履历……
然而,当你让他把这些信息更新到公司的数据库里时,灾难发生了。他直接把一堆杂乱无章的笔记丢了过来:有的日期是“2025年11月2日”,有的则是“Nov. 2, 2025”;他把“CEO”的名字放进了“联系人”一栏;更糟糕的是,他为一个已经存在的客户创建了一条全新的记录,导致数据完全重复 ...
Squrve:A Unified and Modular Framework for Complex Real-World Text-to-SQL Tasks
为什么Text-to-SQL技术始终"差临门一脚"?
想象一下这个场景:你是一位市场分析师,老板走过来说:"帮我查一下上个季度华东地区销售额超过100万的客户,按成交金额倒序排列。"如果你懂SQL,可能几分钟就搞定了。但如果你不懂呢?
这正是"Text-to-SQL"技术想解决的问题——让普通人用自然语言就能和数据库对话,就像跟Siri聊天一样简单。
过去几年,这个领域的学术论文如雨后春笋般涌现。DIN-SQL、CHESS、MAC-SQL……一个个方法在学术评测榜单上你追我赶,准确率不断刷新。但奇怪的是,当企业真的想把这些"学术明星"部署到实际系统中时,却常常遭遇水土不服。
问题出在哪儿?来自中国人民大学、对外经贸大学和浙江工业大学的研究团队,最近发布了一个名为Squrve的框架,不仅指出了症结所在,还提供了一个极具实用价值的解决方案。
学术研究的"碎片化困境"
让我们先理解问题的根源。
学术界喜欢"专精"——每篇论文往往聚焦于Text-to-SQL流程中的某一个环节 ...
LangGraph 子图(Subgraph):概念总结与代码验证
本文面向已经了解 LangGraph 基本用法的读者,系统梳理“子图(Subgraph)”这一重要能力,并在官方示例基础上补充选型建议、最佳实践与运行验证指引,帮助你在真实项目中更好地拆分与复用复杂工作流。
主要内容
子图的设计意图:将一段可复用、可独立演进的工作流,作为“节点”嵌入父图,达到解耦与复用。
两种通信模式的差异与边界:共享状态模式 vs 不同状态模式,如何在接口、耦合度与可维护性间权衡。
如何编译与调用子图:作为节点直接接入,或通过 invoke 转换输入/输出。
如何在调试与可观测性上做得更好:通过带前缀的日志与 subgraphs=True 的流式事件观察调用链路。
两种通信模式速览
共享状态模式:父图与子图的状态模式中存在相同键(如 messages、foo),子图可直接读写共享键;适合“轻封装、高耦合”的复用场景(例如多智能体共享会话)。
不同状态模式:父图与子图没有共享键,需要在父图的节点函数中进行“输入映射 → 子图调用 → 输出映射”;适合“强封装、低耦合”的子系统(例如各 Agent 拥有私有记忆/上下文)。
何时使用子图
多智能体协作:将每个智 ...
Dify
a5a31a30db31dca1abf477a68d9f93e43ac4da170b64e15968c48ef4303feb4ffd1a2a5d4bf7e32f45848b42e62cd02c6d85e93bb643e37b092182e2243b9e04d7a7d427e15c79cdb7d9374c5ee1725350d960f4bde297bed345cc405c172de066d5041c24c1a53707aa24d08f7065f59e0e4f8ce6442e06eaf849caccc9db39faf5e5bd9e94ed72a64f7ffc5a52015f116448cd033ad7cc4a904b1de900b9efe231bad00e064ddc233563a43eec38969bb671aa0b892a91dbf7bdfea5071d6ee3772be28632e078c518bf6b0c6ec848d959ffa4b611042e218428137fb9cf3259627ab537356e6cf3e57b92c071f5081174aaa489d8 ...
临时文件中转
95956f97a30362d9933db5fec3a6120eeb42ef29d8f6c4c7db67016ce1c48b4ae2a2528c45df7efe61c250d4a0968c6baf3dae151b7f2218ca9a5fa6b03c755fe7096398aaf0e76869af4b66550a5cfa37ecf6505086998693bec6520d559595871e72a071d7f9b44f0873f06740ccca715674d90ba0774f825e71d5bcc1d0d860e82b0159a7ec1528347b505f569257208c6552ce128e0e18d47a8375db271ba097200ba5a6d8908211f25d26abd9aae4ae43df8f3fd526ea2df3a6c8bf66af77ffc2988c4c96bfc2e343b28e7adcb6e18ee7912b01da77d4d8ab8502e8db188cefb15f5b4fbe66ae9218e655f24376c4efdabd70ef ...
26条Prompt参考
论文介绍了26条指导原则,目标是简化为不同规模的大语言模型制定问题的概念,检验它们的能力,并增强用户对于不同规模的模型在接受不同提示时的行为理解。研究者在LLaMA-1/2(7B、13B和70B)和GPT-3.5/4上进行了广泛实验,以验证这些原则在指令和提示设计上的有效性。
论文中指出:大语言模型如ChatGPT在多个领域和任务中展现出卓越的能力,但在普通用户设计最优指令或提示时,它们的应用和使用有时可能并不清晰。而他们的工作是为开发人员或普通用户揭示与LLMs询问和交互时时“神秘的黑盒”,并通过简单地策划更好的提示来进一步提高预训练LLMs的响应质量。研究团队提出了26条用于LLM提示的原则,接下来让我们一起来看看吧~
论文地址:https://arxiv.org/pdf/2312.16171.pdf
26条原则
不需要对LLM客气,因此无需使用诸如"请",“如果您不介意”,“谢谢您”,"我想要"等短语,直接切入主题。
在提示中融入预期的受众群体,例如,假设受众是该领域的专家。
将复杂的任务拆分为一系列简单的提示,在交互式对话中逐步进行 ...
使用LoRA(低秩自适应)微调LLM的实用技巧
增加数据量和模型的参数量是公认的提升神经网络性能最直接的方法。目前主流的大模型的参数量已扩展至千亿级别,「大模型」越来越大的趋势还将愈演愈烈。
这种趋势带来了多方面的算力挑战。想要微调参数量达千亿级别的大语言模型,不仅训练时间长,还需占用大量高性能的内存资源。
为了让大模型微调的成本「打下来」,微软的研究人员开发了低秩自适应(LoRA)技术。LoRA 的精妙之处在于,它相当于在原有大模型的基础上增加了一个可拆卸的插件,模型主体保持不变。LoRA 随插随用,轻巧方便。
对于高效微调出一个定制版的大语言模型来说,LoRA 是最为广泛运用的方法之一,同时也是最有效的方法之一。
如果你对开源 LLM 感兴趣,LoRA 是值得学习的基本技术,不容错过。
上个月,我分享了一篇有关 LoRA 实验的文章,主要基于我和同事在 Lightning AI 共同维护的开源 Lit-GPT 库,讨论了我从实验中得出的主要经验和教训。此外,我还将解答一些与 LoRA 技术相关的常见问题。如果你对于微调定制化的大语言模型感兴趣,我希望这些见解能够帮助你快速起步。
简而言之,我在这篇文章中讨论的主要要点包含:
虽 ...








