來也科技OpenAPA框架刷新OSWorld紀錄并開源
近日,來也科技 OpenAPA 框架在 Computer Use Agent 計算機操控智能體的權威基準 OSWorld 上取得 78.3% 的成績,在 Agentic Framework 這一技術路線上位列全球前列。

OSWorld 是什么?Computer Use Agent 界的“高考”
如果說大語言模型的能力可以用 MMLU、GSM8K 這些考試衡量,那么AI 是否能像人一樣操作電腦,標尺就是 OSWorld。這個由 HKUNLP、CMU、Waterloo 等機構聯合發布的基準,已成為全球評估計算機操作智能體 的黃金標準——OpenAI、Anthropic、Google 發布最新模型時,均以 OSWorld 作為官方標尺。
OSWorld的“權威性”來自三點:
· 真實環境:在真實的 Ubuntu 和 Windows 系統中,用真實的 Chrome、VS Code、LibreOffice、Thunderbird 等應用完成任務,不是仿真、不是沙盒簡化版
· 真實任務:361 個由人類專家精心設計的任務,覆蓋辦公、編程、瀏覽、設計、系統管理等日常工作場景
· 客觀評分:每個任務都配有可執行的驗證腳本,Agent 是否真正完成,由機器自動判定,不靠人工評價
讓我們看一個來自 OSWorld 的真實任務:
一個熟練的辦公人員完成它也需要不少時間。而對 Agent 來說,這個任務的難度至少體現在兩點:
· 超過 60 步的連續操作:從打開郵件客戶端、定位郵件、下載附件、查看已有文件命名、按規則重命名,到打開賬本、找到正確的 sheet 和行列、按既有格式填寫——任何一步出錯都會連鎖失敗
· 全過程需要推理與判斷:Agent 必須看懂賬單的內容,總結已有 PDF 文件的命名規律,理解賬本 Excel 中行、列及格式,而不是按照預設腳本機械執行
這只是 361 個任務中的一個。每一個百分點的提升,背后都是工程與算法的硬仗。
兩條技術路線,OpenAPA 在其中一條上站到了最前面
要準確理解 OpenAPA 的成績,需要先區分 OSWorld 上的兩條主流技術路線:
· 專用模型(Specialized Model)路線:通過在 GUI 操作數據上做大規模后訓練,得到“會操作計算機”的專用大模型,再搭配相對輕量的執行層
· 通用模型 + Agentic Framework 路線:使用通用大模型(如 Gemini、Claude、GPT),依靠框架設計、規劃能力、多 Agent 協作、上下文工程等架構和工程創新驅動任務完成
兩條路線各有所長:專用模型對特定能力更“熟練”,通用框架則具備更強的可遷移性、可組合性和可控性——同一套框架可以隨著底層大模型的進步自動受益,也更適合企業根據自身業務與合規要求靈活調整框架。
OpenAPA 走的正是第二條路線,并在這條路線上以 78.3% 的成績取得了全球第一。這意味著,在不依賴專門訓練模型的前提下,僅通過架構與工程創新,Agent 框架+通用模型也能達到世界級的水平。
OpenAPA 的幾個關鍵創新
僅靠“通用模型 + Agent 框架”,OpenAPA 為什么能在 OSWorld 上跑出全球領先的成績?答案藏在它的架構設計里:
· 分層規劃 + 動態反思:初始規劃只定義“做什么”,不預先鎖死“怎么做”;反思模塊每一步基于最新截圖重新校準,有效抑制長程任務中的“越走越偏”。
· Coding Agent 和 GUI Agent 協作:Coding Agent 負責數值計算、數據清洗、文件解析等“程序化”工作,GUI Agent 專注視覺理解和執行,兩者之間相互驗證、共享知識,兼顧效率與魯棒性。
· 面向長程任務的上下文工程:通過滑動窗口 + Token 預算機制,動態保留最近的關鍵截圖與推理軌跡,讓 100 步級別的長任務穩定運行,Token 消耗降低 60% 以上。
· 推理與定位雙模型解耦:主推理模型負責任務理解與決策,專用視覺模型負責像素級坐標定位。“思考”和“看”各司其職,避免單一模型兼顧兩頭但都做不到極致。
這些設計指向同一個目標:讓“通用模型 + 通用框架”,在真實世界的復雜任務中跑出專用系統才具備的可靠性。后續我們將有文章展開介紹 OpenAPA 的架構設計理念。
從 RPA 到 APA,再到 OpenAPA
企業級流程自動化,正在經歷一條清晰的演進路徑。
來也科技最近將 RPA 升級為 APA(Agentic Process Automation,智能體流程自動化),通過將智能體能力融入流程自動化的開發、執行、維護全生命周期,讓企業級自動化變得更智能、更靈活、也更容易落地——過去需要 IT 團隊反復配置與維護的流程,如今可以由智能體基于目標自主完成,大幅降低了部署與變更的門檻。
而 OpenAPA 在 OSWorld 上探索的,是 APA 未來演進的下一條關鍵路徑——以 Computer Use Agent 為核心的“視覺驅動、語義理解、自主規劃、自我修復”范式,它不依賴固定的接口或腳本,而是像人一樣“看屏幕、做判斷、執行操作”,這將為 APA 帶來了更強的界面理解、任務規劃和流程自愈能力。
來也科技已連續五年作為中國廠商入選 Gartner 機器人流程自動化(RPA)魔力象限,同時也是中國唯一入選 Gartner 智能文檔處理(IDP)魔力象限和企業級對話式 AI 平臺魔力象限的廠商。來也科技已經通過 APA 證明了“智能體 × 流程自動化”的工程化價值,而 OpenAPA 則在更前沿的方向上,為未來的 APA 產品持續注入更靈活、更智能的能力輸入。兩者共同構成了來也科技對“下一代企業級自動化”的判斷與投入。
開源即刻可用
當 AI 學會看屏幕,企業流程自動化將不再止步于“按規則執行”,而是走向“按目標自主完成”——來也科技愿意在這條演進之路上,作為持續的推動者和同行者。
Computer Use Agent 的發展還在早期,因此我們將 OpenAPA 開源,期待更多社區開發者和我們一起共同探索,共同成長,共同推進 Computer Use Agent 技術的發展:
關注我們


