微软开源Fara1.5:小模型突破浏览器智能体瓶颈

微型智能体实现突破:微软Fara1.5挑战闭源霸权

设想一种场景:你只需下达指令,让计算机自动比对多个度假租赁平台、填写预订表单,并最终锁定离海最近的房源。而整个过程无需手动操作,仅需起身冲杯咖啡,回来时一切已妥当完成——这正是“计算机使用智能体”所描绘的未来图景。

闭源路径遇阻,开源新星破局而出

OpenAI于2025年初推出Operator服务,每月收费200美元,后并入ChatGPT智能体并于同年8月终止运营;谷歌则推出Gemini 2.5的网页操作功能。二者均采用封闭架构,依赖云端资源,成本高昂且难以定制。

本周,微软研究院发布新一代小型模型Fara1.5,其在核心评测中表现全面超越前述方案,成为开源阵营中的领航者。

三档参数配置,全部开源可部署

Fara1.5系列包含40亿、90亿与270亿参数版本,均以阿里巴巴Qwen3.5为基础进行深度优化,专为浏览器交互任务设计。所有模型权重已向公众开放,用户可在本地或私有环境中部署,显著降低使用门槛。

参数规模直接关联模型的知识容量与推理能力,而此次发布表明:小模型亦可通过系统性优化实现高性能输出。

重构开发范式:从训练到协同的整体革新

研究团队指出:“如何让小型模型真正胜任智能体任务?”这一根本问题驱动了全流程重塑。数据生成、训练目标设定、模型结构设计及多智能体协作机制必须同步演进,而非孤立改进。

其核心评估标准为Online-Mind2Web,涵盖136个真实热门网站上的300项复杂任务,如跨站比价、表单填写与预约服务,评分依据是在动态网络环境下准确完成任务的比例。

Fara1.5-27B在该测试中取得72%的正确率,大幅领先于OpenAI Operator的58.3%与谷歌Gemini 2.5的57.3%。即便中等规模的Fara1.5-9B也达63.4%,超过两者。领先于其他开源方案:阿里巴巴的GUI-Owl-1.5仅48.6%,AI2的MolmoWeb为35.3%,前代Fara-7B仅为34.1%。

实时任务表现更胜一筹

在另一项衡量实时网页操作成功率的WebVoyager测试中,Fara1.5-27B以88.6%的成绩略超OpenAI Operator的87.0%,同时击败参数高达300亿的Holo2模型(83.0%)。

以竞品之智,育开源之才

关键技术突破源自创新训练流程。微软构建FaraGen1.5系统,利用OpenAI GPT-5.4作为“教师智能体”,示范完成各类浏览器任务,再将这些行为序列转化为高质量训练数据。此举实质上是借助对手最强模型来培育开源替代品。

团队还搭建六套功能完整的仿真实站点,涵盖邮箱、日历、交易平台等,使模型可在无真实账户风险的前提下练习登录、发送邮件、预订航班等敏感操作,从而有效提升对受限任务的处理能力。

所有模型在执行不可逆操作前均会暂停并请求用户确认。微软研究院高级项目经理强调:“在保障安全与维持用户体验之间寻找平衡至关重要。”其配套的Magentic-UI交互界面既提供干预节点,又避免用户因频繁审批产生疲劳。

此设计回应了OpenAI曾警示的风险:授权智能体访问网站可能暴露邮件、文件与账户信息。

Fara1.5的所有操作均运行于MagenticLite沙箱浏览器环境,每一步操作被完整记录,用户可随时中断进程,确保可控性。

开放生态:构建可持续竞争壁垒

当前浏览器智能体领域竞争激烈,谷歌在Chrome集成Gemini,Perplexity推Comet,Anthropic上线Claude Chrome版。而Fara1.5的核心优势在于其完全开放:模型权重公开、推理代码托管于GitHub、支持用户自建硬件部署。

Fara1.5-9B已上线Azure AI Foundry,40亿与270亿版本即将发布。微软表示,未来将拓展应用场景至桌面软件与企业级系统,推动智能体从工具走向基础设施。