断奶吃什么药| 天降横财什么意思| 金鱼的尾巴像什么| 战战兢兢的意思是什么| 肝胆湿热吃什么中成药| 风湿是什么原因造成的| 黄喉是什么东西| 月经提前半个月来是什么原因| 肌酐高吃什么中药| 最可爱的动物是什么生肖| 瘦人吃什么长胖| 睾丸变小了是什么原因| 提炼是什么意思| gf什么意思| 早上四点是什么时辰| 年轻人血压高是什么原因引起的| 原本是什么意思| 福晋是什么意思| 船舷是什么意思| 姨妈提前是什么原因| 老年人助听器什么牌子好| 命犯桃花是什么意思| 淡蓝色配什么颜色好看| 对什么都不感兴趣| 质感是什么意思| 蚕屎做枕头有什么好处| 脂肪瘤应该挂什么科| 头七有什么讲究| 女人出虚汗失眠吃什么药| 一抹多是什么意思| 什么鲸鱼最大| 林深时见鹿是什么意思| 毛片是什么| 小米不能和什么一起吃| 一什么清香| 12月17号什么星座| 伤口恢复吃什么好得快| 桂鱼是什么鱼| 卜留克是什么菜| 怎么知道自己五行属什么| 冰岛说什么语言| 耄耋什么意思| 牙龈肿痛挂什么科| 英语介词是什么意思| 溃疡是什么| 福晋是什么意思| 顽固是什么意思| 痛风吃什么菜好| 威士忌是什么酒| 诺贝尔奖为什么没有数学奖| 镪水池是什么| 头顶痛吃什么药效果好| 中国最大的海是什么海| 来姨妈吃什么好| 女人耳垂大厚代表什么| 一个永一个日念什么| 公司董事是什么职务| 小月子同房有什么危害| 一声叹息是什么意思| 乙肝小三阳是什么| hba是什么意思| 中国的国粹是什么| 牛肉饺子配什么菜好吃| 脚上长痣代表什么| 以纯属于什么档次| 胃反酸吃什么| 35岁属什么生肖| 扁平疣是什么| 白羊属于什么象星座| 1月27日什么星座| olay是什么品牌| crispi是什么牌子| 构造是什么意思| 早上6点到7点是什么时辰| 纯净水和矿泉水有什么区别| 桃酥为什么叫桃酥| 眩晕是什么症状| 处女座和什么星座最配| 颈椎轻度退行性变是什么意思| 脚底拔罐对女人有什么好处| 干净的近义词是什么| 下午1点到3点是什么时辰| 痰盂是什么意思| 美洲大蠊主治什么病| 血脂粘稠有什么症状| 痛风吃什么药最好| 促胃动力药什么时候吃| 小孩缺锌有什么症状| 性生活后尿路感染是什么原因| 人为什么要喝水| 惊恐症是什么病| 为什么嗜睡| 马后炮是什么意思| 头发麻是什么病的前兆| 属马的和什么属相不合| 开门见什么最吉利| 河豚是什么| 为什么招蚊子| 神经炎是什么症状| 手臂长斑是什么原因| ex是什么| 青红皂白的皂是什么颜色| 男人不够硬吃什么好| 喝什么去湿气最好最快| 潋滟什么意思| 孩提是什么意思| 春茶是什么茶| 须发早白吃什么中成药| 蒙脱石是什么东西| 脚底冰凉是什么原因| 97年是属什么的| 女性吃什么改善更年期| 彼此彼此什么意思| 益母草有什么功效| 神经病吃什么药效果好| 忏悔什么意思| 双侧胸膜增厚是什么病| 金针菇为什么叫明天见| 开颌是什么意思| 直接胆红素偏高是什么意思| 尿糖阳性是什么意思| 猫的五行属什么| 霉菌是什么菌| al是什么意思| 79年属羊的是什么命| 胃胀气是什么症状| ct检查是什么意思| 左心室高电压是什么意思| 萌字五行属什么| 胃疼肚子疼是什么原因| 霉菌有什么症状| 浮萍是什么意思| 孟姜女属什么生肖| 七活八不活是什么意思| 初级会计什么时候拿证| 面粉可以做什么| 尿常规能查出什么病| 肥什么拱门成语| 身份证末尾x代表什么| 香油是什么| 肾精亏虚吃什么药最好| 童子尿能治什么病| 头皮真菌感染用什么药| 24节气分别是什么| 流产是什么意思| 请什么自什么| 人棍是什么意思| 高压低是什么原因引起的| 任达华属什么生肖| 白醋和白米醋有什么区别| 4月份是什么季节| 右眼一直跳是什么预兆| 鼻子疼是什么原因| 生肖排第六是什么生肖| 气血不足什么症状| 公检法是什么| 喜欢出汗是什么原因| 天生丽质难自弃是什么意思| 酒精对皮肤有什么伤害| 鲜花又什么又什么| 哕是什么意思| 采阴补阳是什么意思| 卑职是什么意思| 鸡内金有什么功效| 三级警督是什么级别| 风言风语是什么意思| 梦到自己长白头发是什么意思| 梦见离家出走是什么意思| 什么样的肚子疼是癌| 戾气重是什么意思| 放河灯是什么节日| 诺帝卡是什么档次| 吃什么抗衰老| 五味子不适合什么人喝| 白羊女跟什么星座最配| 二球是什么意思| sd是什么意思| 明天是什么生肖| 皮肤病挂什么科| 争辩的近义词是什么| 开水烫伤用什么药膏好得快| 1218是什么星座| 茉字五行属什么| 黑客帝国4什么时候上映| 脚上长鸡眼是什么原因| 男人为什么喜欢女人| 轻微脑震荡有什么症状| 唇釉是什么| 产后复查挂什么科| freeze是什么意思| 黄金茶属于什么茶| 什么病可以办低保| 同位分是什么意思| 梅毒早期什么症状| 自信是什么意思| 生育津贴什么时候到账| 日行一善是什么意思| 9.22什么星座| 没有了晨勃是什么原因| 邦顿手表是什么档次| 吃什么能缓解孕吐| 月经和怀孕的症状有什么不同| 明天什么节| 猫吃什么食物除了猫粮| 手指上的斗和簸箕代表什么意思| 核糖是什么| 齐天大圣是什么级别| 胸膜炎什么症状| 南乳是什么| 脾大有什么危害| 矢车菊在中国叫什么名| 安慰什么意思| 脾气虚吃什么中成药| 白细胞降低是什么原因| 滴虫性阴炎用什么药效果最好| 子宫内膜ca是什么意思| 干什么呢| 血红蛋白低说明什么| 屁股疼痛是什么原因引起的| 甲片是什么| 为什么爱出汗| 穿旗袍配什么发型好看| 尿结晶是什么意思| 水洗真丝是什么面料| 喉咙有痰咳嗽是什么原因| 南瓜不能和什么食物一起吃| mri是什么检查项目| 黑色皮肤适合什么颜色的衣服| 受精卵着床有什么反应| 腰肌劳损是什么意思| 盆腔少量积液是什么问题| 付诸行动是什么意思| 心脏疼是什么感觉| 什么是高原反应| rp是什么意思| 皴是什么意思| 心口窝疼是什么原因| 小孩晚上睡觉发梦癫什么原因| 澳大利亚的国宝是什么| 千里共婵娟什么意思| 清明节一般开什么生肖| 上市公司什么意思| 黄牛用的什么抢票软件| 气什么意思| 补体c3偏低是什么意思| 雷诺综合症是什么病| 农历六月是什么夏| 什么叫韵母| 田七是什么| 猪八戒原名叫什么| 吃什么白细胞升的最快| 吃什么调理卵巢早衰| 脆皖鱼是什么鱼| 持之以恒是什么意思| 吃什么补黑色素最快| 钠高是什么原因| 嘴苦口臭是什么原因造成的| 思想感情是什么意思| 刻舟求剑是什么生肖| 南京市市长什么级别| 多囊挂什么科| 血亏什么意思| 华丽转身是什么意思| 吃什么化痰| 百度
Skip to content
opening the cage

孙俪隔8年重逢《甄嬛传》白猫!抱腿上宠幸摸头甄嬛传孙俪白猫

百度 可以批评他们射术不精,但至少直到比赛临近结束时,他们还在拼抢,并没有提前缴械投降,在他们的身上并没有看到消极的比赛情绪。

Magma could enable AI agents to take multistep actions in the real and digital worlds.

Benj Edwards | 46
A screen capture of a video showing Magma controlling a robotic arm.
A screen capture of a video showing Magma controlling a robotic arm. Credit: Microsoft Research
A screen capture of a video showing Magma controlling a robotic arm. Credit: Microsoft Research
Story text

On Wednesday, Microsoft Research introduced Magma, an integrated AI foundation model that combines visual and language processing to control software interfaces and robotic systems. If the results hold up outside of Microsoft's internal testing, it could mark a meaningful step forward for an all-purpose multimodal AI that can operate interactively in both real and digital spaces.

Microsoft claims that Magma is the first AI model that not only processes multimodal data (like text, images, and video) but can also natively act upon it—whether that’s navigating a user interface or manipulating physical objects. The project is a collaboration between researchers at Microsoft, KAIST, the University of Maryland, the University of Wisconsin-Madison, and the University of Washington.

We've seen other large language model-based robotics projects like Google's PALM-E and RT-2 or Microsoft's ChatGPT for Robotics that utilize LLMs for an interface. However, unlike many prior multimodal AI systems that require separate models for perception and control, Magma integrates these abilities into a single foundation model.

A combined graphic that shows off various capabilities of the Magma model.
A combined graphic that shows off various capabilities of the Magma model. Credit: Microsoft Research

Microsoft is positioning Magma as a step toward agentic AI, meaning a system that can autonomously craft plans and perform multi-step tasks on a human's behalf rather than just answering questions about what it sees.

"Given a described goal," Microsoft writes in its research paper, "Magma is able to formulate plans and execute actions to achieve it. By effectively transferring knowledge from freely available visual and language data, Magma bridges verbal, spatial, and temporal intelligence to navigate complex tasks and settings."

Microsoft is not alone in its pursuit of agentic AI. OpenAI has been experimenting with AI agents through projects like Operator that can perform UI tasks in a web browser, and Google has explored multiple agentic projects with Gemini 2.0.

Spatial intelligence

While Magma builds off of Transformer-based LLM technology that feeds training tokens into a neural network, it's different from traditional vision-language models (like GPT-4V, for example) by going beyond what they call "verbal intelligence" to also include "spatial intelligence" (planning and action execution). By training on a mix of images, videos, robotics data, and UI interactions, Microsoft claims that Magma is a true multimodal agent rather than just a perceptual model.

The researchers' explanations about how "Set-of-Mark" and "Trace-of-Mark" work.
The researchers' explanations about how "Set-of-Mark" and "Trace-of-Mark" work. Credit: Microsoft Research

The Magma model introduces two technical components: Set-of-Mark, which identifies objects that can be manipulated in an environment by assigning numeric labels to interactive elements, such as clickable buttons in a UI or graspable objects in a robotic workspace; and Trace-of-Mark, which learns movement patterns from video data. Microsoft says those features allow the model to complete tasks like navigating user interfaces or directing robotic arms to grasp objects.

Microsoft Magma researcher Jianwei Yang wrote in a Hacker News comment that the name "Magma" stands for "M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch)" after some people noted that "Magma" already belongs to an existing matrix algebra library, which could create some confusion in technical discussions.

Reported improvements over previous models

In its Magma write-up, Microsoft claims Magma-8B performs competitively across benchmarks, showing strong results in UI navigation and robot manipulation tasks.

For example, it scored 80.0 on the VQAv2 visual question-answering benchmark—higher than GPT-4V's 77.2 but lower than LLaVA-Next's 81.8. Its POPE score of 87.4 leads all models in the comparison. In robot manipulation, Magma reportedly outperforms OpenVLA, an open source vision-language-action model, in multiple robot manipulation tasks.

Magma's agentic benchmarks, as reported by the researchers.
Magma's agentic benchmarks, as reported by the researchers. Credit: Microsoft Research

As always, we take AI benchmarks with a grain of salt since many have not been scientifically validated as being able to measure useful properties of AI models. External verification of Microsoft's benchmark results will become possible once other researchers can access the public code release.

Like all AI models, Magma is not perfect. It still faces technical limitations in complex step-by-step decision-making that requires multiple steps over time, according to Microsoft's documentation. The company says it continues to work on improving these capabilities through ongoing research.

Yang says Microsoft will release Magma’s training and inference code on GitHub next week, allowing external researchers to build on the work. If Magma delivers on its promise, it could push Microsoft's AI assistants beyond limited text interactions, enabling them to operate software autonomously and execute real-world tasks through robotics.

Magma is also a sign of how quickly the culture around AI can change. Just a few years ago, this kind of agentic talk scared many people who feared it might lead to AI taking over the world. While some people still fear that outcome, in 2025, AI agents are a common topic of mainstream AI research that regularly takes place without triggering calls to pause all of AI development.

Photo of Benj Edwards
Benj Edwards Senior AI Reporter
Benj Edwards is Ars Technica's Senior AI Reporter and founder of the site's dedicated AI beat in 2022. He's also a tech historian with almost two decades of experience. In his free time, he writes and records music, collects vintage computers, and enjoys nature. He lives in Raleigh, NC.
46 Comments
叉烧肉是什么肉 酒后头疼吃什么药 520是什么节日 乳房检查挂什么科 六月十三日是什么星座
嘴唇起小水泡是什么原因 骶管囊肿是什么意思 慢性炎症是什么 请柬写伉俪什么意思 梦见吃酒席是什么预兆
直博是什么意思 宝宝睡觉摇头是什么原因 阴囊湿疹挂什么科 宝宝细菌感染吃什么药 最大的海是什么海
光天化日什么意思 蚕屎做枕头有什么好处 睡觉盗汗是什么原因 感染hpv有什么症状 肇庆有什么大学
啄木鸟吃什么食物hcv8jop0ns9r.cn 唇腺活检主要是看什么hcv8jop7ns2r.cn 孕妇红细胞偏低是什么原因hcv7jop4ns7r.cn 疏导是什么意思hcv8jop6ns1r.cn 阴阳两虚吃什么中成药jingluanji.com
不什么而什么hcv7jop7ns1r.cn 结余是什么意思hcv8jop9ns2r.cn 血红素高是什么原因hcv8jop3ns5r.cn 尿道疼是什么原因hcv8jop3ns0r.cn 岳云鹏什么学历hcv8jop1ns2r.cn
人死后为什么要守夜hcv8jop3ns6r.cn 六月二十六是什么星座hcv9jop8ns1r.cn 肺癌靶向治疗是什么意思hcv8jop3ns7r.cn 头孢过敏什么症状hkuteam.com 猫代表什么数字hcv9jop6ns4r.cn
生的反义词是什么youbangsi.com 月经不规律是什么原因hcv8jop0ns8r.cn 什么是巨细胞病毒hcv8jop4ns2r.cn u是什么元素hcv8jop3ns5r.cn 吃什么清肺效果最好hcv9jop6ns0r.cn
百度