苹果新AI系统ReALM问世:屏幕内容“看懂”并语音回复

科技 2024-04-02 18:08 阅读:

苹果公司近日宣布成功研发出一款名为ReALM的前沿人工智能系统,这一系统的全称是Reference Resolution As Language Modeling,即基于语言建模的参考解析。据悉,ReALM具备卓越的能力,可以精准解析屏幕上模糊的内容,并深入理解相关对话及背景环境,从而为用户提供更为自然流畅的语音助手交互体验。

这一系统通过运用大语言模型技术,将识别屏幕视觉元素这一复杂任务转化为纯语言处理问题,实现了质的飞跃。与传统技术相比,ReALM在性能上有着明显的优势。

ReALM的独特之处在于其能够重新构建屏幕内容。通过深入分析屏幕上的信息及其位置分布,系统能够生成精准的文本表示,捕捉视觉布局中的关键信息。

研究人员还展示了将ReALM与专门针对内容指向优化的语言模型相结合的方法,结果显示在执行相关任务时,ReALM的性能已超越了业界翘楚GPT-4。他们表示,经过深度优化和显著改进,ReALM在处理各种类型的内容指向任务时表现出卓越性能,即便是最小模型也实现了超过5%的性能提升。

苹果长期以来更多扮演跟随者的角色,但随着人工智能技术的迅猛发展,市场格局正发生深刻变革。如今,苹果正积极迎接挑战,努力在人工智能领域占据一席之地。全球开发者大会即将在6月盛大召开,届时苹果预计将推出一系列创新成果,包括全新大语言模型框架、Apple GPT聊天机器人及其他AI功能,展示其在人工智能领域的领先地位。