Apple 最新的 AI 研究可能会彻底改变你的 iPhone

图片[1]-Apple 最新的 AI 研究可能会彻底改变你的 iPhone-DG城市

苹果公司几乎是技术创新的代名词,它再次将自己定位在人工智能革命的最前沿。

这家总部位于加利福尼亚州库比蒂诺的公司最近宣布,通过两篇新论文,在人工智能研究方面取得了重大进展,介绍了3D化身和高效语言模型推理的新技术。这些进步可以带来更身临其境的视觉体验,并允许复杂的人工智能系统在iPhone和iPad等消费设备上运行。

在第一篇研究论文中,苹果科学家提出了HUGS(人类高斯飞溅)来从短单眼视频(即从单个相机拍摄的视频)中生成动画3D头像。“我们的方法只拍摄少量(50-100)帧的单目视频,它会自动学会在30分钟内解开静态场景和完全可动画的人类化身,”主要作者Muhammed Kocabas说。

HUGS 使用 3D 高斯溅射(一种高效的渲染技术)来表示人类和背景场景。人体模型是从称为 SMPL 的统计体型模型初始化的。但 HUGS 允许高斯偏离,从而能够捕捉到衣服和头发等细节。

新颖的神经变形模块使用线性混合蒙皮以逼真的方式对高斯进行动画处理。这种协调的运动避免了在放置化身时出现的伪影。根据Kocabas的说法,HUGS“能够实现人类的新姿势合成和人类和场景的新视角合成。

与以前的头像生成方法相比,HUGS 在训练和渲染方面的速度提高了 100 倍。研究人员在典型的游戏 GPU 上优化系统仅 30 分钟后就展示了逼真的结果。HUGS 在 3D 重建质量方面也优于 Vid2Avatar 和 NeuMan 等最先进的技术。

这项新技术使人们只需使用一个人物和地点的视频,就可以将不同的数字角色或“化身”放入新场景中。这可以快速完成,图像每秒更新 60 次,使其看起来流畅逼真。(图片来源:苹果)
新的 3D 建模功能是 Apple 研究人员的一项非常令人印象深刻的成就。在不久的将来,实时性能和从野外视频创建化身的能力可以为虚拟试妆、远程呈现和合成媒体带来新的可能性。想象一下,如果您可以在 iPhone 相机上创建这样新颖的 3D 场景,那将是多么大的可能性!

弥合 AI 推理中的内存差距

在第二篇论文中,苹果研究人员解决了在内存有限的设备上部署大型语言模型(LLM)的一个关键挑战。像 GPT-4 这样的现代自然语言模型包含数千亿个参数,这使得消费类硬件上的推理成本高昂。

所提出的系统最大限度地减少了在推理过程中从闪存存储到稀缺 DRAM 的数据传输。“我们的方法涉及构建一个与闪存行为相协调的推理成本模型,指导我们在两个关键领域进行优化:减少从闪存传输的数据量和读取更大、更连续的块中的数据,”主要作者Keivan Alizadeh解释道。

介绍了两种主要技术。“窗口化”重用最近推理的激活,而“行列捆绑”通过将行和列存储在一起来读取更大的数据块。在 Apple M1 Max CPU 上,与朴素加载相比,这些方法将推理延迟提高了 4-5 倍。在 GPU 上,加速达到 20-25 倍。

“这一突破对于在资源有限的环境中部署先进的LLM尤为重要,从而扩大了它们的适用性和可及性,”合著者Mehrdad Farajtabar说。这些优化可能很快允许复杂的人工智能助手和聊天机器人在 iPhone、iPad 和其他移动设备上流畅运行。

Apple 的战略愿景
这两篇论文都展示了苹果在人工智能研究和应用方面日益增长的领导地位。虽然很有前途,但专家警告说,苹果在将这些技术整合到消费产品中时需要非常谨慎和负责。从隐私保护到减少滥用,必须考虑社会影响。

由于苹果有可能将这些创新整合到其产品阵容中,很明显,该公司不仅在增强其设备,而且还在预测未来对人工智能注入服务的需求。通过允许更复杂的 AI 模型在内存有限的设备上运行,Apple 有可能为一类新的应用程序和服务奠定基础,这些应用程序和服务以以前不可行的方式利用 LLM 的强大功能。

此外,通过发表这项研究,苹果正在为更广泛的人工智能社区做出贡献,这可能会刺激该领域的进一步发展。此举反映了苹果对其作为技术领导者的地位的信心,以及其对突破可能性界限的承诺。

如果应用得当,苹果的最新创新可能会将人工智能提升到一个新的水平。逼真的数字化身和便携式设备上强大的 AI 助手曾经似乎遥不可及,但多亏了 Apple 的科学家,未来正在迅速成为现实。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容