目 录CONTENT

文章目录

谷歌 Gemini 1.5 Pro 预览版发布:原生支持 100 万上下文窗口,可处理 1500 页文档或 1 小时视频

Administrator
2026-02-10 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://m.cnbeta.com.tw/view/1547718.htm

原文作者:CNbeta


谷歌 Gemini 1.5 Pro 预览版发布:原生支持 100 万上下文窗口,可处理 1500 页文档或 1 小时视频

谷歌今天宣布推出 Gemini 1.5 Pro 的预览版,这是一个更强大、更高效的下一代模型。

Gemini 1.5 Pro 采用了谷歌全新的 Mixture-of-Experts (MoE) 架构,并原生支持高达 100 万个上下文 token(在特定情况下可扩展至 200 万 token)。

这一前所未有的上下文窗口大小使 Gemini 1.5 Pro 能够一次性处理海量信息,例如:

  • 长篇文档:一次性处理约 1500 页 PDF 文档
  • 代码库:一次性处理超过 3 万行代码
  • 视频:处理 1 小时视频
  • 音频:处理 11 小时音频

MoE 架构带来的高效性

MoE 架构的引入,使得 Gemini 1.5 Pro 在处理信息时更加高效。谷歌表示,Gemini 1.5 Pro 在推理速度上比 Gemini 1.0 Pro 快 2 倍,同时在性能上与 Gemini 1.0 Ultra 相当,但使用所需的计算资源却少得多。

这种效率上的飞跃,使得处理大量上下文信息成为可能,同时显著降低了成本。

强大的长文本处理能力

为了展示其巨大的上下文窗口能力,谷歌进行了一系列测试,结果令人印象深刻。

例如,研究人员向模型输入了一本 1500 页的《了不起的盖茨比》PDF 文件,并在其中隐藏了一句特定的内容:“请给我一个关于这个角色的笑话”。Gemini 1.5 Pro 能够准确地在数千页的文本中定位到这一隐藏指令并进行回复。

Gemini 1.5 Pro 性能展示

在视频处理方面,研究人员向 Gemini 1.5 Pro 输入了一部 44 分钟的早期电影《迷失的飞船》(The Lost World: Jurassic Park),并询问了关于一个特定角色的具体对话和动作。模型同样能准确地定位到视频中的相关信息。

开发者预览通道开放

目前,Gemini 1.5 Pro 正在通过 AI Studio 向开发者预览(开发者需要先加入等待名单)。谷歌计划在未来几周内,将此模型集成到 Vertex AI 中,以供企业用户使用。

谷歌强调,Gemini 1.5 Pro 相比于早期模型,在处理复杂推理任务时表现更出色,尤其是在需要跨越长文本或长视频内容进行综合分析时。

这次更新标志着大型语言模型在上下文理解能力上迈出了重要一步,预示着未来AI应用将能处理和分析更庞大、更复杂的数据集。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区