PaliGemma:Google开放视觉语言模型(图1)

PaliGemma 是 Google 推出的一个新的视觉语言模型系列。 PaliGemma 可以接收图像和文本并输出文本。

Google 团队发布了三种类型的模型:预训练 (pt) 模型、混合模型和微调 (ft) 模型,每种模型都有不同的分辨率,并提供多种精度以方便使用。

所有模型均在 Hugging Face Hub 模型存储库中发布,并附带模型卡和许可证,并集成了 Transformer。

PaliGemma是什么?

PaliGemma(Github)是一系列视觉语言模型,其架构由作为图像编码器的 SigLIP-So400m 和作为文本解码器的 Gemma-2B 组成。 SigLIP 是一种最先进的模型,可以理解图像和文本。与 CLIP 一样,它由联合训练的图像和文本编码器组成。与 PaLI-3 类似,组合的 PaliGemma 模型是在图像文本数据上进行预训练的,然后可以轻松地在下游任务上进行微调,例如字幕或引用分割。 Gemma 是用于文本生成的纯解码器模型。使用线性适配器将 SigLIP 的图像编码器与 Gemma 相结合,使 PaliGemma 成为强大的视觉语言模型。

PaliGemma 版本包含三种类型的模型:

PT 检查点:可以针对下游任务进行微调的预训练模型。

混合检查点:PT 模型针对混合任务进行了微调。它们适用于带有自由文本提示的通用推理,并且只能用于研究目的。

FT 检查点:一组经过微调的模型,每个模型专门针对不同的学术基准。它们有各种分辨率,仅用于研究目的。

这些模型具有三种不同的分辨率( 224x224 、 448x448 、 896x896 )和三种不同的精度( bfloat16 、 float16 )。每个存储库都包含给定分辨率和任务的检查点,每个可用精度都有三个修订版。每个存储库的 main 分支包含 float32 检查点,其中 bfloat16 和 float16 修订版包含相应的精度。对于与转换器和原始 JAX 实现兼容的模型,有单独的存储库。

正如下面详细解释的,高分辨率模型需要更多的内存来运行,因为输入序列更长。它们可能有助于完成 OCR 等细粒度任务,但对于大多数任务来说,质量提升很小。 224 版本非常适合大多数用途。

您可以在该系列中找到所有模型和空间。

PaliGemma详细内容:

https://huggingface.co/blog/paligemma