概览
借助 Gemini API,您可以使用 Google 提供的最新生成模型。熟悉了该 API 提供的一般功能后,请尝试根据所选语言快速入门,开始进行开发。
注意 :如果您刚开始接触生成式 AI 模型,请访问概念指南,或开始在 Google AI Studio 中对提示进行原型设计。
模型
Gemini 是 Google 开发的一系列多模态生成式 AI 模型。Gemini 模型可以接受提示中的文本和图片(具体取决于您选择的模型变体),并输出文本响应。旧版 PaLM 模型接受纯文本和输出文本响应。
如需获取更详细的模型信息,请参阅模型页面。您还可以使用 list_models
方法列出所有可用的模型,然后使用 get_model
方法获取特定模型的元数据。
提示数据和设计
特定的 Gemini 模型同时接受图片和文本数据作为输入。此功能为生成内容、分析数据和解决问题提供了许多其他的可能性。您需要考虑一些限制和要求,包括您所用模型的一般输入令牌限制。如需了解特定模型的令牌限制,请参阅 Gemini 模型。
提示的图片要求
使用图片数据的提示受到以下限制和要求的约束:
图片必须采用以下任一图片数据
MIME 类型 :
- PNG - 图片/png
- JPEG - image/jpeg
- WEBP - image/webp
- HEIC - 图片/heic
- HEIF - image/heif
最多 16 张图片
整个提示(包括图片和文本)不得超过 4MB
对图像中的像素数没有具体限制;但是,较大的图像会缩小以适应最大分辨率 (3072 x 3072),同时保持其原始宽高比。
在提示中使用图片时,请遵循以下建议以获得最佳效果:
- 包含一张图片的提示往往能产生更好的结果。
提示设计和文本输入
创建有效的提示(即提示工程)是艺术与科学的结合。如需了解有关如何提示的指导,请参阅提示指南;如需了解不同的提示方法,请参阅提示 101 指南。
生成内容
借助 Gemini API,您可以使用文本和图片数据进行提示,具体取决于您使用的模型变体。例如,您可以通过 gemini-pro
模型使用文本提示生成文本,并使用文本和图片数据向 gemini-pro-vision
模型发出提示。本部分给出了每种方法的简单代码示例。 如需查看涵盖所有参数的详细示例,请参阅 generateGenerate
API 参考文档。
Embeddings
Gemini API 中的嵌入服务可为字词、短语和句子生成先进的嵌入。生成的嵌入随后可用于 NLP 任务,例如语义搜索、文本分类和聚类等等。请参阅嵌入指南,了解什么是嵌入以及嵌入服务的一些关键用例,以帮助您入门。
后续步骤
- 参阅 Google AI Studio 快速入门,开始使用 Google AI Studio 界面。
- 查看 Python、Go 或 Node.js 快速入门,试用 Gemini API 的服务器端访问方式。
- 参考 Web 快速入门,开始构建 Web 应用。
- 按照 Swift 快速入门或 Android 快速入门开始构建移动应用。
- 如果您已是 Google Cloud 用户(或者希望在 Vertex 上使用 Gemini 以利用强大的 Google Cloud 生态系统),请参阅 Vertex AI 上的生成式 AI 了解详情。