前言
12月6日,谷歌发布新一代大模型Gemini的demo, 同时,Bard已将模型更新为Gemini Pro
Gemini 是谷歌目前最新最强的大语言模型,支持多模态(文字,图片,音频,视频等等)处理
美国时间12月13日,Gemini API对公众开放,本文将教学Google Generative AI的简易使用流程。
根据谷歌提供的价格信息,将会有两个收费方式,现阶段的免费版本可以每分钟60次请求,足够满足个人用户的需求了。
至于收费版本,目前还不能用,但是收费标准已经公布了。Gemini Pro 付费版的定价是每千个字符0.00025美元,每张图片0.0025美元,输出每千个字符0.0005美元。另外谷歌会使用免费版Google Pro API的输入和输出来提高模型能力,但是承诺付费版不会用于训练和改进产品(保护隐私)。
一 如何申请 Gemini Pro API
1. 准备一个谷歌账号,已经有了请跳过。
2. 建议使用美国节点访问。
3. 打开Google AI Studio 申请api的网址:https://makersuite.google.com/app/apikey。当然你也可以打开Gemini的首页 http://ai.google.dev ,并点击 Get API key in Google AI Studio 按钮。你需要先同意使用条款才能继续使用。
4. 点击左边菜单里的 Get API key,然后在右边点击 Create API key in new project。
二 生成式AI平台 MakerSuite (Google AI Studio)
MakerSuite是一个基于浏览器的 IDE,用于使用Generative language model(生成式语言模型)进行原型设计。借助 MakerSuite,可以快速试用模型并试验不同的prompt(提示)
模型参数设定 (第一次使用建议全部保持默认):
Model模型选择Gemini Pro(文字),Gemini Pro Vision (图片)
Temperature温度决定模型的创造力,越高越想象力丰富,越低越稳定
Safety settings安全设定中可以调整对骚扰,仇恨,性,恐怖等言论的屏蔽程度
Top K: 选择输出token的方式,top 1 表示永远输出评分最高的回答,top 10 表示在前10评分的回答中取样输出一个回答
Top P: 选择输出token的方式,如果前x个回答的概率之和高于p,则【Top P,其中P=p】等价于【Top K,其中K=x】
左侧Create new将提供四种不同的方式与模型互动
2.1 Freeform prompt 文本/图片提示:输入一段提示,LLM将根据提示进行一段创作
2.2 Structured prompt 结构化提示:提供表格输入,可以输入至多500组【输入,输出】的案例,根据案例,LLM可学习并基于案例处理新的提示
2.3 Chat prompt 聊天提示:与chatgpt和bard类似的聊天框模式,支持输入历史会话
2.4 Fine-tuning model模型调整
训练参数设定(第一次使用建议默认)
Model模型选择Text Bison,这是老模型PaLM2,新的Gemini截至目前还没可用
Tuning epochs 整个训练集的完整训练遍历次数
Batch size 一次训练迭代中用于验证的样本数量,越大越容易过拟合,越小越容易欠拟合
Learning rate 训练迭代中调整参数的强度,越大越容易过拟合,越小越容易欠拟合
点击Tune开始自动调参。模型调整完毕后,可以在上个环节的各种提示测试中使用自己的新模型
三 API调用
# setup
import google.generativeai as genaigenai.configure(api_key='xxx') # 填入自己的api_key# 查询模型
for m in genai.list_models():print(m.name)print(m.supported_generation_methods)
这里可以看到通过api可以访问谷歌的7个模型,其中最关注的是gemini-pro和gemini-pro-vision这两个模型,其中gemini-pro是语言模型只能输出文字内容,而gemini-pro-vision是多模态模型可以读取和分析图片的内容。
内容生成
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("告诉我太阳系中最大行星的相关知识")
print(response.text)
流式输出
Gemini模型同样也具备流式输出的功能,这可以在某些应用场景中带来比较好的用户体验
model = genai.GenerativeModel('gemini-pro')
response = model.generate_content("给我上海3日游攻略", stream=True)for chunk in response:print(chunk.text)print("_"*80)
聊天模式
# setup
import google.generativeai as genaigenai.configure(api_key='XXX') # 填入自己的api_keymodel = genai.GenerativeModel(model_name="gemini-pro")chat = model.start_chat(history=[])response = chat.send_message("你好,我叫Wayne")
print(response.text)response = chat.send_message("怎么称呼你啊?")
print(response.text)response =chat.send_message("你还记得我叫什么吗?")
print(response.text)for message in chat.history:print(f'**{message.role}**: {message.parts[0].text}')
参考资料
Google Gemini API快速上手 - 知乎 (zhihu.com)
谷歌Gemini API 应用(一):基础应用-CSDN博客
https://ai.google.dev/
https://ai.google.dev/docs?hl=zh-cn