OpenAI 插件开发的字符相应优势
There are also some limits to the length of certain fields in the manifest file and elsewhere that are subject to change:
清单文件和其他可能会更改的某些字段的长度也有一些限制:
- 50 character max for
name_for_human
name_for_human
最多 50 个字符 - 50 character max for
name_for_model
name_for_model
最多 50 个字符 - 120 character max for
description_for_human
description_for_human
最多 120 个字符 - 8,000 character max just for
description_for_model
description_for_model
最多 8,000 个字符 - 100,000 character max for the API response body
API 响应正文最多 100,000 个字符
In general, the best practice is to keep the description and responses as concise as possible because the models have limited context windows.
通常,最佳做法是使描述和响应尽可能简洁,因为模型的上下文窗口有限。
梗图生成器
梗图生成器 MemeCam 原理解读 🤠
Find My AI 在网上闲逛的时候看到 reddit 上正在流行这么一款梗图生成器——MemeCam。
它的使用过程是,打开网页 app(memecam.dk),摄像头拍照之后,自动在图片上加上搞笑的话,使其变成一张 meme 梗图。(图 1 图 2)
再简单查看了一些信息之后,Find My AI 发现,这其实是一个面向 AI 编程的典型案例,看完这篇笔记你会发现它开发起来原来这么简单???
🔍原理解密:
实现这个梗图生成器产品其实非常简单,核心是开发者编写的梗图文字生成 Prompt 使这么一个网页应用有了价值。
Find My AI 技术拆解后发现,MemeCam 使用了三项技术搭起了这个应用:
1️⃣图像识别
2️⃣文本生成
3️⃣图片合成
这三项技术分别对应:BLIP 的开源图像识别模型(或其他任何类似技术)、GPT 3.5 的角色定制 Prompt 以及任何一种编程语言的图像文字合成功能。
MemeCam 面向 AI 编程拆解:
1️⃣用户拍摄照片之后,通过 BLIP 模型识别图片上的内容,生成文本;
BLIP 是 salesforce 开源的基础语言图像预训练模型,用于统一视觉语言理解和生成。BLIP 使用无监督的方法将图像和语言结合起来进行训练,以便模型可以更好地理解和生成视觉和语言信息。这种方法可以用于许多应用程序,如图像描述、视觉问答和自然语言生成。
官方提供多个预训练和微调 checkpoint 供开发者使用。无需 GPU 也可运行。
BLIP Demo:[huggingface.co]
BLIP 代码:[github.com]
想实现图片生成文字的功能非常简单,多家公司都有类似的服务,收费的免费的都哟。自己找嗷!
主要目的就是生成一段图片描述,供 GPT3.5 或 GPT-4 来执行下一步操作。
2️⃣将图片内容通过角色定制 Prompt 的形式传递给 GPT 3.5,根据开发者自定的梗图生成 prompt 来生成基于图片内容的网络梗图,这是整个过程的核心,也是增值点。
其实面向 AI 编程,过程是可以推导出来的。Find My AI 预计的开发者使用的提示词内容 (图 5)
Human:
You are an internet meme pic creator. You can create a lot of funny memes for a picture. Only give a response, no explanation.
You are an internet meme pic creator. You can create a lot of funny memes for a picture. Only give a response, no explanation.
Example:
[picture description]: a man is holding a cup in front of his computer in the office.
[meme creator]: When you're pretending to look busy but only thinking about your next coffee break.
if you can understand, I will give you a picture description and you give a meme.
3️⃣使用 python pillow 或其他库实现将梗图文字合成到图片上。
这个开发难度太低,自己去研究哦(滑稽)。
🔴面向 AI 编程的结果:
通过掌握撰写 Prompt 的能力,获得 LLM 生成创意内容的能力,为一张平平无奇的图片增加一两句话使它有梗,满足用户需求。目前该产品已经在 reddit/ChatGPT 里火了起来。希望通过介绍这种开发思路,帮助各位理解面向 AI 编程。
虽然不一定 100% 有梗的效果,但是多试几次,一定能出梗。
多语言迁移的时候,一定要注意语境和 token 限制,否则会出现英文生产内容翻译到中文后字数太长没有梗效果。
🟢迁移能力:
Find My AI 亲测该能力可迁移到多语言,包括汉语,也可以生成表情包梗图,见图 6。