diff --git a/docs/structured_prompt_words.md b/docs/structured_prompt_words.md new file mode 100644 index 00000000..0bbf0cae --- /dev/null +++ b/docs/structured_prompt_words.md @@ -0,0 +1,59 @@ +# Sota 提示词结构化的猜想_1 + +## 1. 为什么要实现结构化的提示词 + +* 结构化提示词可以更准确地描述图像的内容,从而生成更加逼真且更加符合使用者所期望的视频。 +* 由于视频所包含的信息过于复杂且繁杂,因此我们更加急切的需要能够完整表达我们想法的方式。 + +## 2. 结构化提示词可能需要包含的信息 + +* **时间信息**:考虑到视频的时长与会与我们的消费相关,我们不可能每次都让Sora生成60秒的完整视频,相信各位的钱包也经不住如此挥霍。 +* **场景信息**:我们可以根据目前OpenAI官方已经发布的视频作为参考,其中已经有了很多场景的描述。 +* **物体信息**:物体是是对视频剧情的完善,能够让视频更加生动。 +* **人物信息**:人物是视频中的重要组成部分,因此我们需要对人物进行描述。 +* **动作信息**:无论在任何视频,任何静止或运动都会是表达信息的一个重要方式,所以这一部分必不可少。 +* **视角**:一个好的视角更有利于Sora对于视频的把控,避免过于生硬的视频。 +* **特效信息**:想要视频做的更炫酷,特效是必不可少的。 +* **补充信息**:补充信息是对于视频内容的补充,可以丰富视频的内容。 + +## 3. 结构化提示词示例(以目前已有的视频为例) +完整的提示词: +> 摄像机跟随着一辆白色老式SUV,车顶有一个黑色行李架,它快速地驶过陡峭的山路,周围是松树,车轮的灰尘飞扬,阳光照在SUV上,照在山路上,给整个场景带来了温暖的光芒。土路缓缓弯曲,远处看不到其他汽车或车辆。路两旁的树是红杉树,零零散散地散布着绿色植被。车辆从后方视角看上去轻松地跟着弯道转弯,好像它在崎岖的地形中行驶一样。土路本身被陡峭的山丘和山脉所环绕,天空晴朗,白云飘荡。 + +[生成视频链接](https://cdn.openai.com/sora/videos/big-eyed-fluff-ball.mp4) + +从上面的提示词我们可以将提示词中的信息提取出来: + +1. 场景: + * 陡峭的山路 + * 周围是松树 + * 车速较快 +2. 视角: + * 摄像机跟随着SUV在山路行驶 + * 从车的后面拍摄 + * 视角比较开阔 +3. 动作信息: + * SUV在行驶中 +4. 补充信息: + * 车辆从后方视角看上去轻松地跟着弯道转弯,好像它在崎岖的地形中行驶一样。土路本身被陡峭的山丘和山脉所环绕,天空晴朗,白云飘荡。 + +## 4. 结构化提示词的处理 + +* 根据目前OpenAI官方已经发布的视频作为参考,其中已经有了很多场景的描述。 +* 提取视频中的关键信息,如场景、视角、动作信息等。 +* 将提取的信息作为提示词的一部分,以指导Sora生成更好的视频。 +* 我们可以使用类似填表格,或者直接输入的方式,将我们的提示词输入到Sora中,让Sora能够产生更加符合内心需求的视频。 + +## 5. 结构化提示词的不足之处 +* 这种结构化的提示词,对于使用者的思路是有一定要求的,如果选择不填写,或许Sora会自行考虑缺省的内容,届时或许会产生一些好玩的事情。 +* 结构化提示词的输入,需要使用者有一定的文字功底,如果输入错误,或许会生成一些令人啼笑皆非的视频。 +* 这种结构化提示词,将会限制Sora的自我发挥空间,以实现我们想要的视频效果。因为我们的提示词越详细,Sora就越能够按照我们的要求去生成视频。当然这在大多数都是好的情况。 +* 这种结构化提示词,不适合给予模棱两可的信息,这样或许会让Sora生成一些不符合期望的视频。 + +# 目前存疑的问题 + +1. 在于Sora对话时,是否有上下文功能? +> 比如:我是否可以让Sora针对上次生成的视频,进行继续生成,类似于GPT-4的上下文功能? + +2. Sora是否可以针对已生成的视频,进行修改? +> 例如:第一次生成的视频有细节问题,可否进行类似对话的形式,让Sora进行修改?我:这个视频能不能加一个摩托车飞跃的镜头? \ No newline at end of file