Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

docs:add struct_prompt.md #1

Merged
merged 2 commits into from
Feb 26, 2024
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
59 changes: 59 additions & 0 deletions docs/structured_prompt_words.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,59 @@
# Sota 提示词结构化的猜想_1

## 1. 为什么要实现结构化的提示词

* 结构化提示词可以更准确地描述图像的内容,从而生成更加逼真且更加符合使用者所期望的视频。
* 由于视频所包含的信息过于复杂且繁杂,因此我们更加急切的需要能够完整表达我们想法的方式。

## 2. 结构化提示词可能需要包含的信息

* **时间信息**:考虑到视频的时长与会与我们的消费相关,我们不可能每次都让Sora生成60秒的完整视频,相信各位的钱包也经不住如此挥霍。
* **场景信息**:我们可以根据目前OpenAI官方已经发布的视频作为参考,其中已经有了很多场景的描述。
* **物体信息**:物体是是对视频剧情的完善,能够让视频更加生动。
* **人物信息**:人物是视频中的重要组成部分,因此我们需要对人物进行描述。
* **动作信息**:无论在任何视频,任何静止或运动都会是表达信息的一个重要方式,所以这一部分必不可少。
* **视角**:一个好的视角更有利于Sora对于视频的把控,避免过于生硬的视频。
* **特效信息**:想要视频做的更炫酷,特效是必不可少的。
* **补充信息**:补充信息是对于视频内容的补充,可以丰富视频的内容。

## 3. 结构化提示词示例(以目前已有的视频为例)
完整的提示词:
> 摄像机跟随着一辆白色老式SUV,车顶有一个黑色行李架,它快速地驶过陡峭的山路,周围是松树,车轮的灰尘飞扬,阳光照在SUV上,照在山路上,给整个场景带来了温暖的光芒。土路缓缓弯曲,远处看不到其他汽车或车辆。路两旁的树是红杉树,零零散散地散布着绿色植被。车辆从后方视角看上去轻松地跟着弯道转弯,好像它在崎岖的地形中行驶一样。土路本身被陡峭的山丘和山脉所环绕,天空晴朗,白云飘荡。

[生成视频链接](https://cdn.openai.com/sora/videos/big-eyed-fluff-ball.mp4)

从上面的提示词我们可以将提示词中的信息提取出来:

1. 场景:
* 陡峭的山路
* 周围是松树
* 车速较快
2. 视角:
* 摄像机跟随着SUV在山路行驶
* 从车的后面拍摄
* 视角比较开阔
3. 动作信息:
* SUV在行驶中
4. 补充信息:
* 车辆从后方视角看上去轻松地跟着弯道转弯,好像它在崎岖的地形中行驶一样。土路本身被陡峭的山丘和山脉所环绕,天空晴朗,白云飘荡。

## 4. 结构化提示词的处理

* 根据目前OpenAI官方已经发布的视频作为参考,其中已经有了很多场景的描述。
* 提取视频中的关键信息,如场景、视角、动作信息等。
* 将提取的信息作为提示词的一部分,以指导Sora生成更好的视频。
* 我们可以使用类似填表格,或者直接输入的方式,将我们的提示词输入到Sora中,让Sora能够产生更加符合内心需求的视频。

## 5. 结构化提示词的不足之处
* 这种结构化的提示词,对于使用者的思路是有一定要求的,如果选择不填写,或许Sora会自行考虑缺省的内容,届时或许会产生一些好玩的事情。
* 结构化提示词的输入,需要使用者有一定的文字功底,如果输入错误,或许会生成一些令人啼笑皆非的视频。
* 这种结构化提示词,将会限制Sora的自我发挥空间,以实现我们想要的视频效果。因为我们的提示词越详细,Sora就越能够按照我们的要求去生成视频。当然这在大多数都是好的情况。
* 这种结构化提示词,不适合给予模棱两可的信息,这样或许会让Sora生成一些不符合期望的视频。

# 目前存疑的问题

1. 在于Sora对话时,是否有上下文功能?
> 比如:我是否可以让Sora针对上次生成的视频,进行继续生成,类似于GPT-4的上下文功能?

2. Sora是否可以针对已生成的视频,进行修改?
> 例如:第一次生成的视频有细节问题,可否进行类似对话的形式,让Sora进行修改?我:这个视频能不能加一个摩托车飞跃的镜头?
Loading