哈工大2022春深度学习实验六-自选项目
文字生成图片
本仓库复现了论文Text to Image Generation with Semantic-Spatial Aware GAN,
代码修改自仓库https://github.com/wtliao/text2image
the spatial-semantic aware (SSA) block 结构
DAMSM.py 深层注意多模态相似模型(deep attentional multimodal similarity model)的实现
datasets.py 用户读取数据
GUI 用于演示的demo
IS.py 计算IS指标
miscc 损失函数以及配置
saved_model 用于保存官方的预习训练模型
cfg 配置文件
bird.yml 本仓库使用它
coco.yml coco数据集,太大了,本实验中未使用,如需使用请前往[https://github.com/wtliao/text2image]仓库下载
data 数据存放路径
birds
main_finetune.py finetune的main函数
model.py SSA-GAN模型的实现
sync_batchnorm sync_batchnorm的实现
DAMSMencoders 用于保存预训练的text_encoder和image_encoder
main.py
1.运行 pip install -r requirements.txt
,注意,tensorflow1.x版本才能进行IS指标的评测(本仓库使用tf1.5)
-
下载数据
- 下载birds_caption_data,并且将其解压后放在
data/
目录下 - 下载birds_data,并且将其解压后放在
data/birds/
目录下
- 下载birds_caption_data,并且将其解压后放在
-
下载预训练 DAMSM 模型
- 下载birds_pre_trained_DAMSM并且将其解压后放在
DAMSMencoders/
目录下
- 下载birds_pre_trained_DAMSM并且将其解压后放在
-
训练
- 如果需要的话,可以下载原论文作者提供的预训练模型onedrive repo
- 调整bird.yml中的设置
python main.py
(自己从头开始训练) 或python main_finetune.py
(使用预训练模型)
-
评估
- 设置bird.yml中的
B_VALIDATION=True
,运行python main.py
(自己从头开始训练) 或python main_finetune.py
(使用预训练模型)
- 设置bird.yml中的
-
IS
- 配置tf1.x环境
- 修改IS.py中的设置
python IS.py
-
FID
- 请前往https://github.com/bioinf-jku/TTUR
- 或者使用我的适配适配后的仓库https://github.com/1190202328/TTUR
我实际跑出来达不到这个指标,在CUB上的IS约4.91 +- 0.08,FID约16.01