Skip to content

Text to Image Generation with Semantic-Spatial Aware GAN

Notifications You must be signed in to change notification settings

1190202328/text2image

 
 

Repository files navigation

text2image

哈工大2022春深度学习实验六-自选项目
文字生成图片
本仓库复现了论文Text to Image Generation with Semantic-Spatial Aware GAN, 代码修改自仓库https://github.com/wtliao/text2image

网络结构

network_structure

the spatial-semantic aware (SSA) block 结构

ssacn

仓库结构

DAMSM.py    深层注意多模态相似模型(deep attentional multimodal similarity model)的实现
datasets.py 用户读取数据
GUI   用于演示的demo
IS.py   计算IS指标
miscc   损失函数以及配置
saved_model 用于保存官方的预习训练模型
cfg  配置文件
    bird.yml    本仓库使用它
    coco.yml    coco数据集,太大了,本实验中未使用,如需使用请前往[https://github.com/wtliao/text2image]仓库下载
data    数据存放路径
    birds
main_finetune.py    finetune的main函数
model.py    SSA-GAN模型的实现
sync_batchnorm  sync_batchnorm的实现
DAMSMencoders   用于保存预训练的text_encoder和image_encoder
main.py

依赖库

1.运行 pip install -r requirements.txt ,注意,tensorflow1.x版本才能进行IS指标的评测(本仓库使用tf1.5)

运行前的准备

  1. 下载数据

    1. 下载birds_caption_data,并且将其解压后放在 data/ 目录下
    2. 下载birds_data,并且将其解压后放在 data/birds/ 目录下
  2. 下载预训练 DAMSM 模型

    1. 下载birds_pre_trained_DAMSM并且将其解压后放在 DAMSMencoders/ 目录下

运行程序

  1. 训练

    1. 如果需要的话,可以下载原论文作者提供的预训练模型onedrive repo
    2. 调整bird.yml中的设置
    3. python main.py (自己从头开始训练) 或 python main_finetune.py (使用预训练模型)
  2. 评估

    1. 设置bird.yml中的 B_VALIDATION=True ,运行python main.py (自己从头开始训练) 或 python main_finetune.py (使用预训练模型)

评估指标

  1. IS

    1. 配置tf1.x环境
    2. 修改IS.py中的设置
    3. python IS.py
  2. FID

    1. 请前往https://github.com/bioinf-jku/TTUR
    2. 或者使用我的适配适配后的仓库https://github.com/1190202328/TTUR

官方的性能

results

我实际跑出来达不到这个指标,在CUB上的IS约4.91 +- 0.08,FID约16.01

引用

请前往https://github.com/wtliao/text2image

About

Text to Image Generation with Semantic-Spatial Aware GAN

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%