文本转图像模型的发展周期

2023-03-08 14:33 更新
文本转图像模型的发展周期历时数年:
  • 2020年7月:OpenAI发文介绍Image GPT模型,将语言模型应用到图像领域。
  • 2022年3月:AI图像生成平台Midjourney启动Beta版本测试。
  • 2022年4月:OpenAI宣布允许一定数量的用户对其AI图像生成工具DALL-E 2 进行“研究性试用”。
  • 2022年5月:Google以论文形式公布其文本-图像生成模型Imagen,Imagen由PyTorch实现。
  • 2022年7月:OpenAI 通过UI/API开放DALL-E 2进行公开测试,参与公测的用户须先进入等待名单。
  • 2022年7月:Midjourney通过Discord通讯平台发布消息表示即将进行公开测试。
  • 2022年8月:文本-图像生成模型Stable Diffusion发布,这是一款基于OpenRAIL-M许可的开源模型。
  • 2022年9月:OpenAI取消DALL-E 2的等待名单。
GPT-3从公布到被复制历时10个月:
  • 2020年5月:OpenAI以论文形式公开GPT-3,并在随后的6月发布了未公开的Beta版API。
  • 2020年7月:非营利开源研究组织EleutherAI成立,成为OpenAI的替代者。
  • 2020年9月:Microsoft获得GPT-3的独家授权。
  • 2021年1月:EleutherAI公布其800G数据集The Pile。
  • 2021年3月:EleutherAI公布了分别含13亿和27亿参数的两版开源GPT-Neo模型(GPT-Neo是对GPT-3的克隆版)。
  • 2021年11月:OpenAI取消GPT-3的等待名单,开发人员可以直接报名使用其API。
  • 2022年5月:Meta公布大型语言模型OPT-175B,供研究人员使用,还公布了模型日志和开源许可证明。
  • 2022年6月:俄罗斯互联网巨头Yandex公布了YaLM-100B,这是一个基于Apache-2许可的类GPT开源模型。
  • 2022年7月:HuggingFace公开了BLOOM-176B,一个基于RAIL许可证明的大型语言模型。
GPT-2从公布到被复制历时6个月:
  • 2019年2月,OpenAI宣布GPT-2诞生,为了避免模型遭到不良利用(如被用于制造虚假新闻等),当时决定不将模型完全开源;3月,OpenAI放弃“非营利机构”的定位,成立OpenAI LP(有限合伙公司),声称进入“有限营利”经营模式。
  • 8月,两名计算机硕士复制出GPT-2并将其对外公开,称为OpenGPT-2。
  • 11月,经过谨慎的分阶段逐步公布,OpenAI终于完全开源了含15亿参数的GPT-2模型。

上述时间线已经过高度精简,实际发展史还可追溯到2015年提出的扩散模型(Diffusion Model)、2017年提出的Transformer模型,以及更早之前对生成对抗网络(GANs)的研究。

有趣的是,2022年9月,OpenAI基于MIT许可公开了其Whisper语音转文本模型,并且不设置付费API。当然,语音转文本功能遭到不良利用的可能性较低,所以此类模型的开源风险也更低,但也有观点认为,OpenAI此次的开源决定是受到Stable Diffusion开源后爆红的影响。


以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号