国科网

2024-06-17 04:34:32  星期一
立足国科融媒,服务先进科技
全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3!5亿融资Karpathy都投了

点赞

0
发布时间:2024年03月01日 浏览量:64次 所属栏目:人工智能 发布者:田佳恬

文生图领域作为一个跑出「10人团队年收入过亿美金初创公司」的赛道,已经成了AI创业公司掘第一桶金的最佳起点。

但是在谷歌,微软等大厂都已经花了大量资源去布局的领域,留给初创公司的机会到底在哪里?

最近一家名为Ideogram的文生图工具,凭借优秀的文字渲染能力,成功融资8000万美元!

包括Jeff Dean和Andrej Karpathy在内的一众硅谷大佬和知名机构都是它的投资人。

图片

只要在prompt里将文字打上去,就能非常自然可控地出现在生成的图片中。

图片

而且生成的图片不仅能简单的以平面文字的形式出现在图片之中,还能根据用户的要求,生成自然的悬浮文字,或者是立体的文字。

甚至用一句提示词,它能直接给你画出图文高度配合的梗图!

图片

文生图也能做出「多模态」

而图片中的文字生成,一直以来是各大生图AI做不好的痛点。

如果要求图片中有某些确定的文字,需要在生成图片之后还要花费很多后期的加工。

图片

而Ideogram对于生图文字的控制能力,不仅在对比数据上比DALL·E 3要好出不少。

实际生成的带有文字图片也是非常自然。

图片

文字可以像很多商业广告一样自然的悬浮在图片上,也可以和图片中的物体自然地融为一体。

图片

像这种配文字的电影海报级的图片都可以直接一步生成。

图片

而漫画形式的配图文字也同样不在话下。

图片

用户可以非常精准地将自己想要表达的文字内容和各种风格的图片组合在一起。

除了能严格按照作者的要求生成精准的文字,甚至像开头的梗图一样,它能按照图片的设定无中生有的配上契合图片的文字。

简直成了另一种形式的多模态模型。

普通的生图能力也是行业顶尖

而除了最优秀的文字渲染能力之外,作为生图工具,它在其他方面的表现也毫不逊色于行业顶尖水准。

Ideogram 1.0 可在理解冗长、复杂提示词的同时生成清晰、细致的图像。

图片

宛如相片一样的海报

图片

对于各种动物以及奇怪组合的完美呈现能力。

逼真的照片级图片生成能力,足以以假乱真。

图片

也能准确地生成复杂的手部动作。

图片

人物表情,光影都非常和谐。

图片

而且它还能通过工具,配合提示词,控制主要内容在图片中生成的形状和范围。

图片

Ideogram 1.0 除了能够生成照片级逼真的图像,对于超自然的风格的图片也有很强的表现能力。

图片

图片

Ideogram 1.0还提供了一个名为「Magic Prompt」的功能,可以自动增强、扩展和翻译用户的提示,大大降低用户生成精美的创意图片的门槛。

原提示:创建一个关于猫的有趣的表情包

增强提示: 以一只表情惊讶的波斯猫为主题的备忘录。猫的眼睛睁得大大的,让人觉得它很震惊或很有趣。背景是其他猫咪摆出的各种姿势的彩色拼贴画,主题为 「当你意识到猫咪已经占领互联网时」。整个画面轻松幽默,展现了网上对猫的持久热爱。

图片

有了这个功能,表情包可以直接出图片了:

提示:  

分享说明:转发分享请注明出处。

    热点图讯
    最新图讯
    相关图讯
    网站简介  |   联系我们  |   广告服务  |   监督电话
    本网站由国科网运营维护 国科网讯(北京)技术有限公司版权所有  咨询电话:010-88516927
    地址:北京市海淀区阜石路甲69号院1号楼1层一单元114
    ICP备案号:京ICP备15066964号-8   违法和不良信息举报电话:010-67196565
    12300电信用户申诉受理中心   网络违法犯罪举报网站   中国互联网举报中心   12321网络不良与垃圾信息举报中心   12318全国文化市场举报网站
    代理域名注册服务机构:阿里巴巴云计算(北京)有限公司