AYX爱游戏,爱游戏体育官方网站,爱游戏体育APP
这项研究的核心创新在于开发了一套全新的结构化语言系统。研究团队训练BBQ理解包含精确数值参数的复杂描述文本,就像教会计算机既能理解请画一个人这样的自然语言,又能理解人物位置:左上角(20,30)到右下角(50,80),肤色RGB(220,180,140)这样的技术规格。更令人惊叹的是,BBQ还能像魔术师一样实现局部变换——用户只需要修改描述中的某个数值,比如将人物的RGB颜色值从(220,180,140)改为(180,120,80),BBQ就能精确地只改变人物肤色,而保持图像其他部分完全不变。
这个过程就像制作一本极其详细的烹饪书。普通烹饪书会写加适量盐,但BBQ的训练资料更像是科学实验手册:在图片坐标(25.2, 35.7)到(68.9, 89.1)的区域内,放置一个RGB值为(180, 45, 23)的物体。研究团队使用了多种先进工具来提取这些精确信息:用Grounded SAM2来定位物体边界,用Depth Anything V2来判断物体的前后关系,用Pylette来分析颜色组成。
第一项测试叫做文本瓶颈重建,这是一个非常巧妙的评估方法。研究团队选取真实照片,让AI系统为这些照片写出详细描述,然后再根据描述重新生成图像,最后比较原图和重建图像的相似度。这就像玩传话游戏,看看经过看图说话再听话画图两个步骤后,最终结果与原始图片有多接近。BBQ在这项测试中表现优异,相比其他先进模型如Nano Banana Pro、FLUX.2 Pro和FIBO,分别获得了65.2%、93.3%和76.1%的胜率,显示出更强的图像表达和重现能力。
第二项测试专门评估空间位置控制的精确度。研究团队使用了标准的目标检测算法YOLO来检查生成图像中的物体是否真的出现在指定的边界框内。这就像用尺子检查建筑工人是否严格按照图纸施工。在COCO数据集上,BBQ获得了28.6的AP分数,虽然略低于专门为位置控制设计的InstanceDiffusion(38.8分),但远超其他通用模型如Flux.2 Pro(3.5分)和Nano Banana Pro(5分)。考虑到BBQ无需任何架构修改就能达到这样的精确度,这个结果相当令人印象深刻。
第三项测试评估颜色控制的精确度,研究团队生成了200张单一物体图像,每张都指定了精确的RGB颜色值。然后使用色彩分析技术提取生成图像中物体的实际颜色,与目标颜色进行比较。BBQ在这项测试中展现出了明显优势,在a-b色度平面的距离测量中,平均误差仅为7.16(K=5聚类)和7.48(K=8聚类),显著低于其他模型的10分左右误差。这意味着BBQ能够更准确地再现指定的色彩,特别是在色调和饱和度方面的控制更加精确。