谷歌首个nana-banana多模态RAG实战：彻底告别关键词搜索，让AI为电商游戏提效原创精华

AI博物院

发布于 2025-9-8 07:15

浏览

0收藏

最新的AI生图模型已经能做到惊人的效果。给它一句话，它就能生成逼真的图片。告诉它想怎么改，它就能精准编辑细节。速度还快得离谱。

但对企业来说，光有个生图模型还不够。

我之前碰到一个公司，他们想让用户上传照片后，从素材库选配饰和道具进行换装。另一家电商平台想给模特换装、换发型、换配饰，实现一次拍摄，反复使用。

问题来了：这些公司都有海量的历史素材。服装、配饰、道具、背景，全是图片文件。怎么快速找到想要的素材？传统搜索根本不行。

他们真正需要的，是一套能理解图片内容的智能检索系统。输入文字描述，就能找到对应的图片素材。再配合AI生图模型，才能实现真正的生产级应用。

这就是多模态RAG系统的价值所在。

企业生图的真正痛点

快消品公司每年积累数万张产品图。游戏公司的素材库里躺着几十万个道具模型。这些非结构化数据就像一座金山，却无法高效利用。

传统的文件名搜索？太原始了。手动打标签？人力成本高得吓人，还容易出错。

现实中，设计师要找一个"金色复古怀表"的素材，可能要翻几十个文件夹。产品经理想找"穿西装的男模特"照片，得靠记忆和运气。

更糟糕的是，即使找到了合适的素材，怎么和AI生图模型无缝对接？怎么确保生成的图片风格统一？怎么批量处理上千个SKU的产品图？

这些问题，单靠一个AI模型解决不了。你需要一套完整的系统。

技术方案：向量化

解决方案其实不复杂。

核心是把图片和文字都转换成向量。同一个概念的图片和文字，转换后的向量很相似。比如"金色手表"这段文字的向量，和一张金表图片的向量，在向量空间里距离很近。

向量化方案选择

你有三种选择，各有优劣：

方案一：CLIP本地部署（免费但需要GPU）

import clip
model, preprocess = clip.load("ViT-B/32")  # 512维向量
# 或者用更强的模型
model, preprocess = clip.load("ViT-L/14")  # 768维向量

方案二：OpenAI API（效果最好但按次收费）

from openai import OpenAI
client = OpenAI(api_key="your-key")
response = client.embeddings.create(
    model="text-embedding-3-large",
    input="金色手表"
)

方案三：国内大厂API（稳定且中文优化好）

# 阿里云 DashScope
from dashscope import MultiModalEmbedding
response = MultiModalEmbedding.call(
    model='multimodal-embedding-one-peace-v1',
    input=[{"image": "watch.jpg"}]
)

Milvus向量数据库

不管用哪种向量化方案，存储和检索都用Milvus。它能在毫秒内从百万个向量中找出最相似的。

工作流程：

把所有历史图片转成向量，存到Milvus
用户输入文字描述时，同样转成向量
Milvus找出最相似的图片向量
返回对应的原始图片

实战：搭建以文搜图系统

三种实现方式，你选一个合适的。

方式一：CLIP本地部署

环境准备

pip install pymilvus pillow matplotlib
pip install git+https://github.com/openai/CLIP.git

完整代码

import clip
import torch
from PIL import Image
from pymilvus import MilvusClient
from glob import glob

# 初始化
client = MilvusClient(uri="http://localhost:19530")
device = "cuda"if torch.cuda.is_available() else"cpu"
model, preprocess = clip.load("ViT-B/32", device=device)

# 创建集合
collection_name = "product_images"
if client.has_collection(collection_name):
    client.drop_collection(collection_name)
    
client.create_collection(
    collection_name=collection_name,
    dimension=512,
    metric_type="COSINE"
)

# 图片向量化
def encode_image(image_path):
    image = preprocess(Image.open(image_path)).unsqueeze(0).to(device)
    with torch.no_grad():
        features = model.encode_image(image)
        features /= features.norm(dim=-1, keepdim=True)
    return features.squeeze().cpu().tolist()

# 批量处理
image_paths = glob("./images/*.jpg")
data = []
for path in image_paths:
    vector = encode_image(path)
    data.append({"vector": vector, "filepath": path})
    
client.insert(collection_name=collection_name, data=data)

# 搜索功能
def search_by_text(query, top_k=3):
    text = clip.tokenize([query]).to(device)
    with torch.no_grad():
        text_features = model.encode_text(text)
        text_features /= text_features.norm(dim=-1, keepdim=True)
    
    results = client.search(
        collection_name=collection_name,
        data=[text_features.squeeze().cpu().tolist()],
        limit=top_k,
        output_fields=["filepath"]
    )
    return results[0]

方式二：OpenAI API

from openai import OpenAI
from pymilvus import MilvusClient
import base64

# 初始化
openai_client = OpenAI(api_key="your-key")
milvus_client = MilvusClient(uri="http://localhost:19530")

# 创建集合（注意维度不同）
collection_name = "product_images_openai"
milvus_client.create_collection(
    collection_name=collection_name,
    dimension=1536,  # OpenAI的维度
    metric_type="COSINE"
)

def encode_text_openai(text):
    """文本向量化"""
    response = openai_client.embeddings.create(
        model="text-embedding-3-large",
        input=text,
        dimensions=1536
    )
    return response.data[0].embedding

def encode_image_openai(image_path):
    """图片先描述再向量化"""
    with open(image_path, "rb") as f:
        base64_image = base64.b64encode(f.read()).decode('utf-8')
    
    # GPT-4V描述图片
    response = openai_client.chat.completions.create(
        model="gpt-4-vision-preview",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": "Describe this image concisely"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
            ]
        }]
    )
    
    description = response.choices[0].message.content
    return encode_text_openai(description)

# 批量处理（注意成本）
from glob import glob
image_paths = glob("./images/*.jpg")[:100]  # 先处理100张试试
data = []

for path in image_paths:
    print(f"Processing {path}...")
    vector = encode_image_openai(path)
    data.append({"vector": vector, "filepath": path})
    
milvus_client.insert(collection_name=collection_name, data=data)

方式三：混合方案

class HybridEmbedding:
    """智能选择最合适的向量化方案"""
    
    def __init__(self):
        # CLIP用于批量处理
        self.clip_model, self.preprocess = clip.load("ViT-B/32")
        
        # OpenAI用于高质量需求
        self.openai_client = OpenAI(api_key="your-key")
        
        # Milvus连接
        self.milvus = MilvusClient(uri="http://localhost:19530")
        
        # 统一到1536维（通过填充或截断）
        self.dimension = 1536
        
    def encode(self, content, mode="fast"):
        """根据模式选择编码方式"""
        if mode == "fast":
            # 用CLIP，成本低
            if isinstance(content, str):
                tokens = clip.tokenize([content])
                features = self.clip_model.encode_text(tokens)
            else:  # 图片路径
                image = self.preprocess(Image.open(content)).unsqueeze(0)
                features = self.clip_model.encode_image(image)
            
            # 归一化并填充到1536维
            features = features.squeeze().cpu().numpy()
            features = features / np.linalg.norm(features)
            padded = np.zeros(self.dimension)
            padded[:len(features)] = features
            return padded.tolist()
            
        elif mode == "quality":
            # 用OpenAI，效果好
            response = self.openai_client.embeddings.create(
                model="text-embedding-3-large",
                input=content,
                dimensions=self.dimension
            )
            return response.data[0].embedding
    
    def smart_batch_process(self, items, budget=100):
        """智能批处理，控制成本"""
        results = []
        
        for i, item in enumerate(items):
            if i < budget:
                # 前100个用高质量
                vector = self.encode(item, mode="quality")
            else:
                # 剩下的用快速模式
                vector = self.encode(item, mode="fast")
            
            results.append(vector)
            
        return results

集成AI生图模型实现自动化

找到素材只是第一步。接下来要把它和AI生图模型打通。

这里用Gemini的图像生成API做示范。你也可以换成Stable Diffusion、Midjourney或任何其他模型。

import google.generativeai as genai
from PIL import Image

# 配置API
genai.configure(api_key="your_api_key")
model = genai.GenerativeModel('gemini-2.0-flash-exp')

def generate_product_image(text_query, style_reference):
    """
    先搜索相似素材，再生成新图
    """
    # 步骤1：从数据库找参考图
    similar_images = search_by_text(text_query, top_k=1)
    reference_path = similar_images[0]['entity']['filepath']
    
    # 步骤2：加载参考图
    ref_image = Image.open(reference_path)
    
    # 步骤3：生成新图
    prompt = f"{text_query}. Style should match the reference image."
    response = model.generate_content([prompt, ref_image])
    
    # 步骤4：保存结果
    for part in response.candidates[0].content.parts:
        if part.inline_data:
            new_image = Image.open(BytesIO(part.inline_data.data))
            new_image.save(f"generated_{text_query.replace(' ', '_')}.png")
            return new_image
    
# 实际使用
generate_product_image(
    "European male model wearing suit with gold watch",
    style_reference="luxury_fashion"
)

这套流程的妙处在于：

自动匹配风格：从历史素材找参考，保证视觉一致性
批量处理：写个循环，一晚上能生成上千张产品图
精准控制：通过调整prompt和参考图，精确控制输出效果

实际应用场景和效果展示

电商换装场景

一家服装品牌，原本每个季度要拍摄500套新品。现在只需拍摄50套基础款，剩下的全靠AI生成。

# 批量换装示例
base_models = ["model_001.jpg", "model_002.jpg"]
clothing_items = search_by_text("summer dress collection", top_k=50)

for model in base_models:
    for item in clothing_items:
        generate_outfit_combination(model, item)

游戏道具定制

某款卡牌游戏，玩家可以自定义角色装备。系统从10万个道具素材中实时检索，然后生成独一无二的角色形象。

玩家描述："戴着火焰皇冠的精灵弓箭手" 系统操作：

检索"火焰皇冠"素材
检索"精灵弓箭手"基础形象
AI融合生成最终角色

产品展示自动化

一个3C品牌，新品发布需要大量场景图。以前要搭建实景、请摄影师。现在：

products = ["smartphone_x1.jpg", "earbuds_pro.jpg", "smartwatch_v2.jpg"]
scenes = ["modern office", "outdoor adventure", "home living room"]

for product in products:
    for scene in scenes:
        prompt = f"Place {product} in {scene} setting"
        generate_scene_image(prompt, product)

一天生成1000张场景图。每张成本不到1元。

总结

向量化技术还在快速进化。Google的Gemini已经原生支持多模态。Meta的ImageBind能处理6种模态。但不管技术怎么变，核心逻辑不变：把非结构化数据变成向量，用向量相似度做检索。

本文转载自AI 博物院作者：longyunfeigu

标签

多模态

RAG

AI生图模型

已于2025-9-8 07:15:11修改

社区头条

51CTO

51CTO博客

51CTO学堂

谷歌首个nana-banana多模态RAG实战：彻底告别关键词搜索，让AI为电商游戏提效原创精华

企业生图的真正痛点

技术方案：向量化

向量化方案选择

Milvus向量数据库

实战：搭建以文搜图系统

方式一：CLIP本地部署

方式二：OpenAI API

方式三：混合方案

集成AI生图模型实现自动化

实际应用场景和效果展示

总结

目录

51CTO

51CTO博客

51CTO学堂

谷歌首个nana-banana多模态RAG实战：彻底告别关键词搜索，让AI为电商游戏提效 原创 精华

企业生图的真正痛点

技术方案：向量化

向量化方案选择

Milvus向量数据库

实战：搭建以文搜图系统

方式一：CLIP本地部署

方式二：OpenAI API

方式三：混合方案

集成AI生图模型实现自动化

实际应用场景和效果展示

总结

目录

谷歌首个nana-banana多模态RAG实战：彻底告别关键词搜索，让AI为电商游戏提效原创精华