
谷歌首个nana-banana多模态RAG实战:彻底告别关键词搜索,让AI为电商游戏提效 原创 精华
最新的AI生图模型已经能做到惊人的效果。给它一句话,它就能生成逼真的图片。告诉它想怎么改,它就能精准编辑细节。速度还快得离谱。
但对企业来说,光有个生图模型还不够。
我之前碰到一个公司,他们想让用户上传照片后,从素材库选配饰和道具进行换装。另一家电商平台想给模特换装、换发型、换配饰,实现一次拍摄,反复使用。
问题来了:这些公司都有海量的历史素材。服装、配饰、道具、背景,全是图片文件。怎么快速找到想要的素材?传统搜索根本不行。
他们真正需要的,是一套能理解图片内容的智能检索系统。输入文字描述,就能找到对应的图片素材。再配合AI生图模型,才能实现真正的生产级应用。
这就是多模态RAG系统的价值所在。
企业生图的真正痛点
快消品公司每年积累数万张产品图。游戏公司的素材库里躺着几十万个道具模型。这些非结构化数据就像一座金山,却无法高效利用。
传统的文件名搜索?太原始了。手动打标签?人力成本高得吓人,还容易出错。
现实中,设计师要找一个"金色复古怀表"的素材,可能要翻几十个文件夹。产品经理想找"穿西装的男模特"照片,得靠记忆和运气。
更糟糕的是,即使找到了合适的素材,怎么和AI生图模型无缝对接?怎么确保生成的图片风格统一?怎么批量处理上千个SKU的产品图?
这些问题,单靠一个AI模型解决不了。你需要一套完整的系统。
技术方案:向量化
解决方案其实不复杂。
核心是把图片和文字都转换成向量。同一个概念的图片和文字,转换后的向量很相似。比如"金色手表"这段文字的向量,和一张金表图片的向量,在向量空间里距离很近。
向量化方案选择
你有三种选择,各有优劣:
方案一:CLIP本地部署(免费但需要GPU)
import clip
model, preprocess = clip.load("ViT-B/32")  # 512维向量
# 或者用更强的模型
model, preprocess = clip.load("ViT-L/14")  # 768维向量方案二:OpenAI API(效果最好但按次收费)
from openai import OpenAI
client = OpenAI(api_key="your-key")
response = client.embeddings.create(
    model="text-embedding-3-large",
    input="金色手表"
)方案三:国内大厂API(稳定且中文优化好)
# 阿里云 DashScope
from dashscope import MultiModalEmbedding
response = MultiModalEmbedding.call(
    model='multimodal-embedding-one-peace-v1',
    input=[{"image": "watch.jpg"}]
)Milvus向量数据库
不管用哪种向量化方案,存储和检索都用Milvus。它能在毫秒内从百万个向量中找出最相似的。
工作流程:
- 把所有历史图片转成向量,存到Milvus
- 用户输入文字描述时,同样转成向量
- Milvus找出最相似的图片向量
- 返回对应的原始图片
实战:搭建以文搜图系统
三种实现方式,你选一个合适的。
方式一:CLIP本地部署
环境准备
pip install pymilvus pillow matplotlib
pip install git+https://github.com/openai/CLIP.git完整代码
import clip
import torch
from PIL import Image
from pymilvus import MilvusClient
from glob import glob
# 初始化
client = MilvusClient(uri="http://localhost:19530")
device = "cuda"if torch.cuda.is_available() else"cpu"
model, preprocess = clip.load("ViT-B/32", device=device)
# 创建集合
collection_name = "product_images"
if client.has_collection(collection_name):
    client.drop_collection(collection_name)
    
client.create_collection(
    collection_name=collection_name,
    dimension=512,
    metric_type="COSINE"
)
# 图片向量化
def encode_image(image_path):
    image = preprocess(Image.open(image_path)).unsqueeze(0).to(device)
    with torch.no_grad():
        features = model.encode_image(image)
        features /= features.norm(dim=-1, keepdim=True)
    return features.squeeze().cpu().tolist()
# 批量处理
image_paths = glob("./images/*.jpg")
data = []
for path in image_paths:
    vector = encode_image(path)
    data.append({"vector": vector, "filepath": path})
    
client.insert(collection_name=collection_name, data=data)
# 搜索功能
def search_by_text(query, top_k=3):
    text = clip.tokenize([query]).to(device)
    with torch.no_grad():
        text_features = model.encode_text(text)
        text_features /= text_features.norm(dim=-1, keepdim=True)
    
    results = client.search(
        collection_name=collection_name,
        data=[text_features.squeeze().cpu().tolist()],
        limit=top_k,
        output_fields=["filepath"]
    )
    return results[0]方式二:OpenAI API
from openai import OpenAI
from pymilvus import MilvusClient
import base64
# 初始化
openai_client = OpenAI(api_key="your-key")
milvus_client = MilvusClient(uri="http://localhost:19530")
# 创建集合(注意维度不同)
collection_name = "product_images_openai"
milvus_client.create_collection(
    collection_name=collection_name,
    dimension=1536,  # OpenAI的维度
    metric_type="COSINE"
)
def encode_text_openai(text):
    """文本向量化"""
    response = openai_client.embeddings.create(
        model="text-embedding-3-large",
        input=text,
        dimensions=1536
    )
    return response.data[0].embedding
def encode_image_openai(image_path):
    """图片先描述再向量化"""
    with open(image_path, "rb") as f:
        base64_image = base64.b64encode(f.read()).decode('utf-8')
    
    # GPT-4V描述图片
    response = openai_client.chat.completions.create(
        model="gpt-4-vision-preview",
        messages=[{
            "role": "user",
            "content": [
                {"type": "text", "text": "Describe this image concisely"},
                {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
            ]
        }]
    )
    
    description = response.choices[0].message.content
    return encode_text_openai(description)
# 批量处理(注意成本)
from glob import glob
image_paths = glob("./images/*.jpg")[:100]  # 先处理100张试试
data = []
for path in image_paths:
    print(f"Processing {path}...")
    vector = encode_image_openai(path)
    data.append({"vector": vector, "filepath": path})
    
milvus_client.insert(collection_name=collection_name, data=data)方式三:混合方案
class HybridEmbedding:
    """智能选择最合适的向量化方案"""
    
    def __init__(self):
        # CLIP用于批量处理
        self.clip_model, self.preprocess = clip.load("ViT-B/32")
        
        # OpenAI用于高质量需求
        self.openai_client = OpenAI(api_key="your-key")
        
        # Milvus连接
        self.milvus = MilvusClient(uri="http://localhost:19530")
        
        # 统一到1536维(通过填充或截断)
        self.dimension = 1536
        
    def encode(self, content, mode="fast"):
        """根据模式选择编码方式"""
        if mode == "fast":
            # 用CLIP,成本低
            if isinstance(content, str):
                tokens = clip.tokenize([content])
                features = self.clip_model.encode_text(tokens)
            else:  # 图片路径
                image = self.preprocess(Image.open(content)).unsqueeze(0)
                features = self.clip_model.encode_image(image)
            
            # 归一化并填充到1536维
            features = features.squeeze().cpu().numpy()
            features = features / np.linalg.norm(features)
            padded = np.zeros(self.dimension)
            padded[:len(features)] = features
            return padded.tolist()
            
        elif mode == "quality":
            # 用OpenAI,效果好
            response = self.openai_client.embeddings.create(
                model="text-embedding-3-large",
                input=content,
                dimensions=self.dimension
            )
            return response.data[0].embedding
    
    def smart_batch_process(self, items, budget=100):
        """智能批处理,控制成本"""
        results = []
        
        for i, item in enumerate(items):
            if i < budget:
                # 前100个用高质量
                vector = self.encode(item, mode="quality")
            else:
                # 剩下的用快速模式
                vector = self.encode(item, mode="fast")
            
            results.append(vector)
            
        return results集成AI生图模型实现自动化
找到素材只是第一步。接下来要把它和AI生图模型打通。
这里用Gemini的图像生成API做示范。你也可以换成Stable Diffusion、Midjourney或任何其他模型。
import google.generativeai as genai
from PIL import Image
# 配置API
genai.configure(api_key="your_api_key")
model = genai.GenerativeModel('gemini-2.0-flash-exp')
def generate_product_image(text_query, style_reference):
    """
    先搜索相似素材,再生成新图
    """
    # 步骤1:从数据库找参考图
    similar_images = search_by_text(text_query, top_k=1)
    reference_path = similar_images[0]['entity']['filepath']
    
    # 步骤2:加载参考图
    ref_image = Image.open(reference_path)
    
    # 步骤3:生成新图
    prompt = f"{text_query}. Style should match the reference image."
    response = model.generate_content([prompt, ref_image])
    
    # 步骤4:保存结果
    for part in response.candidates[0].content.parts:
        if part.inline_data:
            new_image = Image.open(BytesIO(part.inline_data.data))
            new_image.save(f"generated_{text_query.replace(' ', '_')}.png")
            return new_image
    
# 实际使用
generate_product_image(
    "European male model wearing suit with gold watch",
    style_reference="luxury_fashion"
)这套流程的妙处在于:
- 自动匹配风格:从历史素材找参考,保证视觉一致性
- 批量处理:写个循环,一晚上能生成上千张产品图
- 精准控制:通过调整prompt和参考图,精确控制输出效果
实际应用场景和效果展示
电商换装场景
一家服装品牌,原本每个季度要拍摄500套新品。现在只需拍摄50套基础款,剩下的全靠AI生成。
# 批量换装示例
base_models = ["model_001.jpg", "model_002.jpg"]
clothing_items = search_by_text("summer dress collection", top_k=50)
for model in base_models:
    for item in clothing_items:
        generate_outfit_combination(model, item)游戏道具定制
某款卡牌游戏,玩家可以自定义角色装备。系统从10万个道具素材中实时检索,然后生成独一无二的角色形象。
玩家描述:"戴着火焰皇冠的精灵弓箭手" 系统操作:
- 检索"火焰皇冠"素材
- 检索"精灵弓箭手"基础形象
- AI融合生成最终角色
产品展示自动化
一个3C品牌,新品发布需要大量场景图。以前要搭建实景、请摄影师。现在:
products = ["smartphone_x1.jpg", "earbuds_pro.jpg", "smartwatch_v2.jpg"]
scenes = ["modern office", "outdoor adventure", "home living room"]
for product in products:
    for scene in scenes:
        prompt = f"Place {product} in {scene} setting"
        generate_scene_image(prompt, product)一天生成1000张场景图。每张成本不到1元。
总结
向量化技术还在快速进化。Google的Gemini已经原生支持多模态。Meta的ImageBind能处理6种模态。但不管技术怎么变,核心逻辑不变:把非结构化数据变成向量,用向量相似度做检索。
本文转载自AI 博物院 作者:longyunfeigu


















