
谷歌首个nana-banana多模态RAG实战:彻底告别关键词搜索,让AI为电商游戏提效 原创 精华
最新的AI生图模型已经能做到惊人的效果。给它一句话,它就能生成逼真的图片。告诉它想怎么改,它就能精准编辑细节。速度还快得离谱。
但对企业来说,光有个生图模型还不够。
我之前碰到一个公司,他们想让用户上传照片后,从素材库选配饰和道具进行换装。另一家电商平台想给模特换装、换发型、换配饰,实现一次拍摄,反复使用。
问题来了:这些公司都有海量的历史素材。服装、配饰、道具、背景,全是图片文件。怎么快速找到想要的素材?传统搜索根本不行。
他们真正需要的,是一套能理解图片内容的智能检索系统。输入文字描述,就能找到对应的图片素材。再配合AI生图模型,才能实现真正的生产级应用。
这就是多模态RAG系统的价值所在。
企业生图的真正痛点
快消品公司每年积累数万张产品图。游戏公司的素材库里躺着几十万个道具模型。这些非结构化数据就像一座金山,却无法高效利用。
传统的文件名搜索?太原始了。手动打标签?人力成本高得吓人,还容易出错。
现实中,设计师要找一个"金色复古怀表"的素材,可能要翻几十个文件夹。产品经理想找"穿西装的男模特"照片,得靠记忆和运气。
更糟糕的是,即使找到了合适的素材,怎么和AI生图模型无缝对接?怎么确保生成的图片风格统一?怎么批量处理上千个SKU的产品图?
这些问题,单靠一个AI模型解决不了。你需要一套完整的系统。
技术方案:向量化
解决方案其实不复杂。
核心是把图片和文字都转换成向量。同一个概念的图片和文字,转换后的向量很相似。比如"金色手表"这段文字的向量,和一张金表图片的向量,在向量空间里距离很近。
向量化方案选择
你有三种选择,各有优劣:
方案一:CLIP本地部署(免费但需要GPU)
import clip
model, preprocess = clip.load("ViT-B/32") # 512维向量
# 或者用更强的模型
model, preprocess = clip.load("ViT-L/14") # 768维向量
方案二:OpenAI API(效果最好但按次收费)
from openai import OpenAI
client = OpenAI(api_key="your-key")
response = client.embeddings.create(
model="text-embedding-3-large",
input="金色手表"
)
方案三:国内大厂API(稳定且中文优化好)
# 阿里云 DashScope
from dashscope import MultiModalEmbedding
response = MultiModalEmbedding.call(
model='multimodal-embedding-one-peace-v1',
input=[{"image": "watch.jpg"}]
)
Milvus向量数据库
不管用哪种向量化方案,存储和检索都用Milvus。它能在毫秒内从百万个向量中找出最相似的。
工作流程:
- 把所有历史图片转成向量,存到Milvus
- 用户输入文字描述时,同样转成向量
- Milvus找出最相似的图片向量
- 返回对应的原始图片
实战:搭建以文搜图系统
三种实现方式,你选一个合适的。
方式一:CLIP本地部署
环境准备
pip install pymilvus pillow matplotlib
pip install git+https://github.com/openai/CLIP.git
完整代码
import clip
import torch
from PIL import Image
from pymilvus import MilvusClient
from glob import glob
# 初始化
client = MilvusClient(uri="http://localhost:19530")
device = "cuda"if torch.cuda.is_available() else"cpu"
model, preprocess = clip.load("ViT-B/32", device=device)
# 创建集合
collection_name = "product_images"
if client.has_collection(collection_name):
client.drop_collection(collection_name)
client.create_collection(
collection_name=collection_name,
dimension=512,
metric_type="COSINE"
)
# 图片向量化
def encode_image(image_path):
image = preprocess(Image.open(image_path)).unsqueeze(0).to(device)
with torch.no_grad():
features = model.encode_image(image)
features /= features.norm(dim=-1, keepdim=True)
return features.squeeze().cpu().tolist()
# 批量处理
image_paths = glob("./images/*.jpg")
data = []
for path in image_paths:
vector = encode_image(path)
data.append({"vector": vector, "filepath": path})
client.insert(collection_name=collection_name, data=data)
# 搜索功能
def search_by_text(query, top_k=3):
text = clip.tokenize([query]).to(device)
with torch.no_grad():
text_features = model.encode_text(text)
text_features /= text_features.norm(dim=-1, keepdim=True)
results = client.search(
collection_name=collection_name,
data=[text_features.squeeze().cpu().tolist()],
limit=top_k,
output_fields=["filepath"]
)
return results[0]
方式二:OpenAI API
from openai import OpenAI
from pymilvus import MilvusClient
import base64
# 初始化
openai_client = OpenAI(api_key="your-key")
milvus_client = MilvusClient(uri="http://localhost:19530")
# 创建集合(注意维度不同)
collection_name = "product_images_openai"
milvus_client.create_collection(
collection_name=collection_name,
dimension=1536, # OpenAI的维度
metric_type="COSINE"
)
def encode_text_openai(text):
"""文本向量化"""
response = openai_client.embeddings.create(
model="text-embedding-3-large",
input=text,
dimensions=1536
)
return response.data[0].embedding
def encode_image_openai(image_path):
"""图片先描述再向量化"""
with open(image_path, "rb") as f:
base64_image = base64.b64encode(f.read()).decode('utf-8')
# GPT-4V描述图片
response = openai_client.chat.completions.create(
model="gpt-4-vision-preview",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Describe this image concisely"},
{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
]
}]
)
description = response.choices[0].message.content
return encode_text_openai(description)
# 批量处理(注意成本)
from glob import glob
image_paths = glob("./images/*.jpg")[:100] # 先处理100张试试
data = []
for path in image_paths:
print(f"Processing {path}...")
vector = encode_image_openai(path)
data.append({"vector": vector, "filepath": path})
milvus_client.insert(collection_name=collection_name, data=data)
方式三:混合方案
class HybridEmbedding:
"""智能选择最合适的向量化方案"""
def __init__(self):
# CLIP用于批量处理
self.clip_model, self.preprocess = clip.load("ViT-B/32")
# OpenAI用于高质量需求
self.openai_client = OpenAI(api_key="your-key")
# Milvus连接
self.milvus = MilvusClient(uri="http://localhost:19530")
# 统一到1536维(通过填充或截断)
self.dimension = 1536
def encode(self, content, mode="fast"):
"""根据模式选择编码方式"""
if mode == "fast":
# 用CLIP,成本低
if isinstance(content, str):
tokens = clip.tokenize([content])
features = self.clip_model.encode_text(tokens)
else: # 图片路径
image = self.preprocess(Image.open(content)).unsqueeze(0)
features = self.clip_model.encode_image(image)
# 归一化并填充到1536维
features = features.squeeze().cpu().numpy()
features = features / np.linalg.norm(features)
padded = np.zeros(self.dimension)
padded[:len(features)] = features
return padded.tolist()
elif mode == "quality":
# 用OpenAI,效果好
response = self.openai_client.embeddings.create(
model="text-embedding-3-large",
input=content,
dimensions=self.dimension
)
return response.data[0].embedding
def smart_batch_process(self, items, budget=100):
"""智能批处理,控制成本"""
results = []
for i, item in enumerate(items):
if i < budget:
# 前100个用高质量
vector = self.encode(item, mode="quality")
else:
# 剩下的用快速模式
vector = self.encode(item, mode="fast")
results.append(vector)
return results
集成AI生图模型实现自动化
找到素材只是第一步。接下来要把它和AI生图模型打通。
这里用Gemini的图像生成API做示范。你也可以换成Stable Diffusion、Midjourney或任何其他模型。
import google.generativeai as genai
from PIL import Image
# 配置API
genai.configure(api_key="your_api_key")
model = genai.GenerativeModel('gemini-2.0-flash-exp')
def generate_product_image(text_query, style_reference):
"""
先搜索相似素材,再生成新图
"""
# 步骤1:从数据库找参考图
similar_images = search_by_text(text_query, top_k=1)
reference_path = similar_images[0]['entity']['filepath']
# 步骤2:加载参考图
ref_image = Image.open(reference_path)
# 步骤3:生成新图
prompt = f"{text_query}. Style should match the reference image."
response = model.generate_content([prompt, ref_image])
# 步骤4:保存结果
for part in response.candidates[0].content.parts:
if part.inline_data:
new_image = Image.open(BytesIO(part.inline_data.data))
new_image.save(f"generated_{text_query.replace(' ', '_')}.png")
return new_image
# 实际使用
generate_product_image(
"European male model wearing suit with gold watch",
style_reference="luxury_fashion"
)
这套流程的妙处在于:
- 自动匹配风格:从历史素材找参考,保证视觉一致性
- 批量处理:写个循环,一晚上能生成上千张产品图
- 精准控制:通过调整prompt和参考图,精确控制输出效果
实际应用场景和效果展示
电商换装场景
一家服装品牌,原本每个季度要拍摄500套新品。现在只需拍摄50套基础款,剩下的全靠AI生成。
# 批量换装示例
base_models = ["model_001.jpg", "model_002.jpg"]
clothing_items = search_by_text("summer dress collection", top_k=50)
for model in base_models:
for item in clothing_items:
generate_outfit_combination(model, item)
游戏道具定制
某款卡牌游戏,玩家可以自定义角色装备。系统从10万个道具素材中实时检索,然后生成独一无二的角色形象。
玩家描述:"戴着火焰皇冠的精灵弓箭手" 系统操作:
- 检索"火焰皇冠"素材
- 检索"精灵弓箭手"基础形象
- AI融合生成最终角色
产品展示自动化
一个3C品牌,新品发布需要大量场景图。以前要搭建实景、请摄影师。现在:
products = ["smartphone_x1.jpg", "earbuds_pro.jpg", "smartwatch_v2.jpg"]
scenes = ["modern office", "outdoor adventure", "home living room"]
for product in products:
for scene in scenes:
prompt = f"Place {product} in {scene} setting"
generate_scene_image(prompt, product)
一天生成1000张场景图。每张成本不到1元。
总结
向量化技术还在快速进化。Google的Gemini已经原生支持多模态。Meta的ImageBind能处理6种模态。但不管技术怎么变,核心逻辑不变:把非结构化数据变成向量,用向量相似度做检索。
本文转载自AI 博物院 作者:longyunfeigu
