回复
Ollama平替!LM Studio本地大模型调用实战
0.前言
可像 Ollama 通过暴露本地端口,实现本地客户端调用。
1.选择模型
在 LM Studio 的 “开发者” 选项卡中选择模型:
2.端口暴露
设置暴露的端口(默认1234):

启用 CORS 后,可对接网页应用或其他客户端工具。
3.启动服务
点击状态选项卡:
控制台会显示运行日志和访问地址:
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] Success! HTTP server listening on port 1234
2025-04-26 20:55:13 [INFO]
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] Supported endpoints:
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> GET http://localhost:1234/v1/models
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> POST http://localhost:1234/v1/chat/completions
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> POST http://localhost:1234/v1/completions
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] -> POST http://localhost:1234/v1/embeddings
2025-04-26 20:55:13 [INFO]
2025-04-26 20:55:13 [INFO]
[LM STUDIO SERVER] Logs are saved into /Users/javaedge/.lmstudio/server-logs
2025-04-26 20:55:13 [INFO]
Server started.4.快速上手
4.1 快速ping
列出已加载并就绪的模型:
curl http://127.0.0.1:1234/v1/models/
这也是验证服务器是否可访问的一种有效方法!
4.2 聊天
这是一个类似调用OpenAI的操作,通过curl工具访问/v1/chat/completion端点:
- 在Mac或Linux系统,可用任意终端运行
- Windows系统用Git Bash
curl http://127.0.0.1:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama-4-maverick-17b-128e-instruct",
"messages": [
{ "role": "system", "content": "Always answer in rhymes." },
{ "role": "user", "content": "Introduce yourself." }
],
"temperature": 0.7,
"max_tokens": -1,
"stream": true
}'该调用是“无状态的”,即服务器不会保留对话历史记录。调用方有责任在每次调用时提供完整的对话历史记录。
流式传输 V.S 累积完整响应
注意"stream": true(流式传输:开启)参数:
-
true(开启)时,LM Studio会在预测出标记(token)的同时将其逐一流式返回 - 如将此参数设置为
false(关闭),在调用返回之前,完整的预测结果会被先累积起来。对于较长的内容生成或者运行速度较慢的模型,这可能需要花费一些时间!
本文转载自JavaEdge,作者:JavaEdge
赞
收藏
回复
相关推荐

















