使用方法

注册与账号初始化

要使用无问芯穹平台,首先访问官网主页,点击右上角的“注册”按钮。支持邮箱注册与手机号注册两种方式,建议使用企业邮箱以便后续团队协作。填写基本信息后,系统会发送验证链接或验证码。完成验证后登录控制台,首次登录会引导你创建组织或加入已有组织。组织是资源管理的基本单元,所有项目、模型和 API Key 都隶属于某个组织。建议立即完善组织资料,包括名称、行业和用途描述,这有助于平台后续推荐匹配的模型套餐。

创建项目并配置运行环境

登录控制台后,左侧导航栏选择“项目”,点击“新建项目”。输入项目名称和简要描述,注意项目名称一旦创建不可修改。下一步是选择计算环境:平台提供共享集群与专属集群两种选项。共享集群按实际使用时长计费,适合原型验证;专属集群需预先购买资源包,适合生产环境。根据模型规模选择 GPU 类型,目前支持 A100、H800 等主流卡型。环境配置完成后,系统会自动分配一个默认存储卷,用于存放数据集和模型权重。建议在此步骤同时上传训练数据或预训练模型,可直接通过网页端拖拽上传,或使用命令行工具 s5cmd 同步。

模型选择与部署

无问芯穹平台集成数百个开源模型以及自研的“InfiniLM”系列。在“模型广场”中可以按类型(文本生成、图像生成、多模态)、参数量、推理速度等维度筛选。选定模型后,点击“部署”进入配置页面。关键参数包括:最大并发数、推理超时时间、预热实例数。如果对延迟敏感,建议开启“自动扩缩容”,平台会根据请求量动态伸缩推理实例。部署完成后,控制台会生成一个唯一的访问端点,形如 https://api.infini-ai.com/v1/models/xxxxx。同时自动创建一个默认的 API Key,该 Key 仅在创建时显示一次,务必复制保存。

API 调用与 SDK 集成

无问芯穹兼容 OpenAI 的 API 格式,因此可以直接使用 OpenAI 的 Python SDK 或 cURL 调用。以 Python 为例,安装 openai 库后,设置 api_base 为平台提供的端点 https://api.infini-ai.com/v1api_key 为刚才保存的 Key。官方推荐使用流式(stream)模式获取实时响应,特别适合对话应用。示例代码片段如下:

from openai import OpenAI
client = OpenAI(
    base_url="https://api.infini-ai.com/v1",
    api_key="your_key_here"
)
response = client.chat.completions.create(
    model="infini-lm-7b",
    messages=[{"role": "user", "content": "你好"}],
    stream=True
)
for chunk in response:
    print(chunk.choices[0].delta.content, end="")

对于非 OpenAI 兼容的场景,平台也提供原生 RESTful 接口,文档在控制台“开发者”页面可下载。注意所有 API 调用默认按 token 计费,可在“账单”模块实时查看消费明细。

监控与日志查看

每个部署的模型都自带监控面板,展示吞吐量、平均延迟、错误率、每分钟请求数等核心指标。如果发现延迟异常,可以点击“日志”标签查看每条请求的完整链路耗时,包括预处理、推理、后处理三阶段的耗时分布。日志支持按时间范围、用户 ID、响应状态码过滤。平台还提供告警规则配置,例如当错误率连续五分钟超过 5% 时通过邮件或 Webhook 通知。建议在生产环境中至少配置两条告警:一条针对高延迟(> 3s),一条针对高错误率。

模型微调(Fine-tuning)入口

若基础模型无法满足业务需求,无问芯穹提供零代码微调功能。在模型详情页点击“微调”,上传训练数据集(支持 JSONL 格式,每行为一个对话样本),选择微调方法(LoRA 或全参数微调),设置 epoch 与学习率。平台会自动分配训练资源并显示预估费用。训练完成后,模型会自动保存到“我的模型”中,可一键部署为独立端点。微调后的模型推理价格与原模型相同,不额外加价。注意微调期间会占用训练集群资源,建议使用共享集群的低优先级任务以降低成本。

成本控制与资源优化

在控制台“资源管理”中,可以查看当前所有在线模型的 GPU 使用率和空闲实例数量。对于长时间无请求的模型,建议手动缩容至 0 实例,或设置空闲自动缩容策略(例如空闲 10 分钟后自动关闭)。平台支持预算告警,可设定月度预算上限,当消费达到 80% 时触发通知。另外,购买预付费资源包可享受 7 折优惠,适合用量稳定的场景。所有消费记录均可导出 CSV 报表,用于内部成本分摊。

常见问题处理

若调用 API 返回 401 错误,请检查 API Key 是否过期或在设置中重新生成。若返回 429 错误,说明请求超过速率限制,可在控制台提升配额或降低并发。模型首次部署可能需要 3-5 分钟加载权重,期间返回 503 属于正常现象。对于中文输入乱码问题,请确保请求中使用 UTF-8 编码,且设置 Content-Type: application/json; charset=utf-8。更详细的故障排除步骤在官方文档“常见错误码”章节。