使用方法 - 无问芯穹官网

注册与账号初始化

要使用无问芯穹平台，首先访问官网主页，点击右上角的“注册”按钮。支持邮箱注册与手机号注册两种方式，建议使用企业邮箱以便后续团队协作。填写基本信息后，系统会发送验证链接或验证码。完成验证后登录控制台，首次登录会引导你创建组织或加入已有组织。组织是资源管理的基本单元，所有项目、模型和 API Key 都隶属于某个组织。建议立即完善组织资料，包括名称、行业和用途描述，这有助于平台后续推荐匹配的模型套餐。

创建项目并配置运行环境

登录控制台后，左侧导航栏选择“项目”，点击“新建项目”。输入项目名称和简要描述，注意项目名称一旦创建不可修改。下一步是选择计算环境：平台提供共享集群与专属集群两种选项。共享集群按实际使用时长计费，适合原型验证；专属集群需预先购买资源包，适合生产环境。根据模型规模选择 GPU 类型，目前支持 A100、H800 等主流卡型。环境配置完成后，系统会自动分配一个默认存储卷，用于存放数据集和模型权重。建议在此步骤同时上传训练数据或预训练模型，可直接通过网页端拖拽上传，或使用命令行工具 s5cmd 同步。

模型选择与部署

无问芯穹平台集成数百个开源模型以及自研的“InfiniLM”系列。在“模型广场”中可以按类型（文本生成、图像生成、多模态）、参数量、推理速度等维度筛选。选定模型后，点击“部署”进入配置页面。关键参数包括：最大并发数、推理超时时间、预热实例数。如果对延迟敏感，建议开启“自动扩缩容”，平台会根据请求量动态伸缩推理实例。部署完成后，控制台会生成一个唯一的访问端点，形如 https://api.infini-ai.com/v1/models/xxxxx。同时自动创建一个默认的 API Key，该 Key 仅在创建时显示一次，务必复制保存。

API 调用与 SDK 集成

无问芯穹兼容 OpenAI 的 API 格式，因此可以直接使用 OpenAI 的 Python SDK 或 cURL 调用。以 Python 为例，安装 openai 库后，设置 api_base 为平台提供的端点 https://api.infini-ai.com/v1，api_key 为刚才保存的 Key。官方推荐使用流式（stream）模式获取实时响应，特别适合对话应用。示例代码片段如下：

from openai import OpenAI
client = OpenAI(
    base_url="https://api.infini-ai.com/v1",
    api_key="your_key_here"
)
response = client.chat.completions.create(
    model="infini-lm-7b",
    messages=[{"role": "user", "content": "你好"}],
    stream=True
)
for chunk in response:
    print(chunk.choices[0].delta.content, end="")

对于非 OpenAI 兼容的场景，平台也提供原生 RESTful 接口，文档在控制台“开发者”页面可下载。注意所有 API 调用默认按 token 计费，可在“账单”模块实时查看消费明细。

监控与日志查看

每个部署的模型都自带监控面板，展示吞吐量、平均延迟、错误率、每分钟请求数等核心指标。如果发现延迟异常，可以点击“日志”标签查看每条请求的完整链路耗时，包括预处理、推理、后处理三阶段的耗时分布。日志支持按时间范围、用户 ID、响应状态码过滤。平台还提供告警规则配置，例如当错误率连续五分钟超过 5% 时通过邮件或 Webhook 通知。建议在生产环境中至少配置两条告警：一条针对高延迟（> 3s），一条针对高错误率。

模型微调（Fine-tuning）入口

若基础模型无法满足业务需求，无问芯穹提供零代码微调功能。在模型详情页点击“微调”，上传训练数据集（支持 JSONL 格式，每行为一个对话样本），选择微调方法（LoRA 或全参数微调），设置 epoch 与学习率。平台会自动分配训练资源并显示预估费用。训练完成后，模型会自动保存到“我的模型”中，可一键部署为独立端点。微调后的模型推理价格与原模型相同，不额外加价。注意微调期间会占用训练集群资源，建议使用共享集群的低优先级任务以降低成本。

成本控制与资源优化

在控制台“资源管理”中，可以查看当前所有在线模型的 GPU 使用率和空闲实例数量。对于长时间无请求的模型，建议手动缩容至 0 实例，或设置空闲自动缩容策略（例如空闲 10 分钟后自动关闭）。平台支持预算告警，可设定月度预算上限，当消费达到 80% 时触发通知。另外，购买预付费资源包可享受 7 折优惠，适合用量稳定的场景。所有消费记录均可导出 CSV 报表，用于内部成本分摊。

常见问题处理

若调用 API 返回 401 错误，请检查 API Key 是否过期或在设置中重新生成。若返回 429 错误，说明请求超过速率限制，可在控制台提升配额或降低并发。模型首次部署可能需要 3-5 分钟加载权重，期间返回 503 属于正常现象。对于中文输入乱码问题，请确保请求中使用 UTF-8 编码，且设置 Content-Type: application/json; charset=utf-8。更详细的故障排除步骤在官方文档“常见错误码”章节。