大多数 LLM 都比你的问题更大。用自然语言,精准构建你需要的模型。
保留 ≥99% 准确率缩小 8–15×可在端侧运行
开始使用Pipeline assistant
Tell me what you want to compress.
Advanced form
Pipeline preview
Base model
Dataset
Compression methods
传统方式
- 每个请求 → 一个庞大模型。
- 每个 token → 一笔账单。
- 每个回答 → 中规中矩。
新方式
- 描述你的功能。
- 获得一个小而专的模型。
- 更便宜、更快、更准确地运行。
为你的具体任务训练的小模型
可以超越更大的模型,
因为它只学习真正重要的内容。
实际效果是这样的。
一个例子:自动回复客服工单的 SaaS。
之前:GPT-5 API
- 每 100 万输出 tokens 约 $10
- 一个通用模型处理一切
- 不会随时间改进
- 你的工单在训练 OpenAI 的模型,而不是你的
之后:用你的工单微调的 1B 模型
- 在 $0.40/小时的 GPU 上,每 100 万 tokens 约 $0.50
- 用你真实的对话训练
- 在你的领域保持敏锐
- 归你所有。自托管。无供应商锁定。
使用你自己的数据,或让 AI 为你找到一个公开数据集。
成本估算:GPT-5 API 公开价格;自托管 1B 模型在单 GPU 上以典型吞吐量运行。实际数字取决于你的流量。
底层原理。
真实的 ML 技术。只是你不需要懂它们。
知识蒸馏
用大教师模型的输出训练小学生模型。保留知识,缩小体积。
量化
把权重从 FP16 降到 INT4/INT8。缩小 4–8×。可在普通硬件上运行。
剪枝
去掉无关紧要的权重。推理更快,精度不变。
LoRA
训练一个轻量适配器,而不是整个模型。训练便宜,切换方便。
简单透明的定价
购买代币,运行压缩任务。1个代币 = 1小时计算时间。
1代币 = 1小时压缩 · 基础价格 $7/代币
Builder
8折优惠
$96.60
$6.44 / 代币
15代币
H100-1-80G
适合个人开发者和小规模模型实验。
Compression methods
Knowledge DistillationCoT DistillationGPTQPruningLoRA
- 15个压缩代币
- 所有压缩类型
- HuggingFace集成
最受欢迎
Studio
85折优惠
$238
$5.95 / 代币
40代币
H100-1-80G
适合定期运行生产压缩流程的团队。
Compression methods
Knowledge DistillationCoT DistillationGPTQPruningLoRA
- 40个压缩代币
- 所有压缩类型
- HuggingFace集成
- 优先支持
Scale
78折优惠
$546
$5.46 / 代币
100代币
H100-1-80G
适合企业和研究团队的大规模压缩需求。
Compression methods
Knowledge DistillationCoT DistillationGPTQPruningLoRA
- 100个压缩代币
- 所有压缩类型
- HuggingFace集成
- 优先支持
- 高级基准测试
代币永不过期 · 任务失败全额退还
Incoming
30秒创造价值
安装、压缩、部署。就这么简单。
1
安装SDK2
初始化客户端3
启动压缩任务4
下载结果main.py
1from condense import Condense
2
3client = Condense(api_key="...")
4
5# Start compression job
6job = client.compress(
7 model="meta-llama/Llama-3-8b",
8 target_size="800M",
9 strategy="distillation"
10)
11
12# Download result
13job.wait_until_done()
14job.download("./model")
保持更新。
加入社区。
获取有关模型压缩研究和功能的最新更新。
每周研究摘要
产品更新
社区访问