Condense
中文

大多数 LLM 都比你的问题更大。
用自然语言,精准构建你需要的模型。

保留 ≥99% 准确率缩小 8–15×可在端侧运行
开始使用
传统方式
  • 每个请求 → 一个庞大模型。
  • 每个 token → 一笔账单。
  • 每个回答 → 中规中矩。
新方式
  • 描述你的功能。
  • 获得一个小而专的模型。
  • 更便宜、更快、更准确地运行。

为你的具体任务训练的小模型
可以超越更大的模型,
因为它只学习真正重要的内容。

实际效果是这样的。

一个例子:自动回复客服工单的 SaaS。

之前:GPT-5 API

  • 每 100 万输出 tokens 约 $10
  • 一个通用模型处理一切
  • 不会随时间改进
  • 你的工单在训练 OpenAI 的模型,而不是你的

之后:用你的工单微调的 1B 模型

  • 在 $0.40/小时的 GPU 上,每 100 万 tokens 约 $0.50
  • 用你真实的对话训练
  • 在你的领域保持敏锐
  • 归你所有。自托管。无供应商锁定。

使用你自己的数据,或让 AI 为你找到一个公开数据集。

成本估算:GPT-5 API 公开价格;自托管 1B 模型在单 GPU 上以典型吞吐量运行。实际数字取决于你的流量。

底层原理。

真实的 ML 技术。只是你不需要懂它们。

知识蒸馏

用大教师模型的输出训练小学生模型。保留知识,缩小体积。

量化

把权重从 FP16 降到 INT4/INT8。缩小 4–8×。可在普通硬件上运行。

剪枝

去掉无关紧要的权重。推理更快,精度不变。

LoRA

训练一个轻量适配器,而不是整个模型。训练便宜,切换方便。

简单透明的定价

购买代币,运行压缩任务。1个代币 = 1小时计算时间。

1代币 = 1小时压缩 · 基础价格 $7/代币

Builder

8折优惠
$96.60
$6.44 / 代币
15代币
H100-1-80G

适合个人开发者和小规模模型实验。

Compression methods

Knowledge DistillationCoT DistillationGPTQPruningLoRA
  • 15个压缩代币
  • 所有压缩类型
  • HuggingFace集成
最受欢迎

Scale

78折优惠
$546
$5.46 / 代币
100代币
H100-1-80G

适合企业和研究团队的大规模压缩需求。

Compression methods

Knowledge DistillationCoT DistillationGPTQPruningLoRA
  • 100个压缩代币
  • 所有压缩类型
  • HuggingFace集成
  • 优先支持
  • 高级基准测试

代币永不过期 · 任务失败全额退还

Incoming

30秒创造价值

安装、压缩、部署。就这么简单。

1
安装SDK
2
初始化客户端
3
启动压缩任务
4
下载结果
main.py
1from condense import Condense
2 
3client = Condense(api_key="...")
4 
5# Start compression job
6job = client.compress(
7 model="meta-llama/Llama-3-8b",
8 target_size="800M",
9 strategy="distillation"
10)
11 
12# Download result
13job.wait_until_done()
14job.download("./model")

保持更新。
加入社区。

获取有关模型压缩研究和功能的最新更新。

每周研究摘要
产品更新
社区访问