大多数 LLM 都比你的问题更大。
用自然语言,精准构建你需要的模型。

保留 ≥99% 准确率缩小 8–15×可在端侧运行

开始使用

Pipeline assistant

Tell me what you want to compress.

Advanced form

Pipeline preview

Base model

Dataset

Compression methods

传统方式

每个请求 → 一个庞大模型。
每个 token → 一笔账单。
每个回答 → 中规中矩。

新方式

描述你的功能。
获得一个小而专的模型。
更便宜、更快、更准确地运行。

为你的具体任务训练的小模型
可以超越更大的模型,
因为它只学习真正重要的内容。

实际效果是这样的。

一个例子:自动回复客服工单的 SaaS。

之前:GPT-5 API

每 100 万输出 tokens 约 $10
一个通用模型处理一切
不会随时间改进
你的工单在训练 OpenAI 的模型,而不是你的

之后:用你的工单微调的 1B 模型

在 $0.40/小时的 GPU 上,每 100 万 tokens 约 $0.50
用你真实的对话训练
在你的领域保持敏锐
归你所有。自托管。无供应商锁定。

使用你自己的数据,或让 AI 为你找到一个公开数据集。

成本估算:GPT-5 API 公开价格;自托管 1B 模型在单 GPU 上以典型吞吐量运行。实际数字取决于你的流量。

底层原理。

真实的 ML 技术。只是你不需要懂它们。

知识蒸馏

用大教师模型的输出训练小学生模型。保留知识,缩小体积。

量化

把权重从 FP16 降到 INT4/INT8。缩小 4–8×。可在普通硬件上运行。

剪枝

去掉无关紧要的权重。推理更快,精度不变。

LoRA

训练一个轻量适配器,而不是整个模型。训练便宜,切换方便。

简单透明的定价

购买代币，运行压缩任务。1个代币 = 1小时计算时间。

1代币 = 1小时压缩 · 基础价格 $7/代币

Builder

8折优惠

$96.60

$6.44 / 代币

15代币

H100-1-80G

适合个人开发者和小规模模型实验。

Compression methods

Knowledge DistillationCoT DistillationGPTQPruningLoRA

15个压缩代币
所有压缩类型
HuggingFace集成

最受欢迎

Studio

85折优惠

$238

$5.95 / 代币

40代币

H100-1-80G

适合定期运行生产压缩流程的团队。

Compression methods

Knowledge DistillationCoT DistillationGPTQPruningLoRA

40个压缩代币
所有压缩类型
HuggingFace集成
优先支持

Scale

78折优惠

$546

$5.46 / 代币

100代币

H100-1-80G

适合企业和研究团队的大规模压缩需求。

Compression methods

Knowledge DistillationCoT DistillationGPTQPruningLoRA

100个压缩代币
所有压缩类型
HuggingFace集成
优先支持
高级基准测试

代币永不过期 · 任务失败全额退还

Incoming

30秒创造价值

安装、压缩、部署。就这么简单。

安装SDK

初始化客户端

启动压缩任务

下载结果

main.py

1from condense import Condense

3client = Condense(api_key="...")

5# Start compression job

6job = client.compress(

7 model="meta-llama/Llama-3-8b",

8 target_size="800M",

9 strategy="distillation"

10)

12# Download result

13job.wait_until_done()

14job.download("./model")

保持更新。
加入社区。

获取有关模型压缩研究和功能的最新更新。

每周研究摘要

产品更新

社区访问

大多数 LLM 都比你的问题更大。用自然语言,精准构建你需要的模型。

实际效果是这样的。

之前:GPT-5 API

之后:用你的工单微调的 1B 模型

底层原理。

知识蒸馏

量化

剪枝

LoRA

简单透明的定价

Builder

Studio

Scale

30秒创造价值

保持更新。加入社区。

大多数 LLM 都比你的问题更大。
用自然语言,精准构建你需要的模型。

保持更新。
加入社区。