快速上手

示例

首先,尝试 MLC LLM 对 int4 量化的 Llama3 8B 的支持。建议至少有 6GB 的可用 VRAM 来运行它。

安装 MLC LLMMLC LLM 可以通过 pip 安装。建议始终在隔离的 conda 虚拟环境中安装。

在 Python 中运行聊天补全。 以下 Python 脚本展示了 MLC LLM 的 Python API:

from mlc_llm import MLCEngine

# Create engine
model = "HF://mlc-ai/Llama-3-8B-Instruct-q4f16_1-MLC"
engine = MLCEngine(model)

# Run chat completion in OpenAI API.
for response in engine.chat.completions.create(
    messages=[{"role": "user", "content": "What is the meaning of life?"}],
    model=model,
    stream=True,
):
    for choice in response.choices:
        print(choice.delta.content, end="", flush=True)
print("\n")

engine.terminate()

文档和教程。 Python API 参考及其教程 可在线获取

https://raw.githubusercontent.com/mlc-ai/web-data/main/images/mlc-llm/tutorials/python-engine-api.jpg

MLC LLM Python API

下一步做什么