MarkItDown

目录

MarkItDown#

MarkItDown 是用于将文件和办公文档转换为 Markdown 的 Python 工具。

MarkItDown 是用于将各种文件转换为 Markdown 的工具(例如,用于索引、文本分析等)。它支持:

  • PDF

  • PowerPoint

  • Word

  • Excel

  • 图像(EXIF 元数据和 OCR)

  • 音频(EXIF 元数据和语音转录)

  • HTML

  • 基于文本的格式(CSV、JSON、XML)

  • ZIP 文件(遍历内容)

要安装 MarkItDown,请使用 pip:pip install markitdown。或者,您可以从源代码安装:pip install -e .

使用方法#

命令行

markitdown path-to-file.pdf > document.md

你也可以通过管道传递内容:

cat path-to-file.pdf | markitdown

Python API,在 Python 中的基本用法:

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)

要使用大型语言模型进行图像描述,请提供 llm_clientllm_model

from markitdown import MarkItDown
from openai import OpenAI

client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

Docker

docker build -t markitdown:latest .
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md