微軟開源工具 MarkItDown：教你從安裝到將檔案轉成 Markdown

如果你最近在研究怎麼讓 AI 工具讀懂各種格式的文件，這次要介紹的 MarkItDown 絕對值得你花時間了解。這是一款由微軟開源釋出的 Python 工具，專門把 PDF、Word、Excel、PowerPoint、圖片、音訊、HTML 等各種格式的檔案，統一轉換成 Markdown 格式，方便直接餵給大型語言模型（LLM）使用。根據官方 GitHub 頁面的介紹，MarkItDown 目前在 GitHub 上已累積超過 91,000 顆星，是 AI 開發者圈子裡相當受矚目的實用工具。

MarkItDown 是什麼？為什麼微軟要做這個工具？

實際上，MarkItDown 並不是從零開始的副業專案，而是誕生於微軟研究院（Microsoft Research）內部，最初是為了支援 AutoGen 這個多智能體框架的開發需求。當時團隊需要讓 AI 代理能夠在解題過程中讀取各種文件格式，才催生了這個統一轉換的輕量工具。對開發者來說，這背後代表的是一個有微軟團隊長期維護、有真實需求驅動的開源專案，而不只是一個一時興起的實驗性工具。

根據官網的介紹，MarkItDown 的設計重點在於「保留文件結構」，包含標題階層、清單、表格、連結等，讓 LLM 能夠更準確地理解文件內容。這和一般單純提取純文字的工具不同，MarkItDown 轉出來的 Markdown 對 AI 來說更容易「看懂」，也更節省 Token 用量。

§相關文章，還可以參閱：

支援哪些格式？幾乎涵蓋你日常會用到的所有檔案

這款工具支援的格式範圍相當廣，基本上涵蓋了工作與開發場景中最常見的檔案類型。Office 文件方面支援 Word（.docx）、PowerPoint（.pptx）、Excel（.xlsx、.xls）；文件類型支援 PDF 及 EPUB；網頁內容支援 HTML、RSS 以及 YouTube 影片連結；媒體檔案方面可以處理圖片（含 EXIF 資訊及 OCR）和音訊（語音轉文字）；此外還支援 CSV、JSON、XML 以及 ZIP 壓縮包。對需要整合多種來源資料的開發者或 AI 應用來說，這個格式覆蓋率相當實用。

值得一提的是，圖片和音訊的處理需要搭配 LLM（如 GPT-4o）才能完整發揮功能。圖片部分會透過語言模型生成描述性說明，音訊部分則走語音辨識流程轉成文字。對使用者而言，這代表如果你只需要處理文件類格式，不一定需要設定 API 金鑰；但要處理圖片或音訊，就需要額外準備 OpenAI 或相容的 LLM 服務。

安裝方式：只需要一行指令

安裝 MarkItDown 非常直覺，環境需求是 Python 3.10 以上版本。建議先建立虛擬環境（virtual environment）避免套件衝突，再執行安裝。以下是完整的安裝流程：

步驟一：建立並啟動虛擬環境

python -m venv venv

Windows 使用者執行：venv\Scripts\activate

Mac／Linux 使用者執行：source venv/bin/activate

步驟二：安裝 MarkItDown（含所有格式支援）

pip install 'markitdown[all]'

這個 [all] 參數會一次安裝所有選用套件，讓所有格式都能正常轉換，是最省事的做法。如果你只需要特定格式的支援，也可以選擇性安裝，例如 pip install 'markitdown[pdf,docx,pptx]'，這樣可以減少不必要的依賴套件。

步驟三：確認安裝成功

在終端機輸入 markitdown --version，如果正確顯示版本號碼，就代表安裝完成。

如何使用：命令列與 Python 程式碼兩種方式

MarkItDown 提供兩種使用方式，分別是命令列（CLI）和 Python 程式碼，可以依使用場景靈活選擇。命令列適合一次性的快速轉換；Python 程式碼則適合整合進自動化工作流程或 AI 應用中。

命令列用法（CLI）

直接在終端機輸入以下指令，即可將檔案轉換並輸出成 Markdown 文字檔：

markitdown 你的檔案.pdf -o output.md

Python 程式碼用法

只需 4 行程式碼就能完成轉換，相當簡潔：

 from markitdown import MarkItDown
 md = MarkItDown()
 result = md.convert("test.xlsx")
 print(result.text_content)

對使用者而言，這種一致的介面設計讓你不需要針對不同格式寫不同的解析邏輯，一個 convert() 方法就能處理所有支援的格式，大幅降低整合成本。

進階功能：圖片 OCR 與 AI 描述生成

這次 MarkItDown 在圖片處理上的設計比較特別，它不是內建 OCR 引擎，而是透過搭配語言模型來生成圖片的描述內容。你只需要傳入 OpenAI 的 client 物件和模型名稱，MarkItDown 就會自動用 LLM 分析圖片並輸出 Markdown 格式的說明文字。以下是範例：

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI(api_key="你的金鑰")
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("圖片.png")
print(result.text_content)

另外，如果你想讓 PDF 中嵌入的圖片也能被 OCR 識別，可以安裝官方的 markitdown-ocr 外掛套件，這個外掛同樣支援 DOCX、PPTX、XLSX 中的嵌入圖片，算是滿實用的補充功能。

MCP Server 整合：讓 Claude Desktop 直接使用 MarkItDown

根據官網的介紹，MarkItDown 這次也推出了 MCP（Model Context Protocol）伺服器版本，讓你可以把它整合進 Claude Desktop 或其他支援 MCP 的 AI 應用中，讓 AI 助理直接呼叫 MarkItDown 來轉換本機或網路上的任何文件。安裝方式如下：

pip install markitdown-mcp

啟動 MCP 伺服器後，只需在 Claude Desktop 的設定檔（claude_desktop_config.json）中加入對應的 Docker 或本機設定，AI 就能隨時透過 convert_to_markdown(uri) 這個工具讀取並轉換任意格式的文件。對使用者而言，這意味著你不需要手動預處理文件，直接讓 AI 代你完成這步驟，工作流程會更加流暢。

誰適合用 MarkItDown？

這款工具最直接的受益族群是正在開發 RAG（Retrieval-Augmented Generation）應用的工程師，他們需要把各種格式的知識庫文件統一轉換成 LLM 可讀的格式。此外，需要自動化處理大量文件的資料分析師、想把現有文件轉成 AI 友善格式的企業內部開發團隊，以及研究如何優化 AI 工作流程的技術人員，都很適合把 MarkItDown 納入工具箱。

對不寫程式的使用者來說，MCP 整合的出現讓門檻降低了不少，透過 Claude Desktop 的介面就能間接使用這個工具的轉換功能，不一定要懂 Python 才能受益。實際上，只要你的日常工作涉及大量格式混雜的文件，這款工具都能幫你省下不少整理時間。

小結：MarkItDown 的優缺點整理

整體來看，MarkItDown 的優點非常明顯：安裝簡單、格式支援廣、程式碼介面乾淨、有微軟持續維護、外掛架構可擴充，而且完全免費開源。如果你的使用場景單純是文件格式轉換，這幾乎是目前市面上最省事的選擇之一。不過要留意的是，PDF 的轉換不含 OCR（需另裝外掛），圖片和音訊的處理需要搭配外部 LLM API，而且 PDF 轉出的文字格式相對較平，不像 Office 文件那樣保留完整的標題層級。

這款工具有沒有興趣試試？你可以直接前往 MarkItDown 官方 GitHub 頁面查看最新文件與範例，裡面也有完整的外掛列表和進階使用說明。