Formula Universe
AI Agent2026-07-02

OpenMontage——短影音界的開闊巨人:一套讓AI像劇組一樣工作的開源系統

拆解OpenMontage如何調度一整批開源工具完成短影音生產、我們的實測數據與真實限制,並提供導入SOP與成本評估。

AI Agent

📌 說明:本文所列時間、容量、檔案大小等數字,均為企業內部實際操作一次完整流程所得的真實測試結果,非估算亦非第三方轉述,可依相同步驟重新驗證。

Open這個字,在這裡不只是「開源」這麼簡單。它真正的意思,是「廣納百川」——把市面上一批各自獨立的開源工具,全部收進自己的調度範圍裡呼叫使用。Montage這個字,聽起來也很接近Monster,因為它調度的工具數量與能耐,確實已經到了近乎巨獸等級的規模。這就是「開闊的巨人」這個稱呼的由來。多數人做短影音的方式,是把每一支影片當成一次性的剪輯專案,每天從空白時間軸重新開始,寫腳本、拆分鏡、找素材、排字幕、調動畫、導出多種尺寸、抓錯字、修時間軸,日復一日重複同樣的低價值勞動。當創作者還在手動排這些步驟時,已經有人把整條生產線寫成了可重複執行的軟體專案。

一、為什麼傳統單人短影音生產正在失效

傳統的短影音生產模式,建立在「每支影片都是獨立專案」這個假設之上。這個假設在內容數量少、更新頻率低的時候還撐得住,但放到日更或高頻更新的節奏下就會全面崩解。第一,重複性勞動占據了絕大多數時間,寫腳本、排版、調字幕這些步驟每天都要重來一次,創作者真正花在「內容判斷」上的時間反而被壓縮到最少。第二,人力操作的速度天花板明確,一個人一天能剪出的成品數量有其上限,這個上限決定了整個帳號的成長速度。第三,品質一致性難以維持,越到後期越容易因為疲勞而在字幕排版、封面風格上出現前後不一致的狀況,稀釋品牌辨識度。

除了創作者端的三個結構性原因之外,另一個常被忽略的因素是「工具鏈本身的破碎化」。剪輯、配音、找素材、抓封面往往分散在四五個不同軟體之間,光是在軟體之間搬運檔案就消耗了大量時間。這也是為什麼把整條生產線改寫成單一可執行流程,會比單純換一套更快的剪輯軟體更能解決根本問題。

二、OpenMontage的核心運作原理

OpenMontage的核心,並不是一個單一的影片生成模型,而是一層「編排邏輯」,指揮一批既有的開源與免費工具,依照固定順序完成研究、寫腳本、找素材、剪輯、稽核、渲染六個階段。使用者不需要開啟任何剪輯軟體,只需要透過Claude Code、Codex或其他能讀寫檔案與執行指令的程式代理,用白話下達需求即可。

它的定位類似一個虛擬劇組:研究員負責查資料、編劇負責寫腳本、場記負責規劃分鏡、剪輯師負責組裝素材、品管負責檢查成品。差別在於這些角色全部由同一個程式代理依序扮演,代理本身不生成任何畫面內容,真正產生畫面與聲音的是底層被排程的開源工具。這種「讓AI代理調度一整批既有工具」的架構,近期在開源社群裡並非單一個案,而是一種正在被反覆驗證的設計思路——與其打造一個包山包海的單一巨型工具,不如把既有的成熟工具串接起來,讓代理負責決策與排程,各自發揮專長。

三、系統架構示意

┌──────────┐    ┌──────────┐    ┌──────────┐
│  研究階段  │ → │  提案階段  │ → │  腳本階段  │
└──────────┘    └──────────┘    └──────────┘
                                       │
      ┌────────────────────────────────┘
      ▼
┌──────────┐    ┌──────────┐    ┌──────────┐
│場景規劃階段│ → │  素材階段  │ → │  剪輯階段  │
└──────────┘    └──────────┘    └──────────┘
                                       │
                                       ▼
                                 ┌──────────┐
                                 │  合成階段  │
                                 └──────────┘

研究階段負責查證主題背景,產出附上來源網址的研究簡報,禁止杜撰任何數字,格式不齊全會被系統自動判定不合格並強制重做。提案階段依研究結果提出幾個切入角度,規則明確要求必須停下等待人工核准才能動工,不能自作主張直接產出正式內容。素材與合成階段內建畫面截圖比對與音量檢測,作為產出後的自我審查機制,不是產出就直接結束流程。

四、實作案例:我們的完整實測情境

與多數評測文章不同,這裡呈現的不是假設性情境,而是企業實際操作一次的真實紀錄。環境安裝(Python環境、Node點js依賴、本地語音引擎、影音處理工具)耗時約四分鐘,占用磁碟空間約八百二十五MB。從下達「直接產出」指令到拿到成品,耗時四十二分鐘。若把安裝程式代理本身、處理系統環境變數設定等前置準備一併算入,完整從零到出片的總時間落在兩小時上下。

成品規格為一千零八十乘一千九百二十像素直式、三十幀、六十一秒、十五點六MB、H點二六四加AAC音軌,全程未使用任何付費API金鑰。實測中最具代表性的環節,是代理遇到系統權限不足導致安裝失敗時,沒有停下等待人工處理,而是自行改用免安裝的可攜版工具繞過限制,並清楚說明這是標準解法而非臨時繞過。類似的自我修復行為在同一次實測中出現超過三次,涵蓋權限問題、字元編碼衝突、檔案路徑錯誤。

五、Prompt範例:啟動OpenMontage生產流程

以下是企業實測中實際使用、並驗證有效的啟動提示詞,可直接替換主題套用:

請幫我照這個專案的README,用零金鑰模式把環境裝起來,
不要用任何需要付費API金鑰的功能。
裝好之後,幫我做一支六十秒的直式短影音(一千零八十乘一千九百二十),
主題是「在此處填入你的主題」,用零金鑰的方式(本地語音引擎、
本地素材),不要虛構任何統計數字,內容就是概念性的說明就好。
每一步遇到問題,直接告訴我卡在哪,不要自己想辦法繞過去,
讓我知道發生了什麼事。

若目標是快速驗證流程本身而非追求內容深度,可在代理完成前期研究後追加以下指令收斂進度:

效率優先,不用追求內容深度。從既有研究角度裡挑最簡單的,
直接寫最精簡的腳本,進入渲染階段。請以最快能出片為優先。

六、導入SOP(六階段)

第一階段為環境確認,確認電腦已安裝Node點js,並透過官方指令安裝Claude Code或其他相容程式代理,這一步純屬電腦環境設定,跟內容創作無關。第二階段為帳號登入,務必選擇訂閱帳號而非按量計費的金鑰模式,避免費用結構失控。第三階段為專案開啟,下載OpenMontage專案並在程式代理內開啟該資料夾,確認代理啟動時所在的資料夾正確。第四階段為需求下達,套用上方提示詞模板,觀察代理自主處理環境安裝的過程,記錄任何需要人工介入的節點。第五階段為人工複審,語音與視覺細節務必親自檢查,代理提供的音量數值與截圖比對只能證明檔案沒有損毀,不能證明品質達到可對外發布的水準。第六階段為商業化收斂,若目標是穩定產出,應改為人工先備妥腳本與視覺規範,代理只負責執行,而非放任其自主創作。

實務上,導入過程最常見的落差並非技術執行不順,而是創意判斷層面的負擔。整次實測中,代理需要人工確認的節點超過二十次,這代表即使技術執行完全順暢,非技術背景的使用者仍會在決策密度上感到負擔,是評估投入前應有的心理準備。

七、成本與效益分析

項目情境A:人工手動剪輯情境B:OpenMontage生產線差異說明
環境準備成本免安裝,但需具備剪輯軟體操作能力需一次性安裝環境,約四分鐘、八百二十五MB一次性投入,非每次重複
單支影片產出時間因人而異,通常以小時計實測四十二分鐘(不含前置環境安裝)反覆性勞動大幅壓縮
語音品質依創作者自身錄音水準零金鑰模式下中文語音機械化,需另尋方案零成本模式的明確限制
額外訂閱成本需程式代理訂閱(如Claude Pro)屬固定月費,非按次計費

上表數字皆為企業實測結果與已知訂閱費率結構,實際導入前建議依自身內容產量與訂閱方案重新試算。

八、風險與治理:AI自主創作不能取代的部分

零金鑰模式下的中文語音合成,實測發音明顯機械化,與目前主流商用語音水平有落差,且沒有針對台灣腔調的模型可選,最高音質等級也低於英文語音。因應方式優先考慮拿掉旁白改用純文字卡,這是成本最低、對流程影響最小的做法;其次可考慮真人錄音置入既有音軌插槽,或改用付費語音服務換取更接近真人水準的品質。

部分視覺元件的顏色參數在實測中未完全依照設定值呈現,這類問題技術上都能修,但需要有人具備讀懂程式碼的能力才能排查,不是單純換個提示詞就能解決。更根本的風險在於創意判斷層面——主題定位、敘事角度選擇、視覺細節的最終把關,仍然是人無法委託出去的工作。放手讓代理自主研究、自主選擇敘事角度,適合用來探索這套系統的能力邊界;但要產出穩定、可重複的商業化內容,主導權必須收回到人的手上,不能完全交給代理自主創作。

❓ 讀完後,先問自己這幾個問題

  1. 你要的是「驗證這條路走不走得通」,還是已經準備好要拿它接單商業化? 引導思路:探索式測試跟商業化產出,對「AI能不能自主創作」這件事的容忍度完全不同,先想清楚自己現在站在哪一邊。
  2. 你的內容領域,真的能接受零金鑰模式下機械化的語音,還是非得要真人水準的旁白不可? 引導思路:純文字卡、真人錄音、付費語音服務三條路成本結構不同,先確認你的內容形式能不能容忍語音妥協。
  3. 遇到二十幾次「要不要放行」的確認畫面時,你有把握每一次都看得懂在問什麼嗎? 引導思路:技術性步驟可以放心通過,但涉及檔案修改或系統設定的步驟需要多看一眼,先評估自己是不是需要找人陪同操作。

結語與下一步

OpenMontage證明了一件事:把影片當軟體專案維護這個思路是可行的,程式代理確實能承擔多數技術性的重複勞動,包括環境安裝、除錯、渲染這類過去最耗人力的環節。但它同時也證明了另一件事:主題判斷、敘事角度、視覺細節把關,仍然是人無法委託出去的工作。下一步將改為人工先備妥完整腳本與視覺規範,代理只負責執行,用以檢驗這條路徑能不能真正撐起商業化產出的品質門檻。若想進一步了解具體的落地方案與工具替代選項,可延伸閱讀對應的創業藍圖。

OpenMontageAI代理程式代理Claude Code短影音自動化開源工具鏈

AI 知識庫下一題

把概念接到商業應用與風險判斷

知識節點不是終點。繼續追蹤同 topic 的藍圖與情報,確認這個概念何時能變成工具、流程或商業方案。

回到知識庫topicId: T-AI-KB-0202status: active

同主題相關內容

加入電子報

每月一封,把新工具、公式專欄與決策路徑直接寄到您的信箱。隨時可取消訂閱。

把 Formula Universe 加入書籤

下次需要計算時直接打開,不用再搜尋。按 Ctrl/Cmd + D 即可加入瀏覽器書籤。

Ctrl+D(macOS 用 ⌘ + D)