前言：我嘗試的理由

2023年成為大量進修網路直播課程的一年，然而，最大的困擾在於這些課程「缺乏字幕」，而對於聽障人士來說，字幕是最重要的資訊輔助工具。

過去，我習慣使用微軟Office365付費版的「聽寫」功能，以即時生成的逐字稿來進行學習。然而，事後回顧時往往難以找到對應的時間軸，帶來種種不便。因此，我決定嘗試一些方法，以期能夠優化我的學習體驗。

就目前的結果而言，大部分課程的回放影片幾乎都超過兩小時以上，要達到理想的有字幕影片仍有一段距離。因此，我只能回到最初的方法。然而，就目前的情況來看，只要影片不太長，仍能對我的學習起到一定的幫助。

總之，我在此記錄我目前已嘗試過的方法，希望能夠為那些有需要的人提供一些幫助。

一、微軟Microsoft Office365（網頁版／付費）

▶ Microsoft Office365 線上網頁版：https://www.office.com/

推薦度：★★★★★
優　點：準確率極高，即時同步速度快，支援多語言，有Mobile版，付費享有1TB雲端空間。
缺　點：須付費、無法自動轉換數字和英文、無法同時處理其他電腦工作，切換就會中斷須重新操作。

目前最推薦、常用的逐字稿APP，中文準確率最高，是我遠距直播上課、無字幕影片的必備工具。

只要網路訊號良好，轉譯速度佳，辨識率大致上沒問題，但無法同時顯示中英文，數字也不會自動轉換為阿拉伯數字而是中文，這在閱讀上可能會有些困難。

☆ 如何錄製電腦內部播放的聲音，進行聽寫？

無須安裝第三方程式，請按照此影片的《立體聲混音》教學來處理：

※要注意的是，有些舊型主機板不支援Win10的音效驅動程式，容易碰到「找不到立體聲混音」的狀況，這時需另行安裝第三方的虛擬音效程式，如：《Virtual Audio Cable》

此外，還可以將音檔上傳到Word中使用「謄寫」功能，它能區分演講者和時間軸、產生SRT檔案，同時將音檔和謄寫稿保存到雲端OneDrive。必須注意的是，每個月有時數上限（300分鐘/月），超過後無法繼續謄寫。

二、Google Doc（免費）

▶ Google Doc 網頁版：https://docs.google.com/document/

推薦度：★★★★☆
優點：免費，即時同步速度快，有Mobile版。
缺點：無標點符號（需使用Edge瀏覽器開啟），無法同時處理其他電腦工作，準確率稍低。

Chorme使用者會發現它有很明顯的缺點，就是沒有標點符號，但如果你是用Edge瀏覽器開啟，就會出現標點符號。令人困惑的是，明明Google和微軟是全球資訊科技產業的領導者，但在『聽寫』方面的缺點卻是一致的——『無法同時處理其他工作』。這個缺點，目前只有《Speechnotes》線上語音辨識工具提供理想的示範，希望兩家都能與日俱進。

使用經驗上，整體準確率比Word略差兩成，可Google Doc仍然是一個非常實用又免費的工具，特別是對於需要即時逐字稿的人、不想花太多錢的人們。

三、AI科技轉SRT上字幕（pyTranscriber、剪映）

▶ 剪映－PC版下載：https://www.capcut.cn/

推薦度：★★★☆☆
優　點：免費，可另存嵌入字幕的影片，隨地自用複習，無須翻逐字稿或重複轉譯。
缺　點：需要安裝多件程式，製作步驟略繁瑣且花時間。

剪映（Capcut）有懶人上字幕的福音功能：「AI自動辨識字幕」，能大幅節省手動逐字上字幕的時間，只需稍作檢查和修改即可，非常方便。作為一個經常聽不懂自己在說什麼的人，我曾成功地使用這款APP做出有字幕的短影片，讓我感到非常有成就感。

只是，這款工具不適用於聽障人士克服無字幕學習的需求，特別是長達兩小時多以上的影片。

我親自測試過，將一部兩小時長的課程影片進行自動辨識字幕，結果它只能辨識一小時以內的片段，這意味著你必須先把影片分割數段，再分別進行語音辨識，每次等待的時間累加是非常可觀的，而且處理速度會變得更慢。

總結來說，《剪映》的主要定位是影音的生產力，無論長影音、短影音都非常適合使用，來提升製作的效率；至於對聽障人士的學習而言，只要課程影片在一小時以內，這款工具也仍然可以做為很好的第二選擇。

另一個方法是，「先產出SRT逐字稿檔案，在剪映裡為課程影片匯入SRT檔」便會自動出現字幕，再匯出新的影片即可。如何弄出SRT字幕檔呢？你需要先有產生逐字稿的工具《pyTranscriber》。

★ 如何弄出SRT逐字稿檔案？語音辨識API程式：pyTranscriber

▶ pyTranscriber程式下載：https://github.com/raryelcostasouza/pyTranscriber/releases

《pyTranscriber》的安裝過程很簡單（目前版本是1.9），按照教學操作可產生SRT字幕檔。

接下來，看你要使用影音編輯軟體為影片嵌入字幕，或在多媒體播放器（如：PotPlayer）中匯入字幕都行，取決於你目前的需求為主。

此外，我還發現一款不錯的字幕編輯軟體《Arctime》。相較於《剪映》只能一次逐個處理修改內容，這款軟體能一次修改大量文本並更改字幕樣式，最後輸出有字幕的課程影片，很是方便。

☆ 免費又佛心的字幕編輯軟體：Arctime

▶ Arctime軟體下載：https://arctime.org/download.html

四、Whisper AI 聽寫（免費，無需連線）

▶ WhisperDesktop (GitHub下載)：https://github.com/Const-me/Whisper
▶ ggml模型：https://huggingface.co/ggerganov/whisper.cpp/tree/main

推薦度：（無法測試）
優　點：無須連網，堪稱完全免費，處理速度能省很多時間。
缺　點：需有很好的顯示卡設備運作、出狀況很難立即解惑、經常轉寫失敗。

WhisperDesktop是一款利用最新的語音辨識AI技術（OpenAI Whisper）研發的工具，下載後透過滑鼠點擊，便能使用此技術來辨識語音轉錄、產生SRT字幕檔，同時也支援多國語言轉譯，而且無須連上網路，一切都在電腦內部進行，非常方便。

然而，我親自測試過後，除了第一次有成功轉錄外，其餘幾乎是大量重複字句、辨識進度停在99%便停止、無法正常判斷等等……，幾乎讓我放棄使用這項AI技術來輔助學習。我期望未來能夠有效解決這些品質不穩的問題，否則即使無需連上網路這一點相當誘人，也難以讓我再次考慮使用此工具。

五、ZOOM的CC字幕（免費開放）

推薦度：★★★☆☆
優　點：免費、可儲存時間戳記的逐字稿、無須安裝其他插件，ZOOM上課的福音，可同時進行其他電腦工作。
缺　點：收音仰賴主持人的設備、網路，可能偶有LAG停頓、消失，準確率尚可。

我的網路課程主要使用ZOOM平台進行，起初我以為即時字幕功能只適用於付費帳戶，但後來發現它已經開放給一般免費帳戶使用。這功能可以在直播課程時提供即時字幕，對於身心障礙者的學習非常有幫助。

（待修正）然而，目前中文辨識的準確率比前面提到的其他工具還要差，且即時同步性不如微軟和Google的聽寫功能迅速，有時甚至會斷掉等……總之，這個功能幾乎只能當作裝飾，僅能提供一些微不足道的幫助。此外，ZOOM的回放可以顯示CC字幕，只是這項功能似乎因主持人有無開通而異。

結尾：未來的期許

目前就這五款工具，為了能有效幫助優化學習，我會持續尋找更好的方法。以下是網路上搜到一些待測試的方法，有心得再未來更新：

此外，我誠摯地請求路過的工程師或專攻程式設計的大家們，能給予我一些目前我所嘗試的AI技術失敗的建議，或是推薦一些優秀的AI語音辨識技術，以實現真正多元化的學習。

在此先行致以萬分的感謝。（至2023年11月）

尋找自由的地圖

搜尋此網誌

聽障專屬：克服無字幕的學習障礙，五大工具推薦