前言:我嘗試的理由
2023年成為大量進修網路直播課程的一年,然而,最大的困擾在於這些課程「缺乏字幕」,而對於聽障人士來說,字幕是最重要的資訊輔助工具。
過去,我習慣使用微軟Office365付費版的「聽寫」功能,以即時生成的逐字稿來進行學習。然而,事後回顧時往往難以找到對應的時間軸,帶來種種不便。因此,我決定嘗試一些方法,以期能夠優化我的學習體驗。
就目前的結果而言,大部分課程的回放影片幾乎都超過兩小時以上,要達到理想的有字幕影片仍有一段距離。因此,我只能回到最初的方法。然而,就目前的情況來看,只要影片不太長,仍能對我的學習起到一定的幫助。
總之,我在此記錄我目前已嘗試過的方法,希望能夠為那些有需要的人提供一些幫助。
一、微軟Microsoft Office365(網頁版/付費)
▶ Microsoft Office365 線上網頁版:https://www.office.com/
- 推薦度:★★★★★
- 優 點:準確率極高,即時同步速度快,支援多語言,有Mobile版,付費享有1TB雲端空間。
- 缺 點:須付費、無法自動轉換數字和英文、無法同時處理其他電腦工作,切換就會中斷須重新操作。
目前最推薦、常用的逐字稿APP,中文準確率最高,是我遠距直播上課、無字幕影片的必備工具。
只要網路訊號良好,轉譯速度佳,辨識率大致上沒問題,但無法同時顯示中英文,數字也不會自動轉換為阿拉伯數字而是中文,這在閱讀上可能會有些困難。
☆ 如何錄製電腦內部播放的聲音,進行聽寫?
無須安裝第三方程式,請按照此影片的《立體聲混音》教學來處理:
※要注意的是,有些舊型主機板不支援Win10的音效驅動程式,容易碰到「找不到立體聲混音」的狀況,這時需另行安裝第三方的虛擬音效程式,如:《Virtual Audio Cable》
此外,還可以將音檔上傳到Word中使用「謄寫」功能,它能區分演講者和時間軸、產生SRT檔案,同時將音檔和謄寫稿保存到雲端OneDrive。必須注意的是,每個月有時數上限(300分鐘/月),超過後無法繼續謄寫。
二、Google Doc(免費)
▶ Google Doc 網頁版:https://docs.google.com/document/
- 推薦度:★★★★☆
- 優點:免費,即時同步速度快,有Mobile版。
- 缺點:無標點符號(需使用Edge瀏覽器開啟),無法同時處理其他電腦工作,準確率稍低。
使用經驗上,整體準確率比Word略差兩成,可Google Doc仍然是一個非常實用又免費的工具,特別是對於需要即時逐字稿的人、不想花太多錢的人們。
三、AI科技轉SRT上字幕(pyTranscriber、剪映)
▶ 剪映-PC版下載:https://www.capcut.cn/
- 推薦度:★★★☆☆
- 優 點:免費,可另存嵌入字幕的影片,隨地自用複習,無須翻逐字稿或重複轉譯。
- 缺 點:需要安裝多件程式,製作步驟略繁瑣且花時間。
剪映(Capcut)有懶人上字幕的福音功能:「AI自動辨識字幕」,能大幅節省手動逐字上字幕的時間,只需稍作檢查和修改即可,非常方便。作為一個經常聽不懂自己在說什麼的人,我曾成功地使用這款APP做出有字幕的短影片,讓我感到非常有成就感。
只是,這款工具不適用於聽障人士克服無字幕學習的需求,特別是長達兩小時多以上的影片。
我親自測試過,將一部兩小時長的課程影片進行自動辨識字幕,結果它只能辨識一小時以內的片段,這意味著你必須先把影片分割數段,再分別進行語音辨識,每次等待的時間累加是非常可觀的,而且處理速度會變得更慢。
總結來說,《剪映》的主要定位是影音的生產力,無論長影音、短影音都非常適合使用,來提升製作的效率;至於對聽障人士的學習而言,只要課程影片在一小時以內,這款工具也仍然可以做為很好的第二選擇。
另一個方法是,「先產出SRT逐字稿檔案,在剪映裡為課程影片匯入SRT檔」便會自動出現字幕,再匯出新的影片即可。如何弄出SRT字幕檔呢?你需要先有產生逐字稿的工具《pyTranscriber》。
★ 如何弄出SRT逐字稿檔案?語音辨識API程式:pyTranscriber
▶ pyTranscriber程式下載:https://github.com/raryelcostasouza/pyTranscriber/releases
《pyTranscriber》的安裝過程很簡單(目前版本是1.9),按照教學操作可產生SRT字幕檔。
接下來,看你要使用影音編輯軟體為影片嵌入字幕,或在多媒體播放器(如:PotPlayer)中匯入字幕都行,取決於你目前的需求為主。
此外,我還發現一款不錯的字幕編輯軟體《Arctime》。相較於《剪映》只能一次逐個處理修改內容,這款軟體能一次修改大量文本並更改字幕樣式,最後輸出有字幕的課程影片,很是方便。
☆ 免費又佛心的字幕編輯軟體:Arctime
▶ Arctime軟體下載:https://arctime.org/download.html
四、Whisper AI 聽寫(免費,無需連線)
▶ WhisperDesktop (GitHub下載):https://github.com/Const-me/Whisper
▶ ggml模型:https://huggingface.co/ggerganov/whisper.cpp/tree/main
- 推薦度:(無法測試)
- 優 點:無須連網,堪稱完全免費,處理速度能省很多時間。
- 缺 點:需有很好的顯示卡設備運作、出狀況很難立即解惑、經常轉寫失敗。
WhisperDesktop是一款利用最新的語音辨識AI技術(OpenAI Whisper)研發的工具,下載後透過滑鼠點擊,便能使用此技術來辨識語音轉錄、產生SRT字幕檔,同時也支援多國語言轉譯,而且無須連上網路,一切都在電腦內部進行,非常方便。
然而,我親自測試過後,除了第一次有成功轉錄外,其餘幾乎是大量重複字句、辨識進度停在99%便停止、無法正常判斷等等……,幾乎讓我放棄使用這項AI技術來輔助學習。我期望未來能夠有效解決這些品質不穩的問題,否則即使無需連上網路這一點相當誘人,也難以讓我再次考慮使用此工具。
五、ZOOM的CC字幕(免費開放)
- 推薦度:★★★☆☆
- 優 點:免費、可儲存時間戳記的逐字稿、無須安裝其他插件,ZOOM上課的福音,可同時進行其他電腦工作。
- 缺 點:收音仰賴主持人的設備、網路,可能偶有LAG停頓、消失,準確率尚可。
我的網路課程主要使用ZOOM平台進行,起初我以為即時字幕功能只適用於付費帳戶,但後來發現它已經開放給一般免費帳戶使用。這功能可以在直播課程時提供即時字幕,對於身心障礙者的學習非常有幫助。
(待修正)然而,目前中文辨識的準確率比前面提到的其他工具還要差,且即時同步性不如微軟和Google的聽寫功能迅速,有時甚至會斷掉等……總之,這個功能幾乎只能當作裝飾,僅能提供一些微不足道的幫助。此外,ZOOM的回放可以顯示CC字幕,只是這項功能似乎因主持人有無開通而異。
結尾:未來的期許
目前就這五款工具,為了能有效幫助優化學習,我會持續尋找更好的方法。以下是網路上搜到一些待測試的方法,有心得再未來更新:
此外,我誠摯地請求路過的工程師或專攻程式設計的大家們,能給予我一些目前我所嘗試的AI技術失敗的建議,或是推薦一些優秀的AI語音辨識技術,以實現真正多元化的學習。
在此先行致以萬分的感謝。(至2023年11月)
留言
張貼留言