聽障專屬:克服無字幕的學習障礙,五大工具推薦


前言:我嘗試的理由

2023年成為大量進修網路直播課程的一年,然而,最大的困擾在於這些課程「缺乏字幕」,而對於聽障人士來說,字幕是最重要的資訊輔助工具。

過去,我習慣使用微軟Office365付費版的「聽寫」功能,以即時生成的逐字稿來進行學習。然而,事後回顧時往往難以找到對應的時間軸,帶來種種不便。因此,我決定嘗試一些方法,以期能夠優化我的學習體驗。

就目前的結果而言,大部分課程的回放影片幾乎都超過兩小時以上,要達到理想的有字幕影片仍有一段距離。因此,我只能回到最初的方法。然而,就目前的情況來看,只要影片不太長,仍能對我的學習起到一定的幫助。

總之,我在此記錄我目前已嘗試過的方法,希望能夠為那些有需要的人提供一些幫助。



一、微軟Microsoft Office365(網頁版/付費)

▶ Microsoft Office365 線上網頁版:https://www.office.com/

  • 推薦度:★★★★★
  • 優 點:準確率極高,即時同步速度快,支援多語言,有Mobile版,付費享有1TB雲端空間。
  • 缺 點:須付費、無法自動轉換數字和英文、無法同時處理其他電腦工作,切換就會中斷須重新操作。

目前最推薦、常用的逐字稿APP,中文準確率最高,是我遠距直播上課、無字幕影片的必備工具。

只要網路訊號良好,轉譯速度佳,辨識率大致上沒問題,但無法同時顯示中英文,數字也不會自動轉換為阿拉伯數字而是中文,這在閱讀上可能會有些困難。


☆ 如何錄製電腦內部播放的聲音,進行聽寫?

無須安裝第三方程式,請按照此影片的《立體聲混音》教學來處理:

※要注意的是,有些舊型主機板不支援Win10的音效驅動程式,容易碰到「找不到立體聲混音」的狀況,這時需另行安裝第三方的虛擬音效程式,如:《Virtual Audio Cable》


此外,還可以將音檔上傳到Word中使用「謄寫」功能,它能區分演講者和時間軸、產生SRT檔案,同時將音檔和謄寫稿保存到雲端OneDrive。必須注意的是,每個月有時數上限(300分鐘/月),超過後無法繼續謄寫。



二、Google Doc(免費)

▶ Google Doc 網頁版:https://docs.google.com/document/

  • 推薦度:★★★★☆
  • 優點:免費,即時同步速度快,有Mobile版。
  • 缺點:無標點符號(需使用Edge瀏覽器開啟),無法同時處理其他電腦工作,準確率稍低。
Chorme使用者會發現它有很明顯的缺點,就是沒有標點符號,但如果你是用Edge瀏覽器開啟,就會出現標點符號。令人困惑的是,明明Google和微軟是全球資訊科技產業的領導者,但在『聽寫』方面的缺點卻是一致的——『無法同時處理其他工作』。這個缺點,目前只有《Speechnotes》線上語音辨識工具提供理想的示範,希望兩家都能與日俱進。
Google 文件語音辨識神技:用「語音轉文字」打逐字稿、做筆記! - 蘋果仁 - 果仁 iPhone/iOS/好物推薦科技媒體
今天要幫大家介紹一個超強大,但很多人都不知道的功能,那就是…「Google 文件」也能使
https://applealmond.com/posts/78904

使用經驗上,整體準確率比Word略差兩成,可Google Doc仍然是一個非常實用又免費的工具,特別是對於需要即時逐字稿的人、不想花太多錢的人們。


三、AI科技轉SRT上字幕(pyTranscriber、剪映)

▶ 剪映-PC版下載:https://www.capcut.cn/

  • 推薦度:★★★☆☆
  • 優 點:免費,可另存嵌入字幕的影片,隨地自用複習,無須翻逐字稿或重複轉譯。
  • 缺 點:需要安裝多件程式,製作步驟略繁瑣且花時間。

剪映(Capcut)有懶人上字幕的福音功能:「AI自動辨識字幕」,能大幅節省手動逐字上字幕的時間,只需稍作檢查和修改即可,非常方便。作為一個經常聽不懂自己在說什麼的人,我曾成功地使用這款APP做出有字幕的短影片,讓我感到非常有成就感。


只是,這款工具不適用於聽障人士克服無字幕學習的需求,特別是長達兩小時多以上的影片。

我親自測試過,將一部兩小時長的課程影片進行自動辨識字幕,結果它只能辨識一小時以內的片段,這意味著你必須先把影片分割數段,再分別進行語音辨識,每次等待的時間累加是非常可觀的,而且處理速度會變得更慢。

總結來說,《剪映》的主要定位是影音的生產力,無論長影音、短影音都非常適合使用,來提升製作的效率;至於對聽障人士的學習而言,只要課程影片在一小時以內,這款工具也仍然可以做為很好的第二選擇。


另一個方法是,「先產出SRT逐字稿檔案,在剪映裡為課程影片匯入SRT檔」便會自動出現字幕,再匯出新的影片即可。如何弄出SRT字幕檔呢?你需要先有產生逐字稿的工具《pyTranscriber》。



★ 如何弄出SRT逐字稿檔案?語音辨識API程式:pyTranscriber

▶ pyTranscriber程式下載:https://github.com/raryelcostasouza/pyTranscriber/releases


《pyTranscriber》的安裝過程很簡單(目前版本是1.9),按照教學操作可產生SRT字幕檔。

接下來,看你要使用影音編輯軟體為影片嵌入字幕,或在多媒體播放器(如:PotPlayer)中匯入字幕都行,取決於你目前的需求為主。

此外,我還發現一款不錯的字幕編輯軟體《Arctime》。相較於《剪映》只能一次逐個處理修改內容,這款軟體能一次修改大量文本並更改字幕樣式,最後輸出有字幕的課程影片,很是方便。

☆ 免費又佛心的字幕編輯軟體:Arctime

▶ Arctime軟體下載:https://arctime.org/download.html





四、Whisper AI 聽寫(免費,無需連線)

▶ WhisperDesktop (GitHub下載):https://github.com/Const-me/Whisper
▶ ggml模型:https://huggingface.co/ggerganov/whisper.cpp/tree/main

  • 推薦度:(無法測試)
  • 優 點:無須連網,堪稱完全免費,處理速度能省很多時間。
  • 缺 點:需有很好的顯示卡設備運作、出狀況很難立即解惑、經常轉寫失敗。

WhisperDesktop是一款利用最新的語音辨識AI技術(OpenAI Whisper)研發的工具,下載後透過滑鼠點擊,便能使用此技術來辨識語音轉錄、產生SRT字幕檔,同時也支援多國語言轉譯,而且無須連上網路,一切都在電腦內部進行,非常方便。

然而,我親自測試過後,除了第一次有成功轉錄外,其餘幾乎是大量重複字句、辨識進度停在99%便停止、無法正常判斷等等……,幾乎讓我放棄使用這項AI技術來輔助學習。我期望未來能夠有效解決這些品質不穩的問題,否則即使無需連上網路這一點相當誘人,也難以讓我再次考慮使用此工具。



五、ZOOM的CC字幕(免費開放)

  • 推薦度:★★★☆☆
  • 優 點:免費、可儲存時間戳記的逐字稿、無須安裝其他插件,ZOOM上課的福音,可同時進行其他電腦工作。
  • 缺 點:收音仰賴主持人的設備、網路,可能偶有LAG停頓、消失,準確率尚可。

Zoom 開放免費使用自動字幕功能 | Zoom Blog
我們很高興宣布自動字幕功能 (也稱為即時轉錄),現在開放供所有 Zoom Meeting 免費帳戶使用。 這項功能提供 Zoom 視訊通話期間的自動字幕,也適用於 Zoom Meeting 和 Zoom Webinars 的付費帳戶。 對我們來說,每個人都能使用 Zoom
https://blog.zoom.us/zh-tw/zoom-auto-generated-captions/

我的網路課程主要使用ZOOM平台進行,起初我以為即時字幕功能只適用於付費帳戶,但後來發現它已經開放給一般免費帳戶使用。這功能可以在直播課程時提供即時字幕,對於身心障礙者的學習非常有幫助。

(待修正)然而,目前中文辨識的準確率比前面提到的其他工具還要差,且即時同步性不如微軟和Google的聽寫功能迅速,有時甚至會斷掉等……總之,這個功能幾乎只能當作裝飾,僅能提供一些微不足道的幫助。此外,ZOOM的回放可以顯示CC字幕,只是這項功能似乎因主持人有無開通而異。


結尾:未來的期許

目前就這五款工具,為了能有效幫助優化學習,我會持續尋找更好的方法。以下是網路上搜到一些待測試的方法,有心得再未來更新:

利用 Whisper 對無字幕影片和 Podcast 產生逐字稿以進行文字摘要的方法
為了更高效地吸收知識、處理資訊焦慮症,我正在使用 AI 摘要的方式來在詳讀文章或觀看影片前先做判斷它是否有我想要的資訊。
https://getterchen.medium.com/whisper-audio-top-transcript-88db584c0149

此外,我誠摯地請求路過的工程師或專攻程式設計的大家們,能給予我一些目前我所嘗試的AI技術失敗的建議,或是推薦一些優秀的AI語音辨識技術,以實現真正多元化的學習。

在此先行致以萬分的感謝。(至2023年11月)

留言