如何利用 AI 工具語音辨識自動製作 Youtube 影片的字幕

Youtube 是許多人分享線上影片,如演講,授課,商業宣傳,或吃喝玩樂的平台。

在做好 Youtube 的影音上傳到自己的頻道後,如果有字幕顯示,觀眾會看得更清楚。

然而,用手工打字幕檔的文字,再手動調整時間標記,是一件花費時間的事。

所幸在 AI 時代,有更簡單快速的方法了!

這篇文章要介紹如何用 AI 工具,來快速製作 Youtube 字幕檔。看完之後,您也可以變成字幕檔製作高手囉。

方法

1. 首先要有個自己的 Youtube 頻道。

2. 將做好的影片上傳到 Youtube,此時影片還沒有字幕。例如,我在這裡上傳了一個影片,標題為

實證醫學中的 PICO 架構
https://www.youtube.com/watch?v=5r84ecLPysU

3. 用 Whisper JAX 線上工具,利用 AI 技術語音辨識,產生附有時間標記的字幕逐字稿。
Whisper JAX 網址:
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

在 Whisper JAX 的網頁中,選 Youtube,在 Youtube URL 的欄位,貼上想要產生字幕檔的影片網址。勾選 transcribe。並選擇要 Return timestamps,以產生時間標記。

按 Submit。

就會開始進行自動產生字幕檔的工作。幾分鐘後,結果如下:

[00:00.260 -> 00:02.680] 大家好,这个影片要介绍的是
[00:02.680 -> 00:04.780] 实证医学中的PICO架构
[00:04.780 -> 00:09.000] 在实证医学中,PICO是一个常用的架构
[00:09.000 -> 00:12.020] 用于制定临床问题、设计研究
[00:12.020 -> 00:13.480] 以及评估证据
[00:13.480 -> 00:16.380] PICO代表以下四个元素
[00:16.380 -> 00:20.280] P- Patient Problem或Population
[00:20.280 -> 00:23.980] 指的是病人、问题或人口的特征
[00:23.980 -> 00:27.480] 这个元素描述了你感兴趣的人群
[00:27.480 -> 00:31.980] 包括其特定特征、疾病状态或其他相关因素
[00:31.980 -> 00:34.000] I. Intervention
[00:34.000 -> 00:36.260] 指的是干预措施
[00:36.260 -> 00:40.100] 即你想要研究或评估的治疗、介入或行动
[00:40.100 -> 00:44.440] 这可能是一种药物、手术、治疗方法
[00:44.440 -> 00:46.100] 或其他干预措施
[00:46.100 -> 00:48.780] C. Comparison
[00:48.780 -> 00:52.540] 指的是比较组,即与干预措施相比
[00:52.540 -> 00:55.080] 你想要对照或比较的对照组
[00:55.080 -> 01:01.900] 对照组可以是标准治疗、安慰剂、不治疗或其他替代干预措施
[01:01.900 -> 01:03.820] O. Outcome
[01:03.820 -> 01:06.080] 指的是目标结果
[01:06.080 -> 01:09.140] 即你想要评估或观察的结果或结局
[01:09.140 -> 01:15.160] 这可以是临床结果、生理指标、症状改善、生存率等
[01:15.160 -> 01:18.340] 通过明确地定义这四个元素
[01:18.340 -> 01:22.980] Pico架构有助于将临床问题分解为可回答的可量化问题
[01:22.980 -> 01:26.040] 并引导研究设计和文献检索过程
[01:22.120 -> 01:25.120] 临床问题分解为可回答的可量化问题
[01:25.120 -> 01:28.160] 并引导研究设计和文献检索过程

語音辨識轉換為文字檔的結果很令人滿意。但是似乎還是有些小問題,例如最後四行的時間標記有重疊,句子似乎重覆了,這個問題我們等稍後上傳到 Youtube 編輯字幕檔時,再一起修正。

由於這個 AI 工具是以簡體中文來輸出。我們可以把整篇文字 copy,貼在線上的 Google 文件,利用工具中的翻譯功能,轉換為繁體中文。再稍做手工的修飾和更正。結果如下:

[00:00.260 -> 00:02.680] 大家好,這個影片要介紹的是
[00:02.680 -> 00:04.780] 實證醫學中的 PICO 架構
[00:04.780 -> 00:09.000] 在實證醫學中,PICO 是常用的架構
[00:09.000 -> 00:12.020] 用於發展臨床問題,設計研究
[00:12.020 -> 00:13.480] 以及評估證據
[00:13.480 -> 00:16.380] PICO 代表以下四個元素
[00:16.380 -> 00:20.280] P: Patient, Problem, 或 Population
[00:20.280 -> 00:23.980] 指的是病人,問題,或人口的特徵
[00:23.980 -> 00:27.480] 這個元素描述了你感興趣的人群
[00:27.480 -> 00:31.980] 包括其特定特徵,疾病狀態,或其他相關因素
[00:31.980 -> 00:34.000] I: Intervention
[00:34.000 -> 00:36.260] 指的是介入措施
[00:36.260 -> 00:40.100] 即你想要研究或評估的治療,介入,或行動
[00:40.100 -> 00:44.440] 這可能是一種藥物,手術,治療方法
[00:44.440 -> 00:46.100] 或其他介入措施
[00:46.100 -> 00:48.780] C: Comparison
[00:48.780 -> 00:52.540] 指的是比較組,即與介入措施相比
[00:52.540 -> 00:55.080] 你想要對照或比較的對照組
[00:55.080 -> 01:01.900] 對照組可以是標準治療,安慰劑,不治療,或其他替代介入措施
[01:01.900 -> 01:03.820] O: Outcome
[01:03.820 -> 01:06.080] 指的是目標結果
[01:06.080 -> 01:09.140] 即你想要評估或觀察的結果或結局
[01:09.140 -> 01:15.160] 這可以是臨床結果,生理指標,症狀改善,存活率等
[01:15.160 -> 01:18.340] 透過明確定義這四個元素
[01:18.340 -> 01:22.980] PICO 架構有助於將臨床問題分解為可回答的可量化問題
[01:22.980 -> 01:26.040] 並引導研究設計與文獻檢索過程
[01:22.120 -> 01:25.120] 臨床問題分解為可回答的可量化問題
[01:25.120 -> 01:28.160] 並引導研究設計與文獻檢索過程

4. 接下來要把上面的字幕檔,轉換成 Youtube 可以使用的 SRT 字幕檔案格式。

由於我們這裡舉例的字幕檔字數較少,可以直接用 ChatGPT 的對話,將上面 Whisper JAX 產生的字幕檔轉換成 SRT 格式。

(說明:由於 ChatGPT 的文字指令有 2000 個字的上限,所以如果要處理較長篇的字幕檔,可以用 Python 程式碼做轉檔工作。在 Whisper JAX 的討論區,有人提供這個 Python 程式碼 可以把 Whisper JAX 產生的字幕檔轉換為 SRT 檔。)

在這裡,我們用 ChatGPT 的對話窗來轉檔。

例如,在 ChatGPT 中輸入以下指示:

Convert the text below to srt format:
[00:00.260 -> 00:02.680] 大家好,這個影片要介紹的是
[00:02.680 -> 00:04.780] 實證醫學中的 PICO 架構
[00:04.780 -> 00:09.000] 在實證醫學中,PICO 是常用的架構
[00:09.000 -> 00:12.020] 用於發展臨床問題,設計研究
[00:12.020 -> 00:13.480] 以及評估證據
[00:13.480 -> 00:16.380] PICO 代表以下四個元素
[00:16.380 -> 00:20.280] P: Patient, Problem, 或 Population
[00:20.280 -> 00:23.980] 指的是病人,問題,或人口的特徵
[00:23.980 -> 00:27.480] 這個元素描述了你感興趣的人群
[00:27.480 -> 00:31.980] 包括其特定特徵,疾病狀態,或其他相關因素
[00:31.980 -> 00:34.000] I: Intervention
[00:34.000 -> 00:36.260] 指的是介入措施
[00:36.260 -> 00:40.100] 即你想要研究或評估的治療,介入,或行動
[00:40.100 -> 00:44.440] 這可能是一種藥物,手術,治療方法
[00:44.440 -> 00:46.100] 或其他介入措施
[00:46.100 -> 00:48.780] C: Comparison
[00:48.780 -> 00:52.540] 指的是比較組,即與介入措施相比
[00:52.540 -> 00:55.080] 你想要對照或比較的對照組
[00:55.080 -> 01:01.900] 對照組可以是標準治療,安慰劑,不治療,或其他替代介入措施
[01:01.900 -> 01:03.820] O: Outcome
[01:03.820 -> 01:06.080] 指的是目標結果
[01:06.080 -> 01:09.140] 即你想要評估或觀察的結果或結局
[01:09.140 -> 01:15.160] 這可以是臨床結果,生理指標,症狀改善,存活率等
[01:15.160 -> 01:18.340] 透過明確定義這四個元素
[01:18.340 -> 01:22.980] PICO 架構有助於將臨床問題分解為可回答的可量化問題
[01:22.980 -> 01:26.040] 並引導研究設計與文獻檢索過程
[01:22.120 -> 01:25.120] 臨床問題分解為可回答的可量化問題
[01:25.120 -> 01:28.160] 並引導研究設計與文獻檢索過程

ChatGPT 就會把上面的文字轉換成 SRT 字幕檔格式。如下:

1
00:00:00,260 --> 00:00:02,680
大家好,這個影片要介紹的是

2
00:00:02,680 --> 00:00:04,780
實證醫學中的 PICO 架構

3
00:00:04,780 --> 00:00:09,000
在實證醫學中,PICO 是常用的架構

4
00:00:09,000 --> 00:00:12,020
用於發展臨床問題,設計研究

5
00:00:12,020 --> 00:00:13,480
以及評估證據

6
00:00:13,480 --> 00:00:16,380
PICO 代表以下四個元素

7
00:00:16,380 --> 00:00:20,280
P: Patient, Problem, 或 Population

8
00:00:20,280 --> 00:00:23,980
指的是病人,問題,或人口的特徵

9
00:00:23,980 --> 00:00:27,480
這個元素描述了你感興趣的人群

10
00:00:27,480 --> 00:00:31,980
包括其特定特徵,疾病狀態,或其他相關因素

11
00:00:31,980 --> 00:00:34,000
I: Intervention

12
00:00:34,000 --> 00:00:36,260
指的是介入措施

13
00:00:36,260 --> 00:00:40,100
即你想要研究或評估的治療,介入,或行動

14
00:00:40,100 --> 00:00:44,440
這可能是一種藥物,手術,治療方法

15
00:00:44,440 --> 00:00:46,100
或其他介入措施

16
00:00:46,100 --> 00:00:48,780
C: Comparison

17
00:00:48,780 --> 00:00:52,540
指的是比較組,即與介入措施相比

18
00:00:52,540 --> 00:00:55,080
你想要對照或比較的對照組

19
00:00:55,080 --> 00:01:01,900
對照組可以是標準治療,安慰劑,不治療,或其他替代介入措施

20
00:01:01,900 --> 00:01:03,820
O: Outcome

21
00:01:03,820 --> 00:01:06,080
指的是目標結果

22
00:01:06,080 --> 00:01:09,140
即你想要評估或觀察的結果或結局

23
00:01:09,140 --> 00:01:15,160
這可以是臨床結果,生理指標,症狀改善,存活率等

24
00:01:15,160 --> 00:01:18,340
透過明確定義這四個元素

25
00:01:18,340 --> 00:01:22,980
PICO 架構有助於將臨床問題分解為可回答的可量化問題

26
00:01:22,980 --> 00:01:26,040
並引導研究設計與文獻檢索過程

27
00:01:22,120 --> 00:01:25,120
臨床問題分解為可回答的可量化問題

28
00:01:25,120 --> 00:01:28,160
並引導研究設計與文獻檢索過程

把整篇文字 copy,貼在純文字編輯器上,存成 *.srt 檔,例如,取名為 mysubtitle.srt


5. 回到 Youtube 工作室,選取剛才做好的 Youtube 影片,編輯字幕檔,上傳剛才做好的 SRT 檔案,勾選附有時間標記的選項。然後在 Youtube 工作平台上預覽,修飾並更正字幕檔的文字和時間標記。完成後,儲存,發布。就大功告成了!

有字幕檔的影片如下,觀眾只要按 CC,就可以觀賞有字幕檔的影片了。

實證醫學中的 PICO 架構(附字幕版本)


有興趣的朋友,也可以試試,為自己的影片加上字幕喔。:)

---

本文作者為吉本,email: starynight68@googlemail.com

作者保有著作權,引用請使用網頁連結,並註明出處。

歡迎交流討論。:D


這個網誌中的熱門文章

生成式 AI 時代下的讀書和讀書會

天真而殘忍的邪惡:讀艾莉絲‧孟若的〈童戲〉