top of page
一個應用 AI 語音辨識模型的字幕產生器
為了能夠快速產生臺灣大學課堂影片的字幕,我們與臺大電機系李宏毅教授、資工系蔡欣穆教授的團隊共同開發了一個應用 AI 語音辨識模型的 Chrome 瀏覽器擴充功能「NTU COOL 字幕產生器」,可以自動產生課堂影片的字幕並在播放器中播放。
1200 位以上的使用者,有6500次以上的字幕使用量,更獲得使用者一致10/10分的滿意度。
此擴充功能上線僅兩個月,就吸引Background
Problem: 語音辨識模型已完成,卻缺少關鍵的應用
-
因應疫情後時代對於影片教學字幕的大量需求,臺大電機系李宏毅教授的團隊以 OpenAI Whisper 模型為基礎,開發了針對臺大課堂影片的語音辨識模型。
-
然而,模型尚未落實應用,因此由資工系蔡欣穆教授的團隊負責開發與校內線上教學平台NTU COOL 串接的擴充功能「NTU COOL 字幕產生器」,並由我擔任該擴充功能的 UI/UX 設計、專案 PM。
Goal: 整合模型與開發團隊,設計一個適合全校師生使用的字幕產生器
Requirements
開發一個 Chrome 瀏覽器擴充功能,讓使用者可以在校內線上教學平台上送出語音辨識請求,並在字幕辨識完成後,直接在影片播放器內觀看字幕。
Duration
6個月
My Responsibilities
-
UX Research: 透過訪談、使用者測試確認校內教師、學生對於字幕功能的需求。
-
UI/UX Design: User Story, Logic Flow, UI Design
-
Project Management: 整合模型開發、擴充功能實作、NTU COOL教學平台三方團隊,規劃需求、制定時程,並監督開發進度與上線流程。
Process
User Research
User Journey Map
Challenge: 整合三方意見,決定優先順序與時程
本專案橫跨 3 個團隊,分別為我所屬的 NTU COOL 線上教學平台團隊、電機系的語音辨識模型團隊、資工系的擴充功能開發團隊,其中最大的挑戰是協調各方的需求,決定最終上線的版本要包含哪些內容。
Constraints & Solutions
-
合作的 2 個團隊不是正職員工,因此討論時程、開發進度會延遲 2-4 天
→ 直接詢問團隊成員在上線前可以完成的進度,並按照此進度制定需求
→ 事先溝通回覆的頻率,確保雙方都對回覆時間有共識
-
開發成員間多以專有名詞溝通,難以確認討論內容
→ 學習 docker, DNS 等基本概念,並將討論內容著重在傳達需求,而非實作方法
-
三個團隊有各自希望完成的需求,對最終產品的想像不盡相同
→ 事先向各團隊確認 must-have, nice-to-have 等層級的需求
→ 根據時程、重要程度決定需求內容,並將決策結果向所有成員同步
Function Map, Logic Flow
Usability Test
The Product
Design System
Product Design
Impact
bottom of page