top of page
subtitle header.png
subtitle header - pic.png

一個應用 AI 語音辨識模型的字幕產生器

為了能夠快速產生臺灣大學課堂影片的字幕,我們與臺大電機系李宏毅教授、資工系蔡欣穆教授的團隊共同開發了一個應用 AI 語音辨識模型的 Chrome 瀏覽器擴充功能「NTU COOL 字幕產生器」,可以自動產生課堂影片的字幕並在播放器中播放。

此擴充功能上線僅兩個月,就吸引 1200 位以上的使用者​,有6500次以上的字幕使用量更獲得使用者一致10/10分的滿意度

Background

Problem: 語音辨識模型已完成,卻缺少關鍵的應用

  • 因應疫情後時代對於影片教學字幕的大量需求,臺大電機系李宏毅教授的團隊以 OpenAI Whisper 模型為基礎,開發了針對臺大課堂影片的語音辨識模型。​

  • 然而,模型尚未落實應用,因此由資工系蔡欣穆教授的團隊負責開發與校內線上教學平台NTU COOL 串接的擴充功能「NTU COOL 字幕產生器」,並由我擔任該擴充功能的 UI/UX 設計、專案 PM。

subtitle_background 3.png

Goal: 整合模型與開發團隊,設計一個適合全校師生使用的字幕產生器

Requirements

開發一個 Chrome 瀏覽器擴充功能,讓使用者可以在校內線上教學平台上送出語音辨識請求,並在字幕辨識完成後,直接在影片播放器內觀看字幕。

Duration

6個月

My Responsibilities
  • UX Research: 透過訪談、使用者測試確認校內教師、學生對於字幕功能的需求。

  • UI/UX Design: User Story, Logic Flow, UI Design

  • Project Management: 整合模型開發、擴充功能實作、NTU COOL教學平台三方團隊,規劃需求、制定時程,並監督開發進度與上線流程。

undraw_Engineering_team_a7n2.png

Process

User Research

User Journey Map

Challenge: 整合三方意見,決定優先順序與時程

​本專案橫跨 3 個團隊,分別為我所屬的 NTU COOL 線上教學平台團隊、電機系的語音辨識模型團隊、資工系的擴充功能開發團隊,其中最大的挑戰是協調各方的需求,決定最終上線的版本要包含哪些內容
Constraints & Solutions
  1. 合作的 2 個團隊不是正職員工,因此討論時程、開發進度會延遲 2-4 天
    → 直接詢問團隊成員在上線前可以完成的進度​,並按照此進度制定需求
    → 事先溝通回覆的頻率,確保雙方都對回覆時間有共識

     
  2. 開發成員間多以專有名詞溝通,難以確認討論內容
    → 學習 docker, DNS 等基本概念,並將討論內容著重在傳達需求,而非實作方法

     
  3. 三個團隊有各自希望完成的需求,對最終產品的想像不盡相同
    → 事先向各團隊確認 must-have, nice-to-have 等層級的需求

    → 根據時程、重要程度決定需求內容,並將決策結果向所有成員同步

Function Map, Logic Flow

subtitle_process.png

Usability Test

The Product

Design System

subtitle_design guideline.png
subtitle_UI_bg.png

Product Design

subtitle_UI_1.png
subtitle_UI_2.png

Impact

subtitle_outcome.png

Reflection

這個專案是我首次獨自負責產品設計、團隊管理的任務,非常榮幸有機會跟台大電機系、資工系的跨域團隊合作,我也更加認識了 AI 語音辨識模型的架構,以及建立一個系統所需的人力與技術。

此次專案歷經上線測試版、正式版,以及 v2.0 版本的上線,發生了一些意料之外的錯誤,而我們也都已及時解決。我認為這些錯誤反而是我在專案中最大的收穫之一,因為這些錯誤指出了我在領導專案時未考慮到的盲點,也提點了我未來值得多加注意的產品面向

subtitle_ending.png
bottom of page