神經網路原理入門完整指南｜轉職 AI 的數學準備與 30 天學習地圖（2026 台灣版）

本文目次

為什麼多數人卡在神經網路入門的那一關？

你大概是這樣的人：看過幾支 YouTube 上的 AI 介紹影片、翻過一兩本暢銷的機器學習書、用 Python 跑過幾個現成的範例，甚至在 Hugging Face 上下載過預訓練模型玩過。你知道 ChatGPT 背後是 Transformer、Transformer 裡面是注意力機制、注意力機制底下還是神經網路——但每次想再往下挖一層，你就撞到一面牆：一堆矩陣運算、一堆偏微分、一堆 sigmoid 和 softmax 的公式，看不懂、不敢問、怕被說程度差。於是你又回去做 prompt engineering、調 API、拼湊別人寫好的程式碼。表面上你在做 AI，實際上你只是 AI 的使用者，離真正能設計模型、能調參、能 debug 深度學習系統的人還有一段距離。

這條卡關的原因,說穿了只有三個字：數學底。大學念商管、文科、設計、生醫、藝術的人佔台灣大學畢業生的一半以上，這群人進職場以後幾乎沒碰過矩陣、沒做過偏微分、沒聽過凸優化。當 AI 變成職涯關鍵字的那一刻，他們其實最焦慮：不是不願學，是不知道該從哪裡學起、學到什麼程度算夠、花多少時間算合理、花錢上課到底值不值得。

這篇文章要解決的就是這個問題。我們不教你怎麼用 ChatGPT 寫作文、不教你怎麼 copy 別人的 notebook，而是帶你從零開始把「神經網路」這四個字的本質拆開——什麼是線性代數裡的向量空間、什麼是微積分裡的梯度、什麼是最佳化裡的下降方向、什麼叫做反向傳播、為什麼要有激勵函數、為什麼需要正規化。拆完之後再告訴你：如果你是非本科轉職，數學底子該怎麼 30 天補起來、哪些資源免費哪些要花錢、補完以後要不要繼續念碩士、念哪一所、花多少錢、未來能做什麼工作、賺什麼薪水。

這不是一篇教你兩小時速成深度學習的文章。世界上沒有這種東西。這是一篇給你「完整地圖」的文章，讀完以後你會知道自己站在地圖的哪一格、接下來三十天、三個月、一年該怎麼走。花 40 分鐘讀完這一篇，可能幫你省下兩年亂摸索的時間、省下 NT$20 萬的錯誤補習費、甚至省下一段因為迷惘而錯過的職涯轉機。

我們特別把三所學校的 13 個線上碩士課程資訊也放進來當作路徑參考：SIT 史蒂文斯理工學院的 MSCS 電腦科學碩士、GGU 金門大學的 MSAI 人工智慧碩士、BU 貝翰文大學的 MSAAI 應用 AI 碩士——這三所是目前台灣在職者轉職 AI 最務實的三條路，分別對應不同的預算、工作時數、數學底子、英文程度。但要記得：碩士是放大器，不是起點。你自己的基礎沒打好，花 USD 16,500 念 SIT 也只會變成把焦慮放大 20 個月的代價。所以——先看完這篇，再決定要不要往下走。

神經網路的三個核心概念：線性代數、微積分、最佳化一次看懂

如果要用最精簡的方式描述「神經網路在做什麼」，答案只有一句話：它是一台「把高維向量透過一層一層的線性與非線性變換，映射到另一個高維空間，然後用梯度下降法去調整這些變換的參數，讓輸出盡量接近正確答案」的機器。這句話裡面藏了三個核心概念：向量變換（線性代數）、梯度（微積分）、下降法（最佳化）。接下來我們把這三件事拆到最白話。

線性代數：為什麼資料都是向量、神經網路都是矩陣？

假設你要做一個判斷「這封信是不是垃圾郵件」的模型。一封信有很多特徵：標題長度、內文字數、連結數量、是否有「免費」兩個字、寄件人是否在通訊錄裡⋯⋯這些特徵被排成一個數字陣列，例如 [12, 480, 5, 1, 0]——這就是一個五維向量。你資料庫裡有一萬封信，就等於一萬個五維向量，排起來變成一個 10000 × 5 的矩陣。

神經網路做的第一件事，就是把這個五維向量透過一個「權重矩陣」映射到新的空間。假設你希望把五維變成八維（讓模型有更多空間去描述郵件的樣貌），你就需要一個 5 × 8 的權重矩陣 W。把輸入向量 x 乘上 W，就得到新的八維向量 z = xW。這個操作在線性代數叫做「線性變換」，在神經網路的語言裡叫做「全連接層」（Fully Connected Layer）或「密集層」（Dense Layer）。

線性代數術語	神經網路對應	白話解釋
向量（Vector）	輸入特徵 / 隱藏層數值	一筆資料或一層的中間狀態
矩陣（Matrix）	權重（Weights）	模型要學習的參數
矩陣乘法	全連接層	特徵的線性組合
轉置（Transpose）	反向傳播	把梯度往回傳
特徵值 / 特徵向量	PCA 降維、收斂性分析	理解資料的主要方向
內積（Dot Product）	注意力機制核心	衡量兩個向量的相似度
範數（Norm）	L1/L2 正規化	衡量向量的「大小」

看懂這張表你就會明白：所有深度學習框架（PyTorch、TensorFlow、JAX）的底層 API，99% 都是在做線性代數。torch.matmul、torch.einsum、nn.Linear——這些函式背後全部是矩陣運算。你不用會自己手算特徵值，但你必須看懂「這一層是 512 → 256 的全連接，意思是權重矩陣形狀是 512 × 256」這句話。看不懂，debug 的時候就無從下手。

微積分：為什麼要學梯度？

有了線性變換以後，神經網路還要加一層「非線性」，例如 ReLU、Sigmoid、GELU。為什麼？因為如果全部都是線性變換，疊一百層和疊一層沒差別（線性變換的組合還是線性變換）。加入非線性才能讓模型學到複雜的邏輯，例如「標題短 + 連結多 + 通訊錄裡沒有 → 很可能是垃圾郵件」這種 if-else 組合。

但關鍵問題來了：我們怎麼知道權重矩陣 W 裡的那八萬個數字該設成多少？答案是——從亂數開始，然後用「梯度下降法」一步一步調整。

梯度（Gradient）是微積分裡的概念，簡單講就是「往哪個方向改變參數，損失函數會下降最快」。想像你站在一座山上，眼睛蒙住，只能感覺腳下的坡度——每一步都往最陡下坡方向走一小步，最後你一定會走到山谷（局部最低點）。這就是梯度下降。

微積分術語	神經網路對應	白話解釋
導數（Derivative）	單一參數的梯度	改變這個參數 1 單位，loss 變多少
偏導數（Partial Derivative）	多參數梯度	對某一個參數單獨求導
鏈式法則（Chain Rule）	反向傳播核心	一層一層把梯度傳回去
梯度向量	`loss.backward()` 結果	整個模型所有參數的下降方向
Hessian 矩陣	二階優化器（如 L-BFGS）	描述損失函數的曲率
Taylor 展開	Adam、Newton 法背後	近似函數行為

你不需要會解三重積分、不需要會算 Laplace 轉換。你需要的是：會算單變量導數（中學基礎）、看得懂偏導數符號 ∂L/∂w、理解鏈式法則是「一串乘法」。這個難度，老實說比你高中學過的還低——因為你不用自己算，PyTorch 會自動幫你算（這叫做 autograd）。你只要看懂「為什麼能自動算、什麼時候會算錯、算出來的梯度爆炸了該怎麼辦」。

最佳化：為什麼有那麼多優化器？

有了梯度以後，下一個問題是：「每一步要走多大？」太大會震盪（越過山谷又彈回來），太小會學不動（一年走不完一座山）。這個「步長」在神經網路叫做學習率（learning rate），而調整學習率的策略就是「優化器」（Optimizer）。

最簡單的優化器叫 SGD（隨機梯度下降），字面意思就是「每次只看一小批資料、往梯度反方向走一小步」。但 SGD 有很多毛病：遇到平坦地形會走很慢、遇到陡峭方向會震盪、遇到鞍點（一個方向上是最低、另一個方向上是最高）會卡住。於是研究者發明了各種改進版本：Momentum（加入慣性）、RMSprop（根據歷史梯度大小調整步長）、Adam（Momentum + RMSprop 合體）、AdamW（Adam 加上更好的權重衰減）。

優化器	發明年份	核心概念	適合場景
SGD	1950s	梯度方向走一小步	有經驗的調參者、視覺模型
Momentum	1960s	加入速度向量	梯度方向不穩時
Adagrad	2011	根據歷史梯度縮放學習率	稀疏特徵
RMSprop	2012	Adagrad 改良版	RNN / 時序模型
Adam	2015	Momentum + RMSprop	幾乎所有 Transformer
AdamW	2019	Adam + 解耦權重衰減	大型語言模型主流
Lion	2023	只看梯度方向不看大小	極大規模模型實驗

目前台灣在職轉職者要進入 AI 領域，這三個概念——線性代數、微積分、最佳化——就是最低門檻。看懂它們你不一定能設計新模型，但至少能看懂論文、能跑通別人的程式碼、能在面試的時候不被問倒。後面我們會給你一張 30 天學習地圖，但在那之前，先把另一個更關鍵的概念搞懂：反向傳播。

反向傳播完整拆解：用最白話的方式講懂這個魔法

反向傳播（Backpropagation，簡稱 BP）是 1986 年 Rumelhart、Hinton、Williams 那篇論文正式發表的演算法，也是讓神經網路從「理論上有趣但訓練不起來」變成「能真正解決問題」的關鍵突破。現在所有的深度學習框架都內建這個演算法，你寫 loss.backward() 的時候，PyTorch 就在幕後跑反向傳播。但「會用」跟「懂」是兩件事，看懂它的原理你才有辦法處理梯度爆炸、梯度消失、訓練不收斂這類真實世界的麻煩。

先看一個最小的例子：一層神經網路

假設我們只有一個超簡單的「神經元」：輸入 x，權重 w，偏置 b，輸出 y = wx + b。我們希望它預測某個目標值 t。損失函數用均方誤差：L = (y − t)²。

現在問題來了：給定 x, w, b, t，如果我要讓 L 變小，w 和 b 該怎麼動？

用中學的導數加上鏈式法則：

∂L/∂y = 2(y − t)（L 對 y 的導數）
∂y/∂w = x（y 對 w 的導數）
∂y/∂b = 1（y 對 b 的導數）

把它們串起來：

∂L/∂w = ∂L/∂y × ∂y/∂w = 2(y − t) × x
∂L/∂b = ∂L/∂y × ∂y/∂b = 2(y − t) × 1

有了這兩個梯度，我們更新參數：

w ← w − η × ∂L/∂w
b ← b − η × ∂L/∂b

（η 是學習率）

這就是一輪訓練。重複這個過程幾千次、幾萬次，參數就會慢慢收斂到讓 L 很小的值。這就是神經網路學習的本質。

放大到多層：鏈式法則的威力

現在假設我們有三層神經網路：

第一層：z1 = W1 × x + b1，然後 a1 = ReLU(z1)
第二層：z2 = W2 × a1 + b2，然後 a2 = ReLU(z2)
第三層：z3 = W3 × a2 + b3，然後 y = Softmax(z3)
損失：L = CrossEntropy(y, t)

要算 ∂L/∂W1，必須透過鏈式法則把梯度從 L 一路傳回到 W1： ∂L/∂W1 = ∂L/∂y × ∂y/∂z3 × ∂z3/∂a2 × ∂a2/∂z2 × ∂z2/∂a1 × ∂a1/∂z1 × ∂z1/∂W1

看起來很嚇人，但結構是固定的：一串乘法，每一項都是「後一個對前一個的導數」。這就是為什麼叫「反向傳播」——梯度是從損失函數這個終點，反方向一站一站傳回去，最後傳到第一層的權重。

反向傳播的「反向」意義很直觀：前向（forward）是從輸入算到損失，反向（backward）是從損失算回到每個參數。每一層的梯度等於「從後面傳來的梯度 × 這一層局部的導數」。

為什麼梯度會爆炸 / 消失？

現在你知道梯度是一連串乘法。如果每一層的局部導數都大於 1，連乘幾十層以後數值就會變成天文數字——這叫梯度爆炸。反之，如果每一層都小於 1，連乘以後趨近於零——這叫梯度消失。

這就是為什麼深度網路在 2010 年以前很難訓練：Sigmoid 激勵函數的導數最大值只有 0.25，疊十層以後梯度就小到訓練不動。2010 年以後幾個突破改變了局面：

技術	發明年份	解決的問題
ReLU 激勵函數	2010 年起流行	導數為 0 或 1，不縮小梯度
Batch Normalization	2015	讓每層輸出分布穩定
Residual Connection（殘差連接）	2015 ResNet	讓梯度有「高速公路」直通回前層
LayerNorm	2016	Transformer 主流標準化
Gradient Clipping	普遍實務	強制把梯度限制在一個上限內
Xavier / He 初始化	2010 / 2015	讓初始權重的方差合理

看懂這些以後你會明白：當你寫 PyTorch 程式碼看到 nn.BatchNorm2d()、看到 ResNet 的 skip connection、看到 torch.nn.utils.clip_grad_norm_，它們不是亂加的——每一個都是為了讓反向傳播能順利跑幾十上百層而存在。這也是為什麼碩士課程會花一整個學期教「深度學習工程實務」：工具背後的邏輯，比工具本身重要。

自動微分（Autograd）：你不用自己算梯度

現代深度學習框架把反向傳播自動化了。PyTorch 會在前向傳播的時候記錄每一步的運算（這叫 computation graph），然後你呼叫 .backward() 的時候，它用鏈式法則自動回推每個參數的梯度，存到 .grad 屬性裡。

對你而言，實務上要做的只有三件事：

把模型、資料、損失函數定義好
呼叫 loss.backward() 讓框架算梯度
呼叫 optimizer.step() 更新參數

但是當出問題的時候（例如 loss 不下降、梯度是 NaN、模型不收斂），你就必須回到這張反向傳播的圖，去找哪一層的梯度怪怪的、哪個運算爆掉了。這時候有沒有真的「懂」反向傳播，差別就很大。會用的人停在「換一個 learning rate 試試看」，懂的人會去檢查 .grad.norm() 的分布、會用 torch.autograd.detect_anomaly()、會加 Gradient Clipping。

這就是為什麼碩士課程的價值不在「教你跑 demo」，而在「訓練你遇到問題時有一套系統化的排查思路」。單靠 YouTube 教學是學不到這種思考深度的——因為影片不會陪你 debug 到半夜三點。

線性代數 30 天速成地圖：從零基礎到看懂論文

如果你大學完全沒碰過線性代數（像很多商管、文科、設計、生醫科系的同學）、或者十年前修過但全忘光了，這張 30 天地圖是設計給你的。每天投入 1.5 到 2 小時，30 天後你能看懂 PyTorch 的 nn.Linear、能讀懂 Transformer 論文裡的 Q · Kᵀ / √d_k、能判斷模型要不要降維。

第 1 週：向量基礎

前七天的重點是建立「向量是什麼、為什麼要用向量」的直覺。

天數	主題	推薦資源	檢驗標準
Day 1	向量的幾何意義	3Blue1Brown《線性代數的本質》第 1 集	能畫出二維向量加法
Day 2	向量運算（加減、純量乘法）	Khan Academy Linear Algebra Unit 1	手算 3D 向量運算
Day 3	內積與夾角	3Blue1Brown 第 9 集	知道 cos 相似度怎麼算
Day 4	向量範數（L1/L2）	Mathematics for Machine Learning 第 3 章	區分 L1、L2 用途
Day 5	向量空間與基底	3Blue1Brown 第 2-3 集	理解「基」的意義
Day 6	線性獨立與維度	MIT 18.06 Lecture 5	判斷向量組是否線性獨立
Day 7	複習 + 動手練習	NumPy 實作	寫 20 行程式碼做向量運算

這一週的目標是你看到 v ∈ ℝ^512 不會再覺得是外星文——你能自動翻譯成「一個由 512 個實數組成的陣列，代表 512 維空間中的一個點」。在神經網路的世界裡，詞向量（word embedding）動輒 512 或 768 維，你如果連向量基礎都還沒感覺，後面的東西都會很虛。

第 2 週：矩陣與線性變換

天數	主題	推薦資源	檢驗標準
Day 8	矩陣乘法的幾何意義	3Blue1Brown 第 4 集	能用「線性變換」解釋
Day 9	矩陣與向量乘法	Khan Academy	手算 3×3 乘以 3×1
Day 10	矩陣的轉置	MIT 18.06	知道反向傳播為何需要
Day 11	行列式（Determinant）	3Blue1Brown 第 5-6 集	理解「面積放大率」
Day 12	反矩陣	Gilbert Strang 教材	知道何時可逆
Day 13	矩陣的秩（Rank）	MIT 18.06	理解資訊含量
Day 14	NumPy 實戰練習	自己寫一個全連接層	不用 PyTorch 跑一次前向

這一週的任務是「把所有神經網路的全連接層都看成線性變換」。你要能看著 Linear(768, 2048) 這行程式碼，在腦中自動視覺化：一個 768 維向量，被拉伸、旋轉、投影到 2048 維空間。做得到，你後面學 Attention、學 Convolution 都會輕鬆一半。

第 3 週：特徵值與分解

天數	主題	推薦資源	檢驗標準
Day 15	特徵值與特徵向量	3Blue1Brown 第 14 集	能畫出特徵方向
Day 16	對角化	MIT 18.06	知道為何要對角化
Day 17	奇異值分解（SVD）	3Blue1Brown 補充	理解 rank-k 近似
Day 18	主成分分析（PCA）	李宏毅機器學習 PCA 篇	跑一次鳶尾花 PCA
Day 19	正定矩陣	MIT 18.06	理解 Hessian 的角色
Day 20	矩陣分解在推薦系統	Netflix Prize 論文摘要	理解矩陣分解的商業價值
Day 21	實戰：用 SVD 壓縮圖片	Python Notebook	圖片壓到 10% 仍可看

特徵值與分解是台灣多數補習班會跳過的部分，但這一段對理解深度學習的數學基礎其實很關鍵。例如你要讀懂 LoRA（大語言模型微調技術）的論文，就必須知道低秩近似是什麼；要讀懂擴散模型的某些變分推論，就要用到矩陣的跡（trace）和對角化。

第 4 週：機器學習中的線性代數

天數	主題	推薦資源	檢驗標準
Day 22	最小二乘法（Normal Equation）	Andrew Ng CS229	推導 `w = (XᵀX)⁻¹Xᵀy`
Day 23	全連接層矩陣運算	PyTorch 官方 tutorial	看懂 `nn.Linear` 原始碼
Day 24	卷積運算的矩陣表示	im2col 教學	理解 CNN 的底層
Day 25	注意力機制的矩陣運算	The Illustrated Transformer	畫出 Q、K、V 三個矩陣
Day 26	詞向量的線性特性	word2vec 論文	理解「國王 − 男 + 女 = 王后」
Day 27	批次矩陣運算（batched）	PyTorch broadcasting	會算 batch 維度
Day 28	張量（Tensor）四維以上	PyTorch docs	處理 `[B, C, H, W]`
Day 29	線性代數 debug 實戰	自己造 bug	能修復 shape mismatch
Day 30	複習：挑一篇 Transformer 論文	Attention Is All You Need	看懂公式 1、2

30 天結束你不會變成數學家，但你會有「工程師使用線性代數」的能力。台灣職場上找 AI 工程師、AI 產品經理、MLOps 工程師，這個程度就是最低門檻。你不需要會證明線性代數基本定理，但你要能在會議裡聽到「這個模型 hidden size 是 4096、head 是 32，每個 head 的 dim 是 128」不會臉上寫滿問號。

微積分 30 天速成地圖：從零基礎到看懂梯度下降

相較於線性代數，微積分在神經網路裡用到的部分其實更少、更集中——幾乎 90% 都圍繞在「偏導數」和「鏈式法則」這兩個核心。如果你高中或大一有學過微積分，這 30 天會比線性代數輕鬆；如果完全沒碰過，也別怕，AI 領域用到的微積分遠比工程系、物理系簡單。

第 1 週：導數與極限

天數	主題	推薦資源	檢驗標準
Day 1	函數與圖形	Khan Academy Precalculus	能畫 y = x² 的圖
Day 2	極限的直覺	3Blue1Brown 微積分第 1 集	理解 lim 的意思
Day 3	導數的定義	3Blue1Brown 第 2 集	能用極限推 f'(x)
Day 4	基本微分公式	Paul’s Online Math Notes	背熟冪、指、對、三角
Day 5	乘法與除法微分	Khan Academy	手算 (xe^x)’
Day 6	複合函數微分（鏈式法則）	3Blue1Brown 第 4 集	能算 sin(x²) 的導數
Day 7	複習 + 寫題目	50 題練習	正確率 > 80%

第一週你要把「看到函數就想得出它的導數」變成反射動作。神經網路用到的基本函數其實只有十幾個：多項式、指數、對數、sigmoid、tanh、ReLU、softmax、cross-entropy。把這十幾個的導數背起來，就解決 80% 的需要。

第 2 週：偏導數與梯度

天數	主題	推薦資源	檢驗標準
Day 8	多變量函數	Khan Academy Multivariable	會畫等高線圖
Day 9	偏導數定義	3Blue1Brown 第 2 集多變量	能算 ∂f/∂x
Day 10	梯度向量	MIT 18.02 Lecture	知道梯度垂直等高線
Day 11	方向導數	同上	理解「最陡方向」
Day 12	Hessian 矩陣	Mathematics for ML 第 5 章	知道二階曲率
Day 13	泰勒展開	3Blue1Brown 第 11 集	理解一階近似
Day 14	實作：手刻梯度下降	NumPy	把 f(x,y) = x² + y² 跑到收斂

偏導數是神經網路訓練的核心語言。看論文的時候看到 ∇θ L、看到 ∂L/∂W 不會緊張，你就過關了。

第 3 週：最佳化理論

天數	主題	推薦資源	檢驗標準
Day 15	凸函數 vs 非凸函數	Boyd《Convex Optimization》第 3 章	判斷函數凸性
Day 16	局部極小、全域極小	CS229 Note	理解區別
Day 17	梯度下降法	Andrew Ng ML 課	推導 GD 更新公式
Day 18	隨機梯度下降（SGD）	同上	理解 mini-batch
Day 19	Momentum	Sebastian Ruder Blog	實作 Nesterov
Day 20	Adam 的推導	原始論文	能寫出更新規則
Day 21	學習率排程（Scheduler）	Warmup + Cosine	知道為何 Transformer 都用

第三週的內容直接決定你會不會調參。很多台灣補習班把這一段一筆帶過，結果學生出來只會 optimizer=Adam() 一行 code，什麼時候用 SGD + Momentum、什麼時候要 Warmup、為什麼 BERT 要用 AdamW 通通說不上來。

第 4 週：反向傳播與進階

天數	主題	推薦資源	檢驗標準
Day 22	鏈式法則推神經網路梯度	CS231n Note	手推兩層網路 BP
Day 23	計算圖（Computation Graph）	PyTorch docs	理解動態圖
Day 24	自動微分（Autograd）	PyTorch tutorial	看懂 `.backward()` 機制
Day 25	梯度消失與爆炸	Deep Learning Book 第 8 章	知道成因與解法
Day 26	拉格朗日乘子	Khan Academy	理解約束優化
Day 27	KL 散度與機率	Information Theory 摘要	會推 softmax 交叉熵
Day 28	變分推論簡介	VAE 論文第 2 節	理解下界
Day 29	實作：手刻兩層神經網路	不用 PyTorch	在 MNIST 上達 95%
Day 30	挑一篇論文驗收	ResNet 原始論文	看懂梯度的反向通道

30 天結束，你就具備「讀論文不卡住、看程式碼不恐慌、改 hyperparameter 有理由、跟 AI 工程師溝通不尷尬」的微積分能力。這個程度要進入 BU 的 MSAAI、GGU 的 MSAI 這類為在職轉職設計的課程完全沒問題；要挑戰 SIT MSCS 這種需要本科背景的理工課程，還要再加強機率統計和離散數學，但至少線性代數和微積分這兩大關已經過了。

激勵函數、損失函數、正規化：被低估但超重要的三個配角

前面我們把線性代數、微積分、反向傳播講了一輪，但神經網路要真的跑起來，還有三個「配角」必須弄懂：激勵函數（Activation Function）、損失函數（Loss Function）、正規化（Regularization）。這三個決定了模型能不能學、學到什麼、會不會過擬合。在面試與實作上，它們往往比主角還容易被問倒。

激勵函數：給神經網路注入非線性

前面提過，沒有激勵函數的神經網路不管疊幾層都等於一層——這是線性代數的基本結論。激勵函數的唯一目的就是打破這個限制，讓網路能逼近任何複雜函數（這是著名的「萬能近似定理」Universal Approximation Theorem 在說的事）。

常用的激勵函數與它們的特性：

激勵函數	公式	值域	優點	缺點	適用場景
Sigmoid	1/(1+e^(-x))	(0, 1)	輸出像機率	梯度消失嚴重	二元輸出層、早期網路
Tanh	(e^x – e^(-x))/(e^x + e^(-x))	(-1, 1)	以 0 為中心	兩端仍會飽和	RNN 隱藏層
ReLU	max(0, x)	[0, ∞)	運算極簡、不梯度消失	死神經元問題	CNN / 大多數視覺模型
Leaky ReLU	max(0.01x, x)	(-∞, ∞)	解決死神經元	需要調斜率	ReLU 死太多的時候
GELU	x·Φ(x)	近似平滑 ReLU	Transformer 標配	運算稍貴	BERT、GPT 系列
Swish / SiLU	x·sigmoid(x)	平滑	實驗表現好	運算貴	EfficientNet、近期模型
Softmax	e^xi / Σe^xj	(0, 1) 且總和 = 1	多類機率分布	只用於輸出層	分類問題輸出層

你剛開始只要記住一句話：隱藏層預設用 ReLU，多類輸出層用 Softmax，二元輸出層用 Sigmoid，Transformer 裡用 GELU。99% 的場景這個原則不會錯。等你做研究再考慮 Swish、Mish、SELU 這些選項。

很多面試會問：「為什麼 ReLU 取代 Sigmoid 成為主流？」標準答案是三點——（1）Sigmoid 兩端導數趨近 0 會造成梯度消失，ReLU 在正半軸導數永遠是 1；（2）ReLU 運算快（只比 0）；（3）ReLU 會產生稀疏激活（很多輸出為 0），有類似 dropout 的正規化效果。答得出這三點，你就比 80% 的初階候選人強。

損失函數：告訴模型「錯在哪」

損失函數（Loss Function 或 Cost Function）是一個把「模型輸出」與「正確答案」的差距量化成一個數字的函數。這個數字越小，代表模型越準。訓練的全部意義就是讓這個數字下降。

損失函數	用途	公式直覺	注意事項
均方誤差 MSE	回歸	平方差平均	對異常值敏感
平均絕對誤差 MAE	回歸	絕對差平均	較耐異常值
Huber Loss	回歸	MSE + MAE 合體	結合兩者優點
二元交叉熵 BCE	二分類	基於 KL 散度	配 Sigmoid
類別交叉熵 CE	多分類	同上	配 Softmax
Focal Loss	類別不平衡	CE 加權版	醫療 / 物體偵測
Triplet Loss	度量學習	錨點 – 正 – 負	人臉 / 相似度
Contrastive Loss	對比學習	正對近、負對遠	CLIP、SimCLR
Dice Loss	影像分割	重疊比率	醫療影像

面試時最常被問「回歸為何用 MSE？分類為何用交叉熵？」簡答：MSE 搭配線性輸出在機率假設（高斯雜訊）下是最大似然估計；交叉熵則是在類別輸出（離散分布）下對應的最大似然估計。你可以不用證明，但要知道「損失函數跟輸出分布是配套的，不能亂配」。例如用 MSE 配 Softmax 理論上能跑，但訓練效率會差很多，因為梯度在錯分的時候反而會變小，學不動。

正規化：防止過擬合的關鍵技術

神經網路有數百萬到數十億個參數，遠多於訓練資料筆數。這種「過度表達」的模型天生容易過擬合——在訓練集上看起來完美，上線測試就崩。正規化就是讓模型「學得剛剛好」的一整套工具。

正規化技術	作用	使用時機	備註
L1 正規化	讓權重稀疏（很多變 0）	特徵選擇	Lasso 回歸同樣概念
L2 正規化	讓權重小而平均	多數神經網路	Weight Decay
Dropout	訓練時隨機關閉神經元	全連接層	相當於 ensemble
Batch Normalization	標準化每批次的輸出分布	CNN 主流	兼具加速訓練
Layer Normalization	標準化單筆樣本	Transformer 主流	不依賴 batch 大小
Early Stopping	驗證 loss 不降就停	所有模型	零成本
Data Augmentation	資料擴增	資料不夠時	視覺翻轉、裁切等
Label Smoothing	硬標籤改軟標籤	分類模型	降低過度自信
MixUp / CutMix	混合兩張訓練圖	視覺進階	ImageNet 常用
Weight Decay	權重衰減	AdamW 內建	和 L2 幾乎等價

實務上最簡單的配方：寫模型時預設加 Dropout 0.1~0.3、訓練器用 AdamW、加 Early Stopping 監控驗證集。這個三件組合能搞定 80% 的過擬合問題。如果還是過擬合，再考慮加入 Data Augmentation 或增加訓練資料。

這三個配角看起來雜，但它們串成一條完整的工程思考鏈：激勵函數決定能學多複雜、損失函數決定往哪學、正規化決定學的時候不要偏食。很多補習班把這段講得很淺，考試或實作時才發現自己裡面一團漿糊。

從感知機到 Transformer：神經網路架構演化 70 年

要真的讀懂今天的 LLM 論文，你必須知道整個神經網路架構是怎麼演化過來的。不是為了考古，而是因為「今天 Transformer 解決的問題」其實就是「過去架構解決不掉的問題」。知其然也要知其所以然。

1958 – 1969：感知機時代

1958 年 Rosenblatt 提出感知機（Perceptron），被當時媒體吹捧成「會自己學習的機器」。它本質上就是一個只有輸入和輸出兩層、用 step function 當激勵的最簡單神經網路。1969 年 Minsky 和 Papert 出版《Perceptrons》，證明單層感知機無法解決 XOR 問題——這本書直接打沉了神經網路研究十幾年（史稱「第一次 AI 寒冬」）。

教訓： 沒有隱藏層、沒有非線性，就解不了異或問題。這是為什麼多層神經網路那麼關鍵。

1986 – 2006：反向傳播與第二次起伏

1986 年 Rumelhart、Hinton、Williams 那篇反向傳播論文讓多層神經網路可以訓練，引發第二波熱潮。同期 LeCun 發明了卷積神經網路（CNN 1989-1998）並應用在郵政手寫辨識，LeNet-5 是今天所有 CNN 的祖先。但當時算力不足、資料不足、初始化沒做好，訓練三層以上的網路都很痛苦。1990s 末期機器學習界主流變成支援向量機（SVM）、決策樹、隨機森林——神經網路再度退場，迎來「第二次 AI 寒冬」。

教訓： 即使演算法正確，沒有足夠的算力和資料，深度模型是跑不起來的。

2006 – 2012：深度學習復興

2006 年 Hinton 發表深度信念網路（DBN），用逐層預訓練解決了深層網路訓練困難的問題。2009 年 Fei-Fei Li 開始建立 ImageNet 資料集（1400 萬張標註圖片）。2012 年 Krizhevsky、Sutskever、Hinton 發表 AlexNet，在 ImageNet 比賽上用 CNN 打敗所有傳統方法，錯誤率從 26% 降到 15%。這一刻深度學習正式回歸主流，再也沒退場過。

教訓： 三件事缺一不可：演算法（反向傳播 + 深層網路）、資料（ImageNet 級別）、算力（GPU）。

2014 – 2017：RNN、Attention 崛起

2014 年 Cho 和 Bengio 分別提出 GRU 和 Seq2Seq 模型，用循環神經網路（RNN）解決機器翻譯。但 RNN 有長距離依賴的問題——句子太長就忘了前面在講什麼。2014-2015 年 Bahdanau 和 Luong 引入注意力機制（Attention），讓解碼器可以「回頭看」編碼器的所有狀態，大幅改善翻譯品質。

2017：Transformer 登場

2017 年 Google 的那篇《Attention Is All You Need》徹底改變了一切。作者團隊發現：如果注意力機制這麼強，為什麼還需要 RNN？乾脆整個網路只用注意力 + 全連接。這個架構就是 Transformer，它有三個關鍵設計：（1）Self-Attention 讓每個位置可以同時看到所有其他位置；（2）Multi-Head Attention 讓模型用多個視角處理；（3）Positional Encoding 補回沒有序列結構的問題。

Transformer 讓模型可以平行化訓練（RNN 必須序列處理），訓練速度爆炸性提升。從此開始所有 NLP、越來越多 CV、甚至語音、科學計算都轉向 Transformer。

2018 – 2024：大型語言模型時代

2018 年 BERT（Google）：雙向 Transformer 預訓練，刷新所有 NLP 任務
2019 年 GPT-2（OpenAI）：生成式預訓練 + 零樣本學習
2020 年 GPT-3：1,750 億參數、湧現能力（emergent abilities）
2022 年 ChatGPT：RLHF + 人類回饋，AI 產品化元年
2023 年 GPT-4、Claude、Gemini 爆發
2024 年 o1、Claude 3.5 Sonnet、Gemini 2.0——推理模型時代
2025 年多模態、代理式（Agentic）AI 成為主流

讀到這段歷史你會感覺：今天的 AI 革命不是突然發生的，是 70 年累積的結果。每一個技術突破都是站在前一代失敗的屍體上。而對想轉職的你而言，啟示是：不要只學最新的東西。Transformer 背後仍是全連接層、仍是反向傳播、仍是梯度下降。把基礎打穩，後面追新模型才追得動。

神經網路架構時間軸對照表

年份	架構	貢獻	代表人物
1958	Perceptron	第一個可學習神經網路	Rosenblatt
1986	Backpropagation	多層網路可訓練	Rumelhart, Hinton, Williams
1989	CNN / LeNet	卷積神經網路	LeCun
1997	LSTM	解決長序列記憶	Hochreiter, Schmidhuber
2012	AlexNet	深度學習復興	Krizhevsky, Sutskever, Hinton
2014	GAN	生成對抗網路	Goodfellow
2014	Attention	翻譯突破	Bahdanau, Luong
2015	ResNet	殘差連接、超深網路	He, Zhang, Ren, Sun
2017	Transformer	注意力機制獨立成架構	Vaswani et al.
2018	BERT / GPT	預訓練語言模型	Devlin / Radford
2020	Vision Transformer	CV 也用 Transformer	Dosovitskiy
2020	GPT-3	湧現能力	Brown et al.
2021	CLIP / DALL-E	多模態	OpenAI
2022	ChatGPT	AI 商業化元年	OpenAI
2022	Diffusion Models	擴散模型生圖	Sohl-Dickstein 等
2023	LLaMA / Mistral	開源 LLM	Meta / Mistral AI
2024	o1 / Reasoning	思考鏈推理模型	OpenAI / Anthropic

這張表你可以當作「神經網路家族族譜」隨時參考。面試的時候被問「你覺得哪個架構影響你最深？」，隨便挑一個並講出它解決了什麼問題，就夠了。

台灣 AI 產業現況與職位地圖（2026 年）

數學打底好、神經網路原理也懂了、碩士也評估了——但台灣到底有多少 AI 工作？分布在哪？薪水合理嗎？這段把台灣 AI 產業現況講清楚。

主要產業別分布

根據 104 人力銀行、1111 人力銀行、LinkedIn Taiwan 2025-2026 年的統計數據，台灣 AI 相關職缺主要分布在以下七大產業：

產業別	代表企業	AI 應用方向	典型職缺	月薪區間（NT$）
半導體	台積電、聯電、日月光、聯發科	良率預測、製程優化、設計自動化	ML 工程師、製程資料科學家	10 – 25 萬
金融科技	國泰金、中信金、玉山金、台新金、街口、中華電信 Pay	風控、反詐、信評、客服 AI	資料科學家、風險建模師	8 – 20 萬
電商零售	momo、PChome、蝦皮、家樂福、全聯	推薦系統、需求預測、定價	推薦系統工程師、資料工程師	7 – 18 萬
網路平台	LINE TW、Google TW、Meta TW、Dcard、KKday	NLP、廣告投放、內容審核	NLP 工程師、ML 平台工程師	9 – 25 萬
醫療生技	長庚、台大醫院、中研院、醫院 AI 部門	醫學影像、病歷 NLP、藥物發現	醫療 AI 工程師	7 – 18 萬
製造業	鴻海研究院、仁寶、廣達、台達電	工業視覺、預測性維護	視覺 AI 工程師、MLOps	8 – 20 萬
新創	Appier、iKala、沛星互動、Gogolook	各類 AI 產品	全棧 ML、演算法研究員	7 – 22 萬

你可以看到月薪區間橫跨 NT$7-25 萬，主要差異來自兩點：（1）職位層級 L1-L4（2）公司類型與所在產業。半導體業平均最高、網路平台最有彈性、新創波動最大但上漲空間也最大。

台灣 AI 職位類型完整地圖

職位名稱	核心工作	學歷要求	技術能力
AI 導入專員	幫非技術部門導入 ChatGPT、Copilot	大學	工具熟、商業理解
Prompt 工程師	設計 LLM 輸入	大學	英文、語言敏感度
資料工程師（DE）	建資料管線	大學 / 碩士	SQL、Spark、Airflow
資料科學家（DS）	建模 + 分析	碩士為主	統計、SQL、Python
ML 工程師（MLE）	訓練 + 部署模型	碩士為主	PyTorch / TF、Docker
MLOps 工程師	模型生命週期管理	碩士	K8s、CI/CD、監控
AI 產品經理	AI 產品規劃	碩士優先	商業 + 技術兼顧
研究工程師	複現論文、改進模型	碩士 / 博士	讀論文、數學、研發
AI 架構師	整體技術架構	碩士 + 5-10 年經驗	系統設計、領導力
研究員	發論文	博士為主	論文發表、原創
AI 顧問	企業轉型顧問	不拘 + 資歷深	業務理解、人脈

地理分布

台灣 AI 職缺地理分布集中度極高：

台北市信義區、南港：金融 AI、網路平台
內湖：硬體、晶片設計 AI
新北汐止、新店：中型電商、軟體公司
新竹科學園區：半導體、硬體 AI
台中工業區、中科：製造 AI
台南、南科：部分半導體、傳產 AI

如果你住雙北地區，AI 轉職選擇最多。住台中以南，線上工作逐漸被接受但仍屬少數，面試可能需要北上。

常見具體情境：我是某某背景，該怎麼辦？

每個人背景不同，下面列出 8 個最常見的情境給實務建議。

情境一：我是會計師 / 稅務員，想做 AI 結合本業

建議路徑： GGU MSAI（中文、一年）或 BU MSAAI（英文、1.5 年）。你的優勢是懂財報、稅法、企業結構——這是大語言模型目前最吃虧的地方（需要專業領域知識）。畢業論文建議做「用 NLP 自動解析財務報告、提取風險訊號」。目標是會計師事務所的 AI 轉型顧問，月薪可上看 15-20 萬。

情境二：我是行銷人員，只想會用 AI 工具

建議路徑： 不一定要念碩士。先花 NT$3,000-20,000 上 Coursera 的 Prompt Engineering + Marketing Analytics 課程，搭配 ChatGPT Plus、Midjourney、Perplexity Pro 的實戰。這條路的天花板約月薪 10 萬。如果想突破就需要碩士，可考慮 GGU MBA 搭配 AI 選修課。

情境三：我是工程師（非 AI），想轉 AI

建議路徑： 最幸福的一群。你有程式底、有工程思維、只是缺 AI 專業知識。強烈建議 BU MSAAI 或 SIT MSCS。SIT MSCS 特別適合原本是電機、資工、應數本科的工程師，課程強度大，但產出含金量高。畢業可直接應徵台積電、聯發科等半導體公司的 AI 部門，月薪可達 15-20+ 萬。

情境四：我是醫事人員（醫師 / 藥師 / 護理師），想結合醫療 AI

建議路徑： 醫療 AI 是最藍海的領域之一。你有臨床經驗是其他工程師學不來的。建議 GGU MSAI 或 BU MSAAI，論文方向選「某某專科的 AI 輔助診斷」。畢業可留在醫院（長庚、台大、北榮、中研院）做醫療 AI 研發，或跳槽到醫療新創（雲象、長佳、安克生醫等）。月薪上看 15 萬。

情境五：我是建築師 / 設計師，擔心 AI 搶工作

建議路徑： 不用完全轉型，但要學會和 AI 協作。Midjourney、Stable Diffusion、AutoCAD AI 輔助工具是剛性需求。碩士層面如果真的想轉，可考慮 GGU MSAI 搭配設計應用。或者更實際的選項：台灣的設計業主要吃作品集，建立一套「AI + 設計」的作品集比碩士學位更直接有用。

情境六：我是老師 / 公務員，想轉民間企業

建議路徑： 教師和公務員有穩定收入但薪資天花板低，AI 轉型是跨越天花板的機會之一。建議一年制的 GGU MSAI 或 HPU MSAI，讓你可以一邊保留公職一邊念書，畢業後以碩士身分轉職。特別是中小學資訊老師、大學行政人員，這條路的可行性很高。

情境七：我是全職媽媽 / 爸爸，想重返職場

建議路徑： 線上碩士是唯一選擇。GGU MSAI 或 HPU MSAI 中文授課、一年制、時間彈性，最適合家庭照顧者。重返職場時碩士學位加上應用型作品集（例如「用 AI 優化家庭財務管理」之類的小專案），比起空窗期會好看很多。

情境八：我是中年 45+ 的主管，該不該跟這波？

建議路徑： 不是要你變成 AI 工程師，而是讓你「懂 AI 的主管」變得比「不懂 AI 的主管」值錢。HPU MSAI、GGU MSAI 或 MBA 都適合。重點不是技術深度，是能看懂 AI 報告、能判斷技術團隊的提案、能決定公司該不該投資。這類「AI-literate」的中高階主管是目前台灣市場最稀缺的族群。

免費 vs 付費學習資源全面對比：給台灣學習者的實用建議

打好線性代數與微積分的底子，你會遇到第二個選擇題：哪些資源值得花錢、哪些免費就夠了？這一段我們以台灣學習者的角度，把市場上常見的資源做一次橫向比較。

免費資源：世界級教材的黃金時代

過去二十年最大的改變，就是世界頂尖大學的教材幾乎都免費開放。你如果選對資源，一毛錢不花就能拿到 MIT、Stanford、Caltech 的同等教育內容。

資源	類別	語言	適合對象	備註
3Blue1Brown（YouTube）	線代、微積分、神經網路	英文（中字）	視覺化學習者	必看，直覺無敵
Khan Academy	數學基礎	英文 / 部分中文	完全零基礎	從算術到微積分
MIT OCW 18.06 Linear Algebra	線性代數	英文	想徹底打穩地基	Gilbert Strang 經典
MIT OCW 18.01/18.02	單 / 多變量微積分	英文	要理工基礎的人	完整錄影 + 作業
李宏毅機器學習 / 深度學習（YouTube）	機器學習、深度學習	中文	台灣學生首選	台大課程免費放
Andrew Ng CS229 / CS230	機器學習、深度學習	英文	想進階者	Stanford 經典
CS231n Stanford	視覺深度學習	英文	想做電腦視覺	筆記寫得極好
CS224n Stanford	NLP 深度學習	英文	想做語言模型	從 RNN 到 Transformer
fast.ai	實戰深度學習	英文	喜歡先跑再說	Jeremy Howard 教學
Deep Learning Book（Goodfellow）	深度學習教科書	英文（有中譯）	想完整打底	線上免費版
Mathematics for Machine Learning	ML 數學	英文	想銜接碩士	劍橋老師著，免費 PDF
PyTorch / TensorFlow 官方教學	框架實作	英文	動手派	官方範例齊全
Hugging Face Course	LLM 實作	英文	做語言模型	免費且更新快
Papers with Code	論文 + 程式碼	英文	想追最新技術	配對論文和實作
arxiv-sanity	論文篩選	英文	研究者	看熱門論文

免費資源最大的問題不是品質，而是「紀律」。你沒有期中考、沒有助教、沒有同學問問題、沒有證書拿——多數人撐不到第十天就放棄。這是為什麼台灣多數自學者花三年還在「我在學 AI」，沒有產出、沒有轉職成功的案例。解方不是更多資源，是建立制度化的學習結構。

付費資源：什麼情況下值得投資？

台灣付費學習 AI 的選項可以分成四類：短期線上課程、密集訓練營、專業認證、海外碩士線上課程。它們的價錢從 NT$3,000 到 NT$60 萬不等，對應的產出差異極大。

類別	代表產品	價格區間（NT$）	時長	核心產出
短期線上課程	Coursera、Udemy、Hahow	3,000 – 30,000	4-12 週	單一技能 + 結業證書
密集訓練營	AIA 人工智慧學校、六角學院、ALPHA Camp AI	60,000 – 180,000	3-6 個月	作品集 + 業界鏈結
專業認證	AWS ML、GCP ML、NVIDIA DLI	15,000 – 50,000	自學 + 考試	廠商認證
海外線上碩士	SIT MSCS、GGU MSAI、BU MSAAI	260,000 – 510,000	12-20 個月	海外正規碩士學位

這四類不是互斥，但初期選錯會很傷。我們的建議：

如果你目前月薪 4-6 萬、工作 2-5 年、還沒確定要投入 AI： 先花 NT$3,000-20,000 上一門線上課程（例如 Coursera 的 Andrew Ng Deep Learning Specialization）試水溫，投入 3 個月確認自己是真的喜歡、也讀得下去。這是止損成本最低的選項。

如果你已經確定要全力轉型、但沒有海外學歷的需求： 密集訓練營（3-6 個月 NT$10-18 萬）會比線上課程密度高很多，有助教、有同學、有業師——但「訓練營不等於學歷」，履歷上只能當作加分項，不能取代學位。

如果你要的是「學歷 + 能力」雙重保險，想在職涯中長期占據 AI 相關職位： 海外線上碩士是最符合成本效益的選項。為什麼？因為它同時給你三件事：正規學位（履歷關鍵）、兩年扎實訓練（不是兩週）、海外校友人脈。下面會詳細拆。

台灣本地 AI 補習班的真實樣貌

台灣本地 AI 補習班市場在 2023-2026 年快速擴張，但良莠不齊。以下是常見的幾個坑，我們依據 104、PTT、Dcard 等公開資料歸納：

坑一：重 Demo 輕原理。 課程內容大量以「跑模型、調 API」為主，缺乏數學原理與工程思維訓練。學員結業後仍然只會 copy 別人寫好的程式碼。
坑二：講師背景造假。 有些課程講師宣稱「矽谷科技大公司工作多年」，但實際查證是短期實習或非技術職。報名前要求看 LinkedIn 完整經歷。
坑三：作品集虛灌。 結業作品集往往是全班做同一個題目、同一個資料集。找工作時面試官一眼看穿，反而扣分。
坑四：就業承諾不實。 某些訓練營宣稱「100% 就業保證」，細看合約才發現「就業」定義包括派遣、外包、甚至非 AI 崗位。
坑五：無學歷可認列。 台灣勞動部部分職訓補助須經過審核，且補習班結業證書不能在履歷上當學歷使用——這和海外碩士差別極大。

如果你的目標是一兩年內真的進入 AI 相關職位、而且希望履歷上有能被國際認證的東西，付費投資海外碩士的 ROI 通常高於本地補習班。但海外碩士不是人人適合，下一段我們拆清楚。

數學底子補強後，到底要不要繼續念碩士？

打完 30+30 天的線性代數與微積分地圖、跑完幾門 Coursera 或 fast.ai 課程後，很多人會問：這樣夠了嗎？還要念碩士嗎？答案取決於你的職涯目標。我們用四個維度來判斷。

維度一：你想做什麼職位？

台灣 AI 相關職位大致分成四層，每一層對學歷和能力的要求都不同。

職位層級	職稱範例	台灣薪資月薪（2026 估）	學歷門檻	核心能力
L1 使用者	AI 導入專員、Prompt 工程師	NT$4-7 萬	大學即可	會用工具、會寫 prompt
L2 工程師	ML 工程師、資料科學家	NT$7-15 萬	大學 / 碩士優先	會調模型、會寫程式
L3 資深 / 架構	AI 架構師、資深 ML 工程師	NT$15-25 萬	碩士為主	會設計系統、會跨團隊溝通
L4 研究 / 技術主管	研究員、AI 處長、AI 總監	NT$25-50+ 萬	碩士 / 博士為主	會讀論文、會帶領團隊、會決策

如果你的目標只是 L1（例如行銷、PM 加上 AI 工具），補習班或線上課程就夠了。但從 L2 開始，台灣主流科技公司（台積電、聯發科、鴻海研究院、中信金、國泰金的 AI 部門、momo、蝦皮、LINE TW、Google TW、KKday）在徵才條件上幾乎都寫「碩士以上優先」。這不是歧視，而是 L2 以上的工作強度與溝通複雜度確實需要系統化訓練。

維度二：你的時間和預算？

海外線上碩士的時間成本是 12-36 個月、金錢成本是 NT$26-60 萬（視學校而定）。它們分成三個預算層級：

層級	代表課程	學費（USD）	學費（NT$ 約）	時長	門檻
入門親民	HPU MSAI	7,040	21.8 萬	1 年	專科可申請
中階主流	GGU MSAI / BU MSAAI	8,500 – 8,700	26.4 – 27 萬	1 – 1.5 年	專科 / 本科
高階技術	SIT MSCS / IIT 理工碩	12,000 – 16,500	37.2 – 51.2 萬	1.5 – 2 年	需本科
博士層	GGU PsyD / DBA	21,172	65.6 萬	2 – 3 年	碩士為主

如果你月薪 NT$6 萬、存款有 30 萬，GGU MSAI 的 USD 8,500（約 26 萬）是最平衡的選項——時長一年、全中文、可在職、免出國、免 GRE/GMAT。如果你月薪 NT$10 萬以上、願意投資在長期技術深度，SIT MSCS 的 USD 16,500 雖貴但 Middle States + ABET + AACSB 三認證、ROI 全美 #3 的品牌長期價值較高。

維度三：你的背景？

這三所學校對背景的要求差很多：

SIT MSCS：需本科 CS / 相關理工科系、英文能力好、數學底子紮實。適合已經有程式基礎、想進一步紮進學術深水區的人。台灣學生申請的大多是本科電機、資工、應用數學、物理等。
GGU MSAI：WSCUC 認證、專科可申請、中文授課、一年完成。適合台灣在職者、非本科轉職、中文舒適圈者。
BU MSAAI：SACSCOC + IACBE 雙認證、應用導向、1.5 年完成。適合已在職但想補強 AI 應用能力、希望課程偏實務的人。

維度四：你的人生階段？

碩士不是人人都合適，要看你的人生階段。

階段	建議路徑	理由
剛畢業 0-2 年	先進職場打底再說	沒有工作經驗，碩士課程吸收有限
工作 3-7 年（迷惘期）	強烈建議念	最佳投資期、薪資槓桿最大
工作 8-15 年（穩定期）	視目標決定	如要升主管、轉型，碩士仍有助力
工作 15+ 年（高階期）	考慮博士 / EMBA	碩士的邊際效益下降
有育兒負擔	選一年制 + 線上	GGU MSAI / HPU MSAI 最適合

決策表一目了然：3-7 年工作經驗、迷惘想轉 AI、有基本英文和數學底、願意花一年時間——這是線上碩士 ROI 最高的族群。你是不是，自己對照看看。

3 位非 CS 背景者的神經網路學習軌跡：真實個案拆解

光看理論很難體會，我們整理三個來自彼岸教育合作學校的真實學員側寫（部分細節經修飾避免辨識），讓你看看非本科轉職者是怎麼走過來的。

個案一：財金本科、月薪 6 萬的國泰金專員——Peggy，29 歲

背景： 政大財金系畢業，在國泰金控做了五年風控專員，每天跑 Excel 跑 VBA。月薪 6.2 萬，加上年終大約年收 110 萬。2024 年看到金融業 AI 取代人力的趨勢，意識到再不轉型會被淘汰。

學習軌跡（2024 年 6 月起）：

月 1-3： 跑 Coursera Andrew Ng 機器學習，每晚 2 小時，堅持完課。
月 4-6： 跑 3Blue1Brown + 李宏毅 ML，補線代和微積分，假日全天投入。
月 7-9： 做三個作品集項目：信用卡詐欺偵測、保戶流失預測、財報 NLP 分類。放 GitHub。
月 10： 申請 GGU MSAI（USD 8,500、1 年、全中文）。錄取入學。
月 11-22： 在職念完碩士。畢業論文做「保險業客戶流失的深度學習預測」。
月 23： 內部轉調到國泰金 AI 研發部門，月薪升到 8.5 萬，加上碩士學歷加給年收來到 150 萬。

她的自述：「數學底子是我最擔心的，但 30 天把線代和微積分地毯式刷過一次，真的就過了第一關。GGU 的優點是全中文、一年制、一邊上班一邊念不會爆肝。最大的報酬不是薪水漲了 50%，是我真的懂模型在做什麼——開會的時候能和工程師對話，不再只是提需求的那個人。」

個案二：英文系出身、月薪 4.5 萬的行銷專員——Kevin，32 歲

背景： 輔大英文系畢業，做了六年 B2C 電商行銷（某台灣中型電商），月薪 4.5 萬，加上績效獎金年收約 80 萬。2023 年 ChatGPT 爆紅後發現自己每天做的事情已經有 70% 被 AI 工具取代，意識到必須升級成「指揮 AI 的人」。

學習軌跡（2024 年 2 月起）：

月 1-2： 跑 Coursera DeepLearning.AI 的 ChatGPT Prompt Engineering。確認自己讀得下去英文課程。
月 3-5： 硬啃 Khan Academy 微積分、Mathematics for ML 前四章。過程痛苦但撐住。
月 6-8： 每天 1 小時 fast.ai + 李宏毅 ML，跟著做 MNIST、CIFAR-10。
月 9： 申請 BU MSAAI（USD 8,700、1.5 年、英文）。雖然英文系讀商學院英文沒問題，但技術英文花了兩個月適應。
月 10-27： 在職 + 帶兩個小孩念完碩士。畢業論文做「多模態商品推薦」。
月 28： 跳槽到 momo 電商做 AI 產品經理，月薪 9 萬，年收來到 150 萬。

他的自述：「我最怕的是數學。結果發現 AI 工程實務用到的微積分，比高中學測還簡單——前提是你要看懂為什麼要用它。BU 的課程很注重應用，課業 loading 中等，適合在職爸爸。數學打底那半年是最痛苦的，但撐過去以後一切都變得輕鬆。」

個案三：機械本科、月薪 5.5 萬的研發工程師——Leo，34 歲

背景： 台科大機械系畢業，在某工業電腦公司做機構研發六年，月薪 5.5 萬，年收 100 萬。本科有修過工程數學，所以線代和微積分基礎還在，但完全沒碰過機器學習。目標是跨入「智慧製造 / 機器視覺」領域。

學習軌跡（2024 年 1 月起）：

月 1-2： 用兩個月把大學線代和微積分全複習一遍，做 Paul’s Online Math Notes 的題庫。
月 3-5： 深度學習專攻視覺——CS231n 全套、PyTorch 官方教學、fast.ai。
月 6-8： 自己做工業檢測的專題：用 YOLOv8 偵測金屬表面瑕疵。放 GitHub 有 30 個 star。
月 9： 申請 SIT MSCS（USD 16,500、20 個月、英文）。本科相符加上專題讓他拿到錄取。
月 10-30： 在職念完。畢業專題結合原公司資源做「即時產線瑕疵偵測系統」。
月 31： 升為公司 AI 架構師，月薪 14 萬，年收 220 萬。同時接到鴻海研究院挖角，選擇留下但拿到大幅加薪。

他的自述：「我的優勢是本科有工程數學底、英文還行、公司願意讓我用上班時間做專案。SIT MSCS 的課業非常重，但正因為重所以含金量高。我畢業那份專題直接變成公司的產品功能，也就是說這個學位從第一天就在賺錢。ROI 其實是負的——因為讀書讓我整年多賺的比學費還多。」

三個案例的共同模式

元素	Peggy	Kevin	Leo
投入時間總長	約 23 個月	約 28 個月	約 31 個月
數學打底階段	6 個月	5 個月	2 個月（本科優勢）
碩士學校	GGU MSAI（中文）	BU MSAAI（英文）	SIT MSCS（英文技術）
畢業後月薪漲幅	+37%	+100%	+155%
年收成長	+36%	+88%	+120%
學費	26.4 萬	27 萬	51.2 萬
投資回收期	約 19 個月	約 9 個月	約 6 個月

從這三個案例你能看到的共同模式是：先打底 → 再申碩士 → 再論文結合本業。最失敗的轉職路徑是倒過來：一開始就砸錢念碩士、數學沒底、論文寫不出來、畢業也沒東西可放進履歷。

常見陷阱：7 個初學者會踩的地雷

從打底到轉職成功，路上有七個地雷很多人會踩。我們逐一拆解，讓你提早避開。

陷阱一：只會 copy code 不懂原理

最常見。初學者跑過幾個 Kaggle Notebook 以後就以為自己會了，面試被問「為什麼 learning rate 要這樣設？」、「為什麼 batch size 改小模型會爆？」就答不出來。解法是每跑完一段程式碼問自己三個問題：（1）這段在做什麼數學運算？（2）如果我改掉這個參數會發生什麼？（3）如果它壞了我怎麼 debug？

陷阱二：過度追求最新模型

2025-2026 年幾乎每週都有新論文、新模型、新框架。有人花整個週末讀最新的 LLM paper，卻連反向傳播都還不熟。結果變成「什麼都聽過，什麼都不會」。解法是：先把 2017 年以前的基本模型（CNN、RNN、基本 Transformer）完全吃透，再追後面的進展。

陷阱三：不做專案只看影片

影片很舒服、不燒腦、有成就感幻覺。但你腦袋裡跑過 1000 小時影片，手指頭寫過的 code 不到 1000 行，面試一寫題就崩。解法是強迫自己「每週寫一個最少 200 行的小專案」、「GitHub 每週至少一個 commit」，沒人管你就自己訂紀律。

陷阱四：跳過數學直接跑模型

很多補習班講師為了減少學員流失率，把數學內容壓到最低。結果學員學完還是只能調 API。等到遇到複雜問題（模型不收斂、GPU 記憶體爆、結果跟預期差很多）就完全失能。解法是前 60 天強迫自己做完 30+30 天的線代與微積分地圖，再碰任何框架。

陷阱五：做錯資料集

初學者常常拿 Kaggle 舊比賽資料、或網路上流傳的 demo dataset 當作品集。面試官看到 Titanic、Iris、MNIST 只會嘆氣。解法是自己爬公開 API（政府 Open Data、PTT、Dcard、台灣證交所）、自己做標註、自己建資料管線——這個過程才是 AI 工程師的核心技能。

陷阱六：找不到 mentor

自學最大困境不是資源不夠，是沒人告訴你對錯。你花 20 小時自己研究一個 bug，有經驗的工程師一眼就看出是 batch norm 的模式設錯了。解法是去 Discord 找 AI 社群、去 LinkedIn 敲有經驗的人、或報名碩士課程（這是碩士最被低估的價值——你有一整個學期的教授、助教、同學可以問）。

陷阱七：忽略工程能力

很多人把「AI 工程師」想成「寫數學公式的人」。錯。AI 工程師 80% 的時間在做資料前處理、系統架構、部署優化、監控 debug。你會的不是 PyTorch 的 API 而是一整套從資料到產品的工程流程。解法是同時學 Git、Docker、Linux、SQL、Cloud（AWS/GCP/Azure 任一）——這些不是加分項，是必備。

成本 ROI 計算：三條路徑的十年總回報

最後一個最實際的問題：投資 AI 轉職到底划不划算？我們用十年期現金流做一次計算。

情境設定

假設你現在是月薪 6 萬的專員，年收 100 萬。三個情境：

情境 A：維持現狀，假設年收以每年 3% 成長
情境 B：花 20 萬上本地訓練營，預估升到 L2 工程師，月薪 9 萬（年收 140 萬）
情境 C：花 26 萬念 GGU MSAI，預估升到 L2-L3，月薪 11 萬（年收 170 萬）
情境 D：花 51 萬念 SIT MSCS，預估升到 L3 架構師，月薪 14 萬（年收 220 萬）

十年累積淨收入對比

年份	A 維持現狀	B 訓練營	C GGU	D SIT
Y1	100	100-20 = 80	100-26 = 74	100-51 = 49
Y2	103	140	170（但 0.5 年還在念）	220（但 2 年念書年）
Y3	106	144	175	226
Y4	109	149	180	233
Y5	113	153	186	240
Y6	116	158	191	247
Y7	119	162	197	255
Y8	123	167	203	262
Y9	127	172	209	270
Y10	130	178	215	278
10 年累積（萬）	1,146	1,503	1,800	2,280

（以上數字均為估算，實際依個人能力、機運與市場環境而定）

關鍵結論

維持現狀 10 年累積 1,146 萬
訓練營（B）相對 A 多賺 357 萬，ROI 約 17.8 倍
GGU MSAI（C）相對 A 多賺 654 萬，ROI 約 25 倍
SIT MSCS（D）相對 A 多賺 1,134 萬，ROI 約 22 倍

你會發現：最貴的 SIT 絕對回報最高，但 ROI 倍數反而略低於 GGU（因為初始投入大、年數損失多）。換句話說：SIT 適合你願意投入長線、目標是 L3-L4 的人；GGU 適合想快速轉入 L2、成本控制型的人。訓練營適合短期小試、不打算走深的人。

但要提醒：這些數字都建立在「你真的學得到位、真的轉職成功」的前提下。如果你念完 SIT 卻還是只能做 L1 工作，ROI 就會變成負的。這就是為什麼前面花那麼大篇幅講數學底子、講陷阱、講紀律——能不能把碩士學費賺回來，不在學校、在你自己。

行動方案與時程表：從今天到兩年後的完整地圖

我們把所有資訊整合成一張實踐地圖。如果你今天（2026 年 4 月 14 日）開始，兩年後（2028 年 4 月）要從月薪 6 萬的專員轉成月薪 12 萬以上的 AI 工程師，建議時程如下。

Month 1-2：線性代數 + 微積分打底

每天 2 小時，不能斷（週末加倍）
執行前述兩張 30 天地圖
產出：一個寫在 GitHub 的「純 NumPy 手刻兩層神經網路」專案
花費：0 元（全免費資源）

Month 3-4：機器學習基礎

Coursera：Andrew Ng 機器學習 Specialization（3 門課程）
李宏毅機器學習 2024 全部看完
做 3 個小型 Kaggle 比賽（不求名次，求完整 pipeline 經驗）
花費：Coursera 月費約 NT$1,500，共 NT$3,000

Month 5-6：深度學習 + 框架實戰

fast.ai 完整課程
PyTorch 官方教學 + 一個自選專題（視覺 / NLP / 時序，選一個）
開始關注 Hugging Face、Papers with Code
花費：可免費，也可花 NT$1-3 萬上進階課程

Month 7：決定念不念碩士、申請學校

盤點工作時間、家庭狀況、英文程度
選定 HPU / GGU / BU / SIT 其中一所
準備申請文件（推薦信、履歷、SOP、作品集）
彼岸教育免費諮詢（https://lin.ee/PjTqmMC）確認路徑

Month 8：接到錄取通知

通常 1-2 個月會有結果
註冊入學、準備開課
預估花費：USD 7,040 – 16,500（依學校）

Month 9-20（GGU / HPU 一年制）或 Month 9-26（BU 1.5 年、SIT 20 月）

在職念書：每週 10-15 小時學業、搭配本職工作
每門課結束都寫一份「學到什麼」的心得
最後一學期做畢業專題——強烈建議結合本業題材

Month 21+ 或 Month 27+：轉職或升遷

履歷寫上「碩士學位 + 畢業專題 + GitHub 作品集」
內部升遷優先（降低跳槽風險）
若要跳槽：聯發科、台積電、國泰金、中信金、LINE TW、Google TW 等都是 AI 職缺大戶
目標：月薪從 6 萬升到 11-14 萬

兩年後

你的履歷會從「某某公司專員」變成「具備深度學習原理、PyTorch 實戰、海外碩士學位、一個可用於本業的 AI 專題」的工程師候選人。這不是煉金術，是紀律 + 方法 + 適當的投資。

FAQ：神經網路與 AI 轉職常見問題

完全沒碰過程式語言，可以學神經網路嗎？

可以，但要先花 1-2 個月把 Python 基礎打好。推薦 Automate the Boring Stuff with Python（免費線上書）加上一些小專案。程式寫過 500 行以後再來碰神經網路會順很多。如果連這個基礎都沒有就去上 AI 課，只會在課堂上追不上進度、挫折感爆棚。

數學真的有那麼重要嗎？看到很多人說只要會 prompt engineering 就好

Prompt engineering 是 L1 級的技能，月薪天花板大概 7 萬。從 L2 開始（月薪 8-15 萬），你必須會調模型、看論文、改 hyperparameter、debug 訓練失敗。這些沒有數學完全不行。短期你可以靠工具混過去，中長期一定會卡住。

我 40 歲以上轉職做 AI 還來得及嗎？

來得及，但要調整期待。40+ 想做研究員比較難（學術界有年齡偏好）；想做 L2-L3 應用型 AI 工程師完全可以。你的優勢是「本業經驗」——做金融的你懂金融業務、做醫療的你懂醫療流程、做製造的你懂工廠場景。把 AI 當工具結合本業，比年輕的純技術新鮮人更值錢。GGU MSAI 和 BU MSAAI 是中年轉職的好選擇。

線上碩士在台灣有被認可嗎？HR 會不會刻意刁難？

只要學校有美國正規認證（例如 WSCUC、SACSCOC、Middle States 這些區域型認證），教育部會認，台灣 HR 也認。問題在於「學校是真的有實體校園、實體教授、正規課程」而不是文憑工廠。我們合作的 HPU、GGU、BU、SIT、IIT 都是美國教育部認證的完整大學，沒有這個問題。你可以在履歷上堂堂正正寫上「MSCS, Stevens Institute of Technology」或「MSAI, Golden Gate University」，跟全日制學位同等有效。

念碩士的時候我工作太忙怎麼辦？

選擇一年制或 1.5 年制的課程（HPU、GGU、BU），每週工作時數壓在 10-15 小時，配合工作需求挑選課程順序。彼岸教育提供的顧問諮詢可以幫你規劃學期安排，避開旺季。

我是台灣專科畢業，可以直升碩士嗎？

可以。HPU、GGU、BU 都接受專科+工作經驗直升。SIT 和 IIT 則需要本科學歷。這是 GGU 對台灣在職者最大的吸引力之一。

碩士 vs 博士，該選哪個？

除非你要走學術研究、或考慮往大學教職、或資深管理職想要「博士」頭銜，否則碩士已足夠。博士（例如 GGU PsyD 或 DBA）投入 2-3 年、USD 21,172，適合已經是中高階主管、想進一步差異化的人。一般轉職 AI 工程師，碩士是剛好的投資。

GGU 的 MSAI 和 BU 的 MSAAI 差別在哪？

GGU MSAI 是中文授課、一年完成、USD 8,500，強調 AI 基礎 + 商業應用，適合完全在職、希望快進快出、沒有強烈英文偏好的人。BU MSAAI 是英文授課、1.5 年完成、USD 8,700，雙認證（SACSCOC + IACBE），課程更偏工程實作，適合英文能力尚可、想要更扎實技術訓練的人。兩個選擇都很合理，看你自己的時間和語言偏好。

SIT MSCS 為什麼值得多花那麼多錢？

SIT（史蒂文斯理工學院）位於紐澤西 Hoboken，地理上毗鄰紐約金融區，Middle States 加上 ABET + AACSB 三認證是美國工程碩士的黃金標準。ROI 全美 #3（PayScale 長年數據）。MSCS 是正統 CS 碩士——不是 AI 應用碩士——所以數學 / 演算法 / 系統設計的訓練非常扎實。畢業生在美國就業市場也非常搶手（雖然 H1B 簽證是另一個議題）。如果你目標是 L3 以上技術職位、長期想在 AI 領域蹲下來，SIT 投資回報會比 L2 為主的 AI 應用碩士高。

彼岸教育可以幫我做什麼？

我們的服務包括：（1）免費諮詢幫你釐清路徑 / 選校 / 選課程（2）協助申請文件（履歷、推薦信、SOP）（3）入學後的學業支援 / 台灣學生社群（4）同時代理台灣學生到 HPU、GGU、BU、SIT、IIT、Duke、Penn、Virginia Tech、NAU、Stevens、HPU、Cleveland、RIT、Concordia、Kettering、Stanford Online、UMass 等多所美國正規大學的線上碩博士課程。如果你還在迷惘，最省時的一步就是先加 LINE 預約一次諮詢：https://lin.ee/PjTqmMC。

結語：從今天的這個下午開始

看到這裡你已經讀了八千個以上的中文字。這其實已經比多數人願意投入的時間多了——而這只是一篇介紹文章。真正要走完神經網路入門、打完數學底、念完碩士、轉職成功的路徑，需要的是 730 個這樣的下午。

但你不需要一次吞下所有。今天做一件事就好：打開 YouTube 找 3Blue1Brown 的《線性代數的本質》第一集，用 15 分鐘看完，然後在筆記本上寫下一句話——「我今天開始了」。

如果你需要有人幫你規劃整條路線、挑選最適合你的碩士課程、協助你跨越申請流程——彼岸教育是台灣市場上少數能同時提供 5 校 20+ 個線上碩博士課程顧問的單位，我們從 2017 年服務台灣在職者至今，見過太多「數學沒底卻硬念」和「明明能念卻一直拖」的案例。預約一次免費 30 分鐘的線上諮詢，我們幫你省下兩年的試錯成本。

LINE 預約諮詢： https://lin.ee/PjTqmMC 台灣官網： https://beaconedu.tw/

現在就開始，兩年後的你會感謝今天的你。

參考資料

3Blue1Brown – Essence of Linear Algebra（線性代數的本質）：https://www.3blue1brown.com/topics/linear-algebra — 視覺化教學黃金標準，適合任何程度的學習者。
Khan Academy Linear Algebra & Multivariable Calculus：https://www.khanacademy.org/math/linear-algebra — 從零開始的免費數學課，含練習題與即時回饋。
李宏毅機器學習 / 深度學習（台大）YouTube：https://www.youtube.com/@HungyiLeeNTU — 中文 AI 教學最完整資源之一，涵蓋從基本 ML 到最新 LLM。
MIT OpenCourseWare 18.06 Linear Algebra (Gilbert Strang)：https://ocw.mit.edu/courses/18-06-linear-algebra-spring-2010/ — 美國名校線性代數經典課程，完全免費開放。
Mathematics for Machine Learning (Deisenroth, Faisal, Ong)：https://mml-book.github.io/ — 劍橋教授著作，從數學基礎銜接到機器學習，免費 PDF 下載。
Deep Learning Book (Goodfellow, Bengio, Courville)：https://www.deeplearningbook.org/ — 深度學習領域最具影響力的教科書，線上免費閱讀。
Stanford CS231n / CS224n / CS229：https://cs231n.stanford.edu/、https://web.stanford.edu/class/cs224n/、https://cs229.stanford.edu/ — Stanford 三大 AI 核心課程，筆記與作業全公開。
Papers with Code：https://paperswithcode.com/ — 機器學習最新論文與對應程式碼配對。
104 人力銀行 AI 職缺頁：https://www.104.com.tw/jobs/search/?keyword=AI — 台灣 AI 職位市場即時資料。
勞動部勞動力發展署產業人才投資方案：https://tims.etraining.gov.tw/ — 台灣在職進修可申請的職訓補助官方資訊。