用JAX訓練神經網絡

于正龍（Ricky）

發佈於人工智能

更新於 2025/01/10發佈於 2023/01/10閱讀時間約 16 分鐘

Google JAX是一種用於轉換數值函數的機器學習框架。

它被描述為匯集了autograd（通過函數微分自動獲得梯度函數）和TensorFlow的XLA（加速線性代數）的修改版本。

它旨在盡可能地遵循NumPy的結構和工作流程，並與各種現有框架（如TensorFlow和PyTorch）一起工作。

JAX 的主要功能是:

grad: 自動微分/求導數
jit：編譯/加速
vmap：自動矢量化/批次處理(batch)
pmap：SPMD編程

首先導入必要的庫

import jax.numpy as jnp
from jax import grad, jit, vmap
from jax import random

再來定義一個函數random_layer_params

輸入為(m,n,key,scale)分別對應輸入神經元數量,輸出神經元數量

隨機key,和一個scale控制數值大小,主要功能是返回一個隨機初始化的層

下面那個函數init_network_params則是給定layer_sizes和隨機key

返回整個神經網路架構,這裡要提的key有點像其他框架的random_seed

目的是讓程式有可再現性.

# A helper function to randomly initialize weights and biases
# for a dense neural network layer
def random_layer_params(m, n, key, scale=1e-2):
  w_key, b_key = random.split(key)
  return scale * random.normal(w_key, (n, m)), scale * random.normal(b_key, (n,))

# Initialize all layers for a fully-connected neural network with sizes "sizes"
def init_network_params(sizes, key):
  keys = random.split(key, len(sizes))
  return [random_layer_params(m, n, k) for m, n, k in zip(sizes[:-1], sizes[1:], keys)]

layer_sizes = [784, 512, 512, 10]
step_size = 0.01
num_epochs = 10
batch_size = 128
n_targets = 10
params = init_network_params(layer_sizes, random.PRNGKey(0))

自動批處理預測

讓我們首先定義我們的預測函數。

請注意，我們正在為單個輸入範例定義這函數。

我們將使用 JAX 的 vmap 函數來自動處理batch(批量)，而不會降低性能。

from jax.scipy.special import logsumexp

def relu(x):
  return jnp.maximum(0, x)

def predict(params, image):
  # per-example predictions
  activations = image
  for w, b in params[:-1]:
    outputs = jnp.dot(w, activations) + b
    activations = relu(outputs)
  
  final_w, final_b = params[-1]
  logits = jnp.dot(final_w, activations) + final_b
  return logits - logsumexp(logits)

讓我們檢查一下我們的預測函數是否僅適用於單個輸入。

# This works on single examples
random_flattened_image = random.normal(random.PRNGKey(1), (28 * 28,))
preds = predict(params, random_flattened_image)
print(preds.shape)
(10,)
# Doesn't work with a batch
random_flattened_images = random.normal(random.PRNGKey(1), (10, 28 * 28))
try:
  preds = predict(params, random_flattened_images)
except TypeError:
  print('Invalid shapes!')
Invalid shapes!
# Let's upgrade it to handle batches using `vmap`

# Make a batched version of the `predict` function
batched_predict = vmap(predict, in_axes=(None, 0))

# `batched_predict` has the same call signature as `predict`
batched_preds = batched_predict(params, random_flattened_images)
print(batched_preds.shape)
(10, 10)

至此，我們擁有了定義神經網絡並對其進行訓練所需的所有要素。我們已經構建了一個自動批處理版本的預測，我們應該能夠在損失函數中使用它

我們應該能夠使用 grad 對神經網絡參數求損失的導數。最後，我們應該能夠使用 jit 來加速一切。

def one_hot(x, k, dtype=jnp.float32):
  """Create a one-hot encoding of x of size k."""
  return jnp.array(x[:, None] == jnp.arange(k), dtype)
  
def accuracy(params, images, targets):
  target_class = jnp.argmax(targets, axis=1)
  predicted_class = jnp.argmax(batched_predict(params, images), axis=1)
  return jnp.mean(predicted_class == target_class)

def loss(params, images, targets):
  preds = batched_predict(params, images)
  return -jnp.mean(preds * targets)

@jit
def update(params, x, y):
  grads = grad(loss)(params, x, y)
  return [(w - step_size * dw, b - step_size * db)
          for (w, b), (dw, db) in zip(params, grads)]

使用tensorflow/datasets讀取訓練資料

讓我們使用看看 tensorflow/datasets的dataloader

import tensorflow as tf
# Ensure TF does not see GPU and grab all GPU memory.
tf.config.set_visible_devices([], device_type='GPU')

import tensorflow_datasets as tfds

data_dir = '/tmp/tfds'

# Fetch full datasets for evaluation
# tfds.load returns tf.Tensors (or tf.data.Datasets if batch_size != -1)
# You can convert them to NumPy arrays (or iterables of NumPy arrays) with tfds.dataset_as_numpy
mnist_data, info = tfds.load(name="mnist", batch_size=-1, data_dir=data_dir, with_info=True)
mnist_data = tfds.as_numpy(mnist_data)
train_data, test_data = mnist_data['train'], mnist_data['test']
num_labels = info.features['label'].num_classes
h, w, c = info.features['image'].shape
num_pixels = h * w * c

# Full train set
train_images, train_labels = train_data['image'], train_data['label']
train_images = jnp.reshape(train_images, (len(train_images), num_pixels))
train_labels = one_hot(train_labels, num_labels)

# Full test set
test_images, test_labels = test_data['image'], test_data['label']
test_images = jnp.reshape(test_images, (len(test_images), num_pixels))
test_labels = one_hot(test_labels, num_labels)
print('Train:', train_images.shape, train_labels.shape)
print('Test:', test_images.shape, test_labels.shape)
Train: (60000, 784) (60000, 10)
Test: (10000, 784) (10000, 10)

訓練迴圈

import time

def get_train_batches():
  # as_supervised=True gives us the (image, label) as a tuple instead of a dict
  ds = tfds.load(name='mnist', split='train', as_supervised=True, data_dir=data_dir)
  # You can build up an arbitrary tf.data input pipeline
  ds = ds.batch(batch_size).prefetch(1)
  # tfds.dataset_as_numpy converts the tf.data.Dataset into an iterable of NumPy arrays
  return tfds.as_numpy(ds)

for epoch in range(num_epochs):
  start_time = time.time()
  for x, y in get_train_batches():
    x = jnp.reshape(x, (len(x), num_pixels))
    y = one_hot(y, num_labels)
    params = update(params, x, y)
  epoch_time = time.time() - start_time

  train_acc = accuracy(params, train_images, train_labels)
  test_acc = accuracy(params, test_images, test_labels)
  print("Epoch {} in {:0.2f} sec".format(epoch, epoch_time))
  print("Training set accuracy {}".format(train_acc))
  print("Test set accuracy {}".format(test_acc))
Epoch 0 in 28.30 sec
Training set accuracy 0.8400499820709229
Test set accuracy 0.8469000458717346
Epoch 1 in 14.74 sec
Training set accuracy 0.8743667006492615
Test set accuracy 0.8803000450134277
Epoch 2 in 14.57 sec
Training set accuracy 0.8901500105857849
Test set accuracy 0.8957000374794006
Epoch 3 in 14.36 sec
Training set accuracy 0.8991333246231079
Test set accuracy 0.903700053691864
Epoch 4 in 14.20 sec
Training set accuracy 0.9061833620071411
Test set accuracy 0.9087000489234924
Epoch 5 in 14.89 sec
Training set accuracy 0.9113333225250244
Test set accuracy 0.912600040435791
Epoch 6 in 13.95 sec
Training set accuracy 0.9156833291053772
Test set accuracy 0.9176000356674194
Epoch 7 in 13.32 sec
Training set accuracy 0.9192000031471252
Test set accuracy 0.9214000701904297
Epoch 8 in 13.55 sec
Training set accuracy 0.9222500324249268
Test set accuracy 0.9241000413894653
Epoch 9 in 13.40 sec
Training set accuracy 0.9253666996955872
Test set accuracy 0.9269000291824341

我們現在已經使用了三個 JAX API：

grad 用於求導數(gradient)
jit 用於加速
vmap 用於自動批量化(batch)

我們使用 NumPy 來指定我們所有的計算，並從 tensorflow/datasets 借用了強大的數據加載器，並在 GPU 上運行了整個過程。

為什麼會看到廣告

36會員

51內容數

人工智能工作經驗跟研究

留言

留言分享你的想法！

于正龍（Ricky）的沙龍的其他內容

為人工智能革命做好準備

世界目前正處於人工智能 (AI) 革命之中。人工智能有可能改變和徹底改變許多行業和我們生活的方方面面，而且越來越明顯的是，未來世界將嚴重依賴人工智能。人工智能將產生重大影響的關鍵領域之一是自動化領域。自動化是指在沒有人工干預的情況下使用技術來執行任務，已經存在了幾十年。然而，人工智能的

Fine-Tuning GPT3 for free

在您的數據上免費使用 GPT3 這是GPT3根據Reddit的一些笑話微調後生成的笑話之一。如需更多 AI 生成的笑話，請滾動至文章末尾，我會在其中寫一些我最喜歡的由 GPT3 生成的笑話。

#模型 #數據 #文件

命運石之門跟opeaigpt和linebot作品

故事開始於2010年7月28日，「未來道具研究所」社團的兩人，岡部倫太郎和椎名真由理去秋葉原廣播會館參加中鉢博士的時間旅行理論發表會，見到了年僅18歲就在《科學》雜誌上發表學術論文的天才少女牧瀨紅莉栖。發表會結束不久後，在會館8樓深處，岡部發現了身上滿是鮮血的紅莉栖。驚慌失措的他帶著真由理立刻離開會

#命運石之門 #人工智能

為人工智能革命做好準備

Fine-Tuning GPT3 for free

#模型 #數據 #文件

命運石之門跟opeaigpt和linebot作品

你可能也想看

【vocus 新商品上架】創作者打氣包🚨 4 月限定，免費數位商品

靈感用盡、鍵盤不再響，盯著喜歡、分享、留言的數字，心跳跟著小鈴鐺七上八下⋯⋯vocus 2025 年 4 月限定新商品，要為創作者打氣！ 🚨「創作者打氣包」最懂創作者的vocus，為創作者打造 ✨ 打氣包，包什麼？！四件道具挺創作者一、【打氣復活卷】專屬你的打氣小語，成功登記免費

#創作 #愚人節 #免費數位商品

方格子 vocus 官方沙龍

2025/03/24

「方格人氣王」挑戰賽🏆！發文互動拿禮物，登上首頁曝光！

全新 vocus 挑戰活動「方格人氣王」來啦～四大挑戰任你選，留言 / 愛心 / 瀏覽數大 PK，還有新手專屬挑戰！無論你是 vocus 上活躍創作者或剛加入的新手，都有機會被更多人看見，獲得站上版位曝光＆豐富獎勵！🏆

跑步，不只是腳步的移動，更是探索自我與世界的一種方式。在生活中不論是晨曦中的輕快小跑，還是激動人心的競賽路跑，都記錄著我們與土地、空氣以及個人互動，我們總能從中獲得成長的力量和努力的方向。本篇將帶大家了解各種多元的路跑形式，以及分享跑步的魅力和一些實用小資訊喔！

#運動 #馬拉松 #裝備

人生啊~就是點滿防禦變得更坦 ...

2025/01/09

用AI寫文章？試試這些簡單又好用的小技巧！

你有沒有想過，其實用AI來寫文章就像請了一個隨時待命的助手，只要你告訴它該做什麼，它就能立刻幫你搞定。但有時候，AI寫出來的東西感覺不夠 "人味"，對吧？別擔心！這篇文章就來教你如何讓AI幫你寫出有溫度又有趣的內容，簡單又高效。先來暖身：讓AI知道它該怎麼表現給AI一個角色把AI當成某個

#部落格 #AI #文章

他她她她媽還有時間寫的沙龍

2025/01/09

用了十年iPhone的我重投Android懷抱-TCL 50pro nxtpaper 5G後感

從iPhone 6 Plus, iPhone X到iPhone 12 pro，沒想過有一天我會重回Android的懷抱，直到TCL NXTPAPER手機的出現......

#eReader #2025手機推介 #2025閱讀器

Michael Ch的沙龍

2025/01/08

用「原子習慣」打造堅不可摧的資安文化：降低3C產業人員異動的資安風險

在台灣3C產業的高速變動環境中，企業人員異動頻繁，尤其在研發與資訊管理部門，離職與職位調整是常態。然而，多數企業在人員離職或職位變更時，往往忽略了資訊安全的延續性，導致機密資料外洩或資安責任斷層。 ISO 27002:2022條文6.5強調，企業應將資訊安全責任納入聘用終止或變更管理流程，確保即使

#資訊安全 #管理 #教育訓練

Karen的沙龍

2024/07/28

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN #Graph #dropout