我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式:
import urllib.request
# Define the file URL
file_url = "https://www.statmt.org/europarl/v7/fr-en.tgz"
# Define the destination file path
destination_file = "/content/fr-en.tgz"
# Download the file
urllib.request.urlretrieve(file_url, destination_file)
接著來追蹤此檔案:
import tarfile
# Extract the tar file
with tarfile.open(destination_file, 'r:gz') as tar_ref:
tar_ref.extractall("/content/fr-en")
一旦完成後,會在下列路徑出現兩檔案,分別為: