2024-07-25|閱讀時間 ‧ 約 23 分鐘

AI說書 - 從0開始 - 103

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集,以下著手資料集下載程式:

import urllib.request

# Define the file URL
file_url = "https://www.statmt.org/europarl/v7/fr-en.tgz"

# Define the destination file path
destination_file = "/content/fr-en.tgz"

# Download the file
urllib.request.urlretrieve(file_url, destination_file)


接著來追蹤此檔案:

import tarfile

# Extract the tar file
with tarfile.open(destination_file, 'r:gz') as tar_ref:
tar_ref.extractall("/content/fr-en")


一旦完成後,會在下列路徑出現兩檔案,分別為:

  • /content/fr-en/europarl-v7.fr-en.en
  • /content/fr-en/europarl-v7.fr-en.fr
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.