AI說書 - 從0開始 - 105 | AI 資料準備

發佈於三分鐘學AI

2024/07/27 更新2024/07/27 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下：

# load English data
filename = 'europarl-v7.fr-en.en'
doc = load_doc(filename)
sentences = to_sentences(doc)
minlen, maxlen = sentence_lengths(sentences)
print('English data: sentences = %d, min = %d, max = %d' % (len(sentences), minlen, maxlen))
cleanf = clean_lines(sentences)


filename = 'English.pkl'
outfile = open(filename, 'wb')
pickle.dump(cleanf, outfile)
outfile.close()
print(filename, " saved")

輸出結果為：

raw-image

上述是針對英文資料集的作法，以下針對法文資料集重做一遍：

# load French data
filename = 'europarl-v7.fr-en.fr'
doc = load_doc(filename)
sentences = to_sentences(doc)
minlen, maxlen = sentence_lengths(sentences)
print('French data: sentences = %d, min = %d, max = %d' % (len(sentences), minlen, maxlen))
cleanf = clean_lines(sentences)


filename = 'French.pkl'
outfile = open(filename, 'wb') 
pickle.dump(cleanf, outfile)
outfile.close() 
print(filename," saved")

輸出結果為：

raw-image

Learn AI 不 BI三分鐘學AIAI從0開始-第四章

留言

留言分享你的想法！

Learn AI 不 BI

238會員

834內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/08/10

AI說書 - 從0開始 - 122 | 第四章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121，我們完成書籍：Transformers for Natural Language Proc

2024/08/10

AI說書 - 從0開始 - 122 | 第四章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121，我們完成書籍：Transformers for Natural Language Proc

2024/08/09

AI說書 - 從0開始 - 121 | Back-Translation 使用情境

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在 AI說書 - 從0開始 - 120 中使用 Google Gemini 將一段英文翻譯成法文，那我不是法文專業者，怎麼知道翻譯的好不好呢？我可以使用 B

2024/08/09

AI說書 - 從0開始 - 121 | Back-Translation 使用情境

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在 AI說書 - 從0開始 - 120 中使用 Google Gemini 將一段英文翻譯成法文，那我不是法文專業者，怎麼知道翻譯的好不好呢？我可以使用 B

2024/08/09

AI說書 - 從0開始 - 120 | Google Gemini 使用

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力：回答如下：

2024/08/09

AI說書 - 從0開始 - 120 | Google Gemini 使用

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力：回答如下：

你可能也想看

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

在小小的租屋房間裡，透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材，打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖，並推薦蝦皮分潤計畫。

#手作#黏土手作#輕黏土

2025/09/09

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

在小小的租屋房間裡，透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材，打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖，並推薦蝦皮分潤計畫。

#手作#黏土手作#輕黏土

2025/09/09

小蝸慢慢爬

蝦皮分潤計畫-小豬與小蝸的婚姻神隊友

小蝸和小豬因購物習慣不同常起衝突，直到發現蝦皮分潤計畫，讓小豬的購物愛好產生價值，也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異？讓蝦皮分潤計畫成為你們的神隊友吧！

#蝦皮分潤計畫#蝦皮#聯盟行銷

2025/09/09

小蝸慢慢爬

蝦皮分潤計畫-小豬與小蝸的婚姻神隊友

小蝸和小豬因購物習慣不同常起衝突，直到發現蝦皮分潤計畫，讓小豬的購物愛好產生價值，也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異？讓蝦皮分潤計畫成為你們的神隊友吧！

#蝦皮分潤計畫#蝦皮#聯盟行銷

2025/09/09

最近AI的産圖越來越多，是時候開始整理了，隨機生成的廢圖基本上都清除了，剩下一堆感覺不差的挑一挑，只是數量有點多。

2024/08/04

最近AI的産圖越來越多，是時候開始整理了，隨機生成的廢圖基本上都清除了，剩下一堆感覺不差的挑一挑，只是數量有點多。

2024/08/04

Darren的沙龍

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

本文談及資料科學的領域與分工。首先是建造一個AI的研發流程，資料收集到 AI 模型訓練的過程，AI經歷這一切流程被創造出來並產生價值；再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。

#人工智慧#AI#資料科學

2024/07/05

Darren的沙龍

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

本文談及資料科學的領域與分工。首先是建造一個AI的研發流程，資料收集到 AI 模型訓練的過程，AI經歷這一切流程被創造出來並產生價值；再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。

#人工智慧#AI#資料科學

2024/07/05

自由豐盛社群 Glowing Up

AI 指令教學：借用名人故事和框架，快速吸引你的觀眾

在網路世界初出茅廬時，不管你的文章內容多有價值，大多數時你只會遇到一片寂靜。這篇文章將分享如何利用 AI 指令並借用名人故事和框架，快速吸引你的觀眾，讓你的內容更具影響力。

#名人效應#快速成長#內容創作

2024/06/17

自由豐盛社群 Glowing Up

AI 指令教學：借用名人故事和框架，快速吸引你的觀眾

在網路世界初出茅廬時，不管你的文章內容多有價值，大多數時你只會遇到一片寂靜。這篇文章將分享如何利用 AI 指令並借用名人故事和框架，快速吸引你的觀眾，讓你的內容更具影響力。

#名人效應#快速成長#內容創作

2024/06/17

莎姐的矽谷茶棧

你開始使用AI了嗎？

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

#ChatGPT#學習#AI

2024/06/14

莎姐的矽谷茶棧

你開始使用AI了嗎？

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

#ChatGPT#學習#AI

2024/06/14

無限智慧學院的沙龍

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

預計量子AI計算會在2032年左右來到，在這之前，我們還有充足的時間可以逐步去學習量子計算與演算法，讓我們按部就班，持續前進，做輕鬆無負擔的超前學習 !

#QuantumComputing#Qiskit#braket

2024/06/13

無限智慧學院的沙龍

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

預計量子AI計算會在2032年左右來到，在這之前，我們還有充足的時間可以逐步去學習量子計算與演算法，讓我們按部就班，持續前進，做輕鬆無負擔的超前學習 !

#QuantumComputing#Qiskit#braket

2024/06/13

張詠芯 AbbyChang 的沙龍

ep.48 成長思維與面對焦慮｜成長筆記

今天接觸到兩個重點方向，我覺得每個人都可以去嘗試思考，也是我最近在試著去了解更深的主軸： ①提升思維、善用AI工具。包括接觸商業和產品知識，再用工具加速、更有效達標。 ②自媒體——讓人認識你。如果要做自媒體，可以先思考目的，比如我的目標是寫作出書，就不需要花太多時間分享生活娛

#成長思維#成長#焦慮

2024/06/09

張詠芯 AbbyChang 的沙龍

ep.48 成長思維與面對焦慮｜成長筆記

今天接觸到兩個重點方向，我覺得每個人都可以去嘗試思考，也是我最近在試著去了解更深的主軸： ①提升思維、善用AI工具。包括接觸商業和產品知識，再用工具加速、更有效達標。 ②自媒體——讓人認識你。如果要做自媒體，可以先思考目的，比如我的目標是寫作出書，就不需要花太多時間分享生活娛

#成長思維#成長#焦慮

2024/06/09

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News