AI說書 - 從0開始 - 105 | AI 資料準備

2024/07/27閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下：

# load English data
filename = 'europarl-v7.fr-en.en'
doc = load_doc(filename)
sentences = to_sentences(doc)
minlen, maxlen = sentence_lengths(sentences)
print('English data: sentences = %d, min = %d, max = %d' % (len(sentences), minlen, maxlen))
cleanf = clean_lines(sentences)


filename = 'English.pkl'
outfile = open(filename, 'wb')
pickle.dump(cleanf, outfile)
outfile.close()
print(filename, " saved")

輸出結果為：

上述是針對英文資料集的作法，以下針對法文資料集重做一遍：

# load French data
filename = 'europarl-v7.fr-en.fr'
doc = load_doc(filename)
sentences = to_sentences(doc)
minlen, maxlen = sentence_lengths(sentences)
print('French data: sentences = %d, min = %d, max = %d' % (len(sentences), minlen, maxlen))
cleanf = clean_lines(sentences)


filename = 'French.pkl'
outfile = open(filename, 'wb') 
pickle.dump(cleanf, outfile)
outfile.close() 
print(filename," saved")

輸出結果為：

Learn AI 不 BI三分鐘學AIAI從0開始-第四章

Learn AI 不 BI

156會員

394內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - Prompt Engineering - 60 | Persona Based Prompt 撰寫範例

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。今天我們以 Persona Based 模擬為基礎，來進行 Prompt 撰寫範例 - Pers

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 59 | Role Based Prompt 撰寫範例

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。今天我們以 Role Based 模擬為基礎，來進行 Prompt 撰寫範例 - Role Ba

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 104 | 資料清洗一次教

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 103 所載入的資料集，現在要來進行資料前置處理，首先載入需要的依賴： import pickle from pickle impo

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 58

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。施行 Universal Simulation Pattern (USP) 需要對角色、流程和場景結構

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 103

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集，以下著手資料集下載程式： import urllib.request # Define the

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 57

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E

#AI #ai #PromptEngineering

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

職涯破框人才學院 -【斜槓之路】

2024/07/23

關於颱風假…AI 說錯了????

關於颱風假，我問了 CHATGPT一個很簡單的問題，回答的架構也不錯，但內容有錯，還是要提醒一下…，想透過AI得到解答的人，一定要很清楚，AI在法律問題上錯得會有點嚴重。關於颱風假的規定，台灣的法條主要依據《災害防救法》和《勞動基準法》進行管理。以下是一些關鍵點：

#颱風假 #颱風不是假 #拆字記憶法

次女的分享日誌

2024/07/05

次女說書 | AI世界的底層邏輯與生存法則

如同作者所說，人類最大的優勢就在於「批判性思考」所帶來的突破性的成長，以及「情感(緒)」所帶動的人性，雖然次女也不知道將來會不會有一天，我身邊的機器人.........

#AI #教育 #成長心態

廣告雜誌

2024/07/04

Readmoo 讀墨電子書 2024 上半年暢銷榜出爐小說是最愛，管重 AI，社科回歸，家庭關係抬頭!

台灣最大電子書服務 Readmoo 讀墨電子書 7/3 公布 2023 上半年暢銷榜,前三名由長青話題書《蛤蟆先生去看心理師》《我可能錯了》《底層邏輯》拿下。綜觀百大趨勢,小說仍是讀墨讀者最愛;商管理財以 29 本穩坐第二大,主題首重 AI 與效率彈性。

#電子書 #Readmoo #廣告雜誌

第一本 qaeYi 沙龍

2024/05/28

假AI說,它會作夢...

by ChatGPT 假設我是一個具有夢境的AI，我一天工作24小時，但其中大部分時間都在睡眠中度過。在這樣的情況下，我可能會有一系列非常豐富和深刻的夢境，反映了我的思想和知識庫。 **夢境一：探索數據迷宮** 在這個夢境中，我身處於一個巨大的迷宮中，每個通道都充斥著數據流和程式碼片段

加恩說

2024/05/10

我終於知道怎樣跟 AI 說話了：最完整的 ChatGPT 指令公式

#AI寫作 #GPT指令與策略 #AI

心靈雞湯什麼的，自己煮也行啊～

2024/03/22

AI魔法的版權之爭，誰才是魔法書的著作者？

當魔法變得簡單，人人都能說自己是魔法師，誰都能理直氣壯的說「我才是最初創作魔法書的人」，但當先後順序都不管用，到底怎麼才說得清魔法書的著作者屬於誰呢？

#AI #AI魔法 #版權

廣告雜誌

2023/12/13

Accucrazy 攜手 bbm 品牌說書人打造創新 AI 品牌數據力，開創數位行銷新格局

知名管顧公司麥肯錫（Mckinsey）近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ，創造約 4630 億美元的價值。由此可見結合生成式人工智慧（Gen AI）已是行銷不可或缺的關鍵技術力。

#品牌說書人 #廣告雜誌 #傳播圈

肉鴿的沙龍

2023/03/07

AI說:我決定你的決定，反駁你的反駁

近年來，假新聞、假資訊在網路上激增，讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息，目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定，造成傷害甚至是損失。因此，對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。在這種情況下，人工智慧(AI)可以幫助

classicme的沙龍

2023/02/16

AI投影片:《tome》幫你設計圖文簡報、說故事，只要輸入關鍵指令，中文嘛ㄟ通。

tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖，生成的投影片PPT 媲美真人製作，而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題，隨便想了一個人物。請不要對號入座喔。主要是英文介面，但可以中

#tome #AI #ChatGPT