AI說書 - 從0開始 - 106 | 低頻率詞彙篩除方法

更新於 2024/07/29發佈於 2024/07/28閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

我們從 AI說書 - 從0開始 - 103 至 AI說書 - 從0開始 - 105 | AI 資料準備的努力，已經完成資料集前處理，現在需要定義一個函數來加載這些清理過的數據集，並在預處理完成後保存它們：

from pickle import load
from pickle import dump
from collections import Counter

# Load a clean dataset
def load_clean_sentences(filename):
	return load(open(filename, 'rb'))
	
	
# Save a list of clean sentences to file
def save_clean_sentences(sentences, filename):
	dump(sentences, open(filename, 'wb'))
	print('Saved: %s' % filename)

我們現在定義一個函數來創建一個詞彙計數器，了解一個詞在我們將解析的序列中使用的次數是很重要的，例如，如果一個詞在包含兩百萬行的數據集中只使用了一次，我們將浪費寶貴的 GPU 資源來學習它！讓我們來定義這個計數器：

# Create a frequency table for all words
def to_vocab(lines):
	vocab = Counter()
	for line in lines:
		tokens = line.split()
		vocab.update(tokens)
	return vocab

字詞出現頻率太低的，就把它拿掉：

# Remove all words with a frequency below a threshold
def trim_vocab(vocab, min_occurrence):
	tokens = [k for k, c in vocab.items() if c >= min_occurrence]
	return set(tokens)

Learn AI 不 BI三分鐘學AIAI從0開始-第四章

Learn AI 不 BI

211會員

528內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 60 | Persona Based Prompt 撰寫範例

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。今天我們以 Persona Based 模擬為基礎，來進行 Prompt 撰寫範例 - Pers

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 59 | Role Based Prompt 撰寫範例

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。今天我們以 Role Based 模擬為基礎，來進行 Prompt 撰寫範例 - Role Ba

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 104 | 資料清洗一次教

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 103 所載入的資料集，現在要來進行資料前置處理，首先載入需要的依賴： import pickle from pickle impo

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 58

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。施行 Universal Simulation Pattern (USP) 需要對角色、流程和場景結構

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 103

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 102 說要窺探 WMT 資料集，以下著手資料集下載程式： import urllib.request # Define the

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 105 | AI 資料準備

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 60 | Persona Based Prompt 撰寫範例

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 59 | Role Based Prompt 撰寫範例

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 104 | 資料清洗一次教

#AI #ai #PromptEngineering

AI說書 - Prompt Engineering - 58

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 103

#AI #ai #PromptEngineering

你可能也想看

最近AI的産圖越來越多，是時候開始整理了，隨機生成的廢圖基本上都清除了，剩下一堆感覺不差的挑一挑，只是數量有點多。

廣告雜誌

2024/07/31

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌 #專欄 #cacaFly

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》時，對一些看似基本，但是重要且會影響到之後實作的項目概念有點疑惑，覺得應該查清楚，所以搞懂後記錄下來，寫下這篇文章(應該說是筆記？)。正文下面這段程式碼： model = Sequential() model.add

https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了；現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量影片中GPT3共儲存50257個英文單字, 每

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

#ChatGPT #學習 #AI

無限智慧學院的沙龍

2024/06/13

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

預計量子AI計算會在2032年左右來到，在這之前，我們還有充足的時間可以逐步去學習量子計算與演算法，讓我們按部就班，持續前進，做輕鬆無負擔的超前學習 !

#QuantumComputing #Qiskit #braket

《創作者事業研究室》沙龍

2024/06/09

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

#啟發隨想 #新手AI行銷線上課 #銷售頁

凱文馬拉穆の雪橇犬星球

2024/06/01

股癌EP458筆記整理(Marvell、Dell、AI）

事前聲明：我先說明我的筆記製作流程：在YT下載 >> 生成逐字稿 >> 利用 AI 整理條列式筆記 >> 人工整理我已經將逐字稿放上來分享在<<1+1罐罐 | 股癌筆記 + 股癌未校稿逐字稿>>，不過逐字稿多少會有錯，如果要使用請多注意。 <<1+1罐罐 | 股癌筆記 + 股癌未校稿逐

#市場 #Dell #觀察

創作邦｜設計X工具X品牌的沙龍

2024/05/01

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

AI 相關的內容每天都非常多，有聽過很多人因此感覺到焦慮，怕錯過了最新資訊就會趕不上，這篇內容會跟大家詳細的分享我自己的學習方法和經驗，並且會在最後分享一些我的學習資訊來源。

#AI #學習 #創作

私大教育所 (私人大學教育研究所) by mr gary

2024/01/22

《Brief AI 電子報》每日 3 分鐘掌握 AI 趨勢

http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888

一世千銘

2024/08/04

閒章6

最近AI的産圖越來越多，是時候開始整理了，隨機生成的廢圖基本上都清除了，剩下一堆感覺不差的挑一挑，只是數量有點多。

廣告雜誌

2024/07/31

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌 #專欄 #cacaFly

柴郡貓姍蒂的沙龍

2024/06/29

筆記-深度學習參數理解："input_shape"

迎戰未來，AI 量子計算基礎篇 (1)，Single Systems

#QuantumComputing #Qiskit #braket

《創作者事業研究室》沙龍

2024/06/09

【新手ＡＩ行銷線上課，簡單快速製文製圖製影片】

#啟發隨想 #新手AI行銷線上課 #銷售頁

凱文馬拉穆の雪橇犬星球

2024/06/01

股癌EP458筆記整理(Marvell、Dell、AI）

#市場 #Dell #觀察

創作邦｜設計X工具X品牌的沙龍

2024/05/01

我如何從零開始接觸與學習 AI，超詳細學習方法與心得

#AI #學習 #創作

私大教育所 (私人大學教育研究所) by mr gary

2024/01/22

《Brief AI 電子報》每日 3 分鐘掌握 AI 趨勢

http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888 http://tinyurl.com/12000ai888