使用WordPress文章訓練大型語言模型

更新於 2024/10/24發佈於 2024/10/24閱讀時間約 8 分鐘

許多大型語言模型（LLM）開始允許使用者將自己的資料餵進模型中，像是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude。有了這個功能，你可以上傳你的部落格文章、程式碼或資料集來客製化模型的回應。在這篇文章中，你將學習如何從你的 WordPress 網站提取內容並餵給 Claude，然後以你的寫作風格撰寫或翻譯新的文章。

收集文章

有一些外掛可以將 WordPress 的文章匯出成 CSV 或 JSON 格式。如果你不想安裝任何外掛，也可以直接從資料庫匯出。只需登入 MySQL 資料庫，找到 wp_posts 資料表，然後執行以下 SQL 指令來取得資料庫中所有已發布的文章。

SELECT * FROM wp_posts WHERE post_type = 'post' AND post_status = 'publish'

如果一切順利，你可以點選選單中的「匯出」按鈕，將格式調整為 CSV，然後下載檔案。

你也可以進入後台管理介面，前往「工具 > 匯出」，然後下載檔案。不過，這個檔案是 XML 格式，比較難解析。

清理 WordPress 註解和 HTML 標籤

下載 CSV 檔案後，下一步是清理內容。以下是清理前後的範例。

你可以將它載入為 pandas DataFrame，然後使用以下程式碼提取內容。Jupyter Notebook 的範例程式碼可以在我的 GitHub 上找到。

import re
import pandas as pd
from bs4 import BeautifulSoup


def extract_wordpress_content(content):
    # Remove WordPress block comments
    content_without_comments = re.sub(r'<!-- /wp:.*? -->', '', content)
    content_without_comments = re.sub(
        r'<!-- wp:.*? -->', '', content_without_comments)

    # Parse the HTML
    soup = BeautifulSoup(content_without_comments, 'html.parser')

    # Extract text from paragraphs and headings
    extracted_text = []
    for element in soup.find_all(['p', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
        extracted_text.append(element.get_text())

    # Extract code blocks
    for code_block in soup.find_all('pre', class_='wp-block-code'):
        extracted_text.append(f"Code:\n{code_block.get_text()}")

    # Join the extracted text
    full_text = ' '.join(extracted_text)
    return full_text


def extract_post_content(df=None, file=None, limit=None, output_path=None):
    '''
    Extract post content from a CSV file.
    '''
    assert df is not None or file is not None, 'Either df or file must be provided'

    if file is not None:
        df = pd.read_csv(file)
        df = (df
              .sort_values(by='post_date', ascending=False)
              .reset_index(drop=True))

    print('Total posts:', len(df))
    if limit:
        df = df.head(limit)
    # Convert to string to avoid error caused by NaN
    df['post_title'] = df['post_title'].astype(str)
    print(df.head())

    post_content = ''
    collected_posts = 0
    for i in range(len(df)):

        # Continue when post_content is NaN
        if df.loc[i, 'post_content'] != df.loc[i, 'post_content']:
            continue

        extracted_content = extract_wordpress_content(
            df.loc[i, 'post_content'])
        post_content += df.loc[i, 'post_title']
        post_content += extracted_content
        post_content += '=' * 20
        collected_posts += 1

    print(f'Successfully collected {collected_posts} posts')
    if output_path:
        with open(output_path, 'w', encoding='utf-8') as f:
            f.write(post_content)
    return post_content

在 Claude 中建立新專案並上傳文件登入你的 Claude 帳號，點選左側面板中的「Projects」按鈕，然後點選「Create New Project」。

在專案頁面中，你可以上傳已清理過的文章檔案。

現在一切都準備就緒了！你可以開始新的對話來創建新內容。例如，你可以用這樣的提示詞(Prompt)問 Claude：

「用我的寫作風格寫一篇關於將機器學習應用於股市預測的新部落格文章。使用類似於我現有文章的語言、語氣和結構。包含典型的元素，如程式碼範例、標題和我常用的詞句。」

或者你可以請 Claude 將你的文章翻譯成另一種語言，像是：

「請模仿Project Knowledge中文章慣用的用詞與語氣，將這篇關於股市機器學習的部落格文章翻譯成繁體中文，並將所有中國用語轉換為台灣用語。翻譯應保持原文的意思和風格，專有名詞不需翻譯，記得將標點符號修改為繁體中文的標點符號」

希望這篇文章對你有幫助，能有效提升你的內容創作流程！

本文轉載自：ARON HACK - 使用WordPress文章訓練大型語言模型

留言

留言分享你的想法！

ARON HACK 亞倫害的沙龍

23會員

34內容數

ARON HACK 亞倫害的沙龍的其他內容

2024/10/24

Python Pip/Pipenv 套件管理工具詳解與常用指令

pip和pipenv都是常用的Python套件管理工具，但它們的用途和運作方式略有不同。讓我們來看看它們的差異...

2024/10/24

Python Pip/Pipenv 套件管理工具詳解與常用指令

pip和pipenv都是常用的Python套件管理工具，但它們的用途和運作方式略有不同。讓我們來看看它們的差異...

2024/10/24

清理CKIP-Transformer輸出結果的技巧與程式範例

CKIP-Transformer 是一個繁體中文的自然語言處理 (NLP) 模型，雖然速度偏慢，但是在切詞、詞性標記和命名實體識別等方面都有很優秀的表現。然而，CKIP-Transformer 的輸出並非完美無缺，有時需要額外的資料清理才能進行後續應用。

2024/10/24

清理CKIP-Transformer輸出結果的技巧與程式範例

2024/10/24

在 Visual Studio Code 中使用互動視窗執行 Python 程式碼

在 Visual Studio Code（VSCode）或是其分支專案（如 Cursor）中，當你執行 Python 程式碼時（使用 Shift + Enter），預設會在終端機中顯示輸出結果。這種執行方式會執行整個程式，使用上非常不方便，因為你沒辦法只執行部分程式碼並檢查變數。

2024/10/24

在 Visual Studio Code 中使用互動視窗執行 Python 程式碼

看更多

你可能也想看

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

ARON HACK 亞倫害的沙龍

使用WordPress文章訓練大型語言模型

許多大型語言模型（LLM）開始允許使用者將自己的資料餵進模型中，像是 OpenAI 的 ChatGPT 和 Anthropic 的 Claude。有了這個功能，你可以上傳你的部落格文章、程式碼或資料集來客製化模型的回應。在這篇文章中，你將學習如何從你的 WordPress 網站提取內容並餵給...

2024/10/24

ARON HACK 亞倫害的沙龍

使用WordPress文章訓練大型語言模型

2024/10/24

Raphael AI 科學家

ChatGPT 模型訓練：RLHF 技術解析

ChatGPT 是 OpenAI 開發的大型語言模型，以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段：預訓練和微調。微調使用了 RLHF（Reinforcement Learning from Human Feedback）技術，可以有效地提高模型生成內容的質量。

#ChatGPT#RLHF#預訓練

2024/03/01

Raphael AI 科學家

ChatGPT 模型訓練：RLHF 技術解析

#ChatGPT#RLHF#預訓練

2024/03/01

訊息流鬼才的沙龍

最好的學習就是從模仿開始

這篇將會和chatgpt合作如何以記者的誇張口吻寫出文案用途: 個人經營自媒體推廣，實體經濟行銷，活動推廣等等方面以EXTXDAY這篇為例開始和chatgpt合作給chatgpt學習後就可以開始生成文章了以下是chatgpt生成的內容看看是不是有那個味兒了

#學習#ChatGPT#ChatGPT創作

2023/11/13

訊息流鬼才的沙龍

最好的學習就是從模仿開始

#學習#ChatGPT#ChatGPT創作

2023/11/13

Fann的沙龍

AI工具怎麼幫助我們學習程式－ChatGPT的實踐與範例

在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下，有許多工具可以幫助我們學習與撰寫程式，這篇文章提供了實作範例與一些經驗，分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習，並且完成屬於自己的程式。

#ChatGPT#程式#AI創作

2023/08/03

Fann的沙龍

AI工具怎麼幫助我們學習程式－ChatGPT的實踐與範例

#ChatGPT#程式#AI創作

2023/08/03

茶桁的沙龍

08 改写和审核

Hi, 我是茶桁。我们已经介绍了 OpenAI 的主要接口。这是基础知识系列的最后一讲，我们将讨论 OpenAI GPT 系列模型的其他接口。你可能不会经常使用其中一些接口，但了解它们不会有任何坏处，说不定你会在某些需求中用到它们。在这篇文章中，我们将一起探讨 OpenAI 为文本改写和内容

2023/07/31

2023/07/31

Hi，我是茶桁。在上一节中，我们介绍了如何使用最新的ChatGPT API，注册HuggingFace账户，并将我们的聊天机器人部署出去。在这个过程中，我们学习了实际的应用开发过程，使你对聊天机器人的开发有了充足的体验。在这一讲中，我们将探讨OpenAI的各种接口提供的能力，以更深入地了解这些

2023/07/31

2023/07/31

網路賺錢｜ ChatGPT：你的賺錢神器！五種方法讓你利用AI輕鬆賺錢

ChatGPT是最近非常熱門的話題之一。作為由OpenAI開發的大型語言生成模型，ChatGPT已經在各種行業和領域中引起了廣泛的關注和應用。ChatGPT可以通過對話和問答方式與人進行交流，並且能夠提供有用的信息和幫助。這種技術的應用已經在客服、教育、科技等領域得到了廣泛的應用。

#ChatGPT#賺錢#創作

2023/03/11

Kani的財富實驗室的沙龍

網路賺錢｜ ChatGPT：你的賺錢神器！五種方法讓你利用AI輕鬆賺錢

#ChatGPT#賺錢#創作

2023/03/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News