2023-04-01|閱讀時間 ‧ 約 6 分鐘

Twitter 開源推薦演算法,從中了解社群媒體推送邏輯

Musk 接手Twitter後的一大工程,就是要把推特的演算法開源,讓Twitter成為更公開透明的社群媒體,並能讓大眾檢視、糾錯。
當然Musk也知道風險就是更透明的演算法,會讓更多人更容易針對推薦算法優化甚至濫用。但這會是一個動態的過程,馬斯克覺得試誤的價值是很高的。
另一個優點就是,開源就有開源社群免費幫你工作,省了一大筆錢(咦,這他沒說是我說的)
他還有開一個聊天室給大家算法公開的QA,你在Twitter上搜 Twitter Algorithm也有很多討論。
我們可以從Twitter最新的Blog抓取一些重點,快速了解一下他們推薦哪些貼文運用的邏輯有哪些:

Twitter 的推薦演算法運作

推特有幾個候選源,我們使用這些候選源為用戶檢索最近和相關的推文。對於每個請求,我們通過這些來源嘗試從數億條推文中提取最佳的 1500 條。我們從您關注的人(In-Network)和未關注的人(Out-of-Network)中尋找候選人。今天,For You 時間軸平均由 50% 的 In-Network 推文和 50% 的 Out-of-Network 推文組成,但這可能因用戶而異。
在你關注的人中,你們的預測互動概率 Real Graph 分數越高,越會出現在 For You 推文裡。
至於那些你根本沒關注的人,Twitter 採取了兩種方法解決如何了解是否與你相關這個問題。

Social Graph
第一個方法是通過分析您關注的人,或具有相似興趣的人的互動來估計您會認為哪些推文是相關的。
我們會全面掃描互動和關注圖譜來回答以下問題:
  • 我關注的人最近參與了哪些推文?
  • 誰喜歡和我類似的推文,他們最近還喜歡了什麼?

Embedding Spaces
嵌入空間 Embedding Spaces 方法旨在回答關於內容相似性的更一般性問題:哪些推文和用戶和我的興趣相似?
嵌入空間會給予用戶興趣和推文內容分數,用來計算 Embedding Spaces 中任意兩個用戶和推文之間的相似性,Twitter中最有用的嵌入空間就是 SimCluster,SimCluster 發現由一群有影響力的用戶組成的communities。每三週更新一次,Twitter 共有 14.5萬個communities。
每個用戶和推文可以屬於多個communities,上面這個圖就是最大的幾個社群,包含新聞、足球、流行明星等。通過查看推文在每個社群中的當下熱度,將推文嵌入這些社群中,來自同社群的用戶越喜歡,這個推文就會跟那個社群更相關。
這也是為什麼追熱點的貼文越容易爆,因為這是當下同社群共同關注有興趣的焦點。

排序 Ranking

至於要如何排序誰出現在你的 Timeline 動態牆前面,他們會有1500個推文作為候選,排序會通過4800萬參數的神經網絡不斷在推文互動上訓練優化,並輸出十個標籤為每個推文打分,每個標籤代表參與的概率,根據這些分數來進行排序。
在排序階段後,我們應用啟發式和過濾器來實現各種產品特點。這些特點共同作用,創建一個平衡和多樣化的推文流。一些例子包括:
  • 能見度過濾器:根據您的偏好過濾推文。例如,刪除您block或mute帳戶的推文。
  • 作者多樣性:避免太多連續來自同一作者的推文。
  • 內容平衡:確保提供平衡的 In-Network 和 Out-of-Network 推文。
  • 基於回饋的疲勞:如果觀看者對某些推文提供了負面回饋,則降低其分數。
  • 社交證據:排除沒有與推文的第二度連接的 Out-of-Network 推文作為品質的保障。換句話說,確保您關注的某個人,參與了該推文或關注了該推文的作者。
  • 對話:把原始推文與回覆的推文串串在一起,提供更多上下文Context。
作為過程的最後一步,系統將推文與其他非推文內容(例如廣告、關注建議和入門提示)混合在一起,並返回您的設備以顯示。
下面這一整個大表,是貼文排序的加權分數

有利觸及的貼文訊號

  • 點擊推文愛心表示 favorite 喜歡 30X boost
  • 轉推 retweet 20X boost
  • 每個推文回覆只有 1X
  • 推文有圖 2X boost
  • 推文有影片 2X boost
  • 在信任圈 Trusted Circle 3X
  • 點擊進入推文,並在那停留至少2分鐘
  • 用戶打開推文作者個人資料頁面並互動喜歡或回覆推文
  • 回覆推文並被推文作者互動
  • 當然還有Musk的賺錢手法之一,付費藍勾,如果是你關注又有藍勾的 4X boost,沒關注的藍勾 2X boost

不利觸及的貼文訊號

  • 非新聞媒體的外連連結 URL 對觸及不佳,除非有高互動,如果沒有高互動會被視為spam降觸及權重
  • 有外連 URL 沒有文字,失敗中的失敗
  • 如果出現大量unfollowed,你會自然被算法隱形
  • 沒收功就罵髒話,講冒犯的話 0.1X
  • 負面回饋:顯示較少、屏蔽、靜音、濫用和Spam舉報
  • 用太多hashtag 0.6X
  • 寫錯字或是創造字電腦認不出來 0.01X
  • 推文是英文,但是UI語言不是英文 0.7X
  • UI語言是英文,但推文不是 0.3X
  • 用戶語言和推文語言不同,兩者都不是英文 0.1X
有一些議題或是標注後是會被降權重的,除了一些18禁、仇恨言論、暴力還有假訊息外,連烏克蘭危機議題也被降權。

社群媒體的演算法邏輯以及該怎麼做?

付費訂閱
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.