但你又怎麼知道停損就是對的?
有
專家指出「停損是有盲點的。」停損的確有時是有盲點的,
不只在進場點犯錯,也在出場點犯錯,流失本金不打緊,交易者彷彿掉入了樂譜裡的反覆記號中,在一連串錯誤的音符推波助瀾之下,如交響樂般擊碎其內心力場,才是最嚴重的虧損。
的確,停止虧損不盡然就是對的,許多人在停損後沾沾自喜自己有停損,然而,真正的考驗此時才開始,我們能否在停損甚至停利之後,正確的判斷出錯誤後,並勇於接受懲罰,那才是真正該被持續執行的對的事情。
關於如何停損才是對的,也許請教專業技術分析的線仙,會更有幫助,我們今天先來
學習如何處理常常與停損連動在一起的挫折感,
建立一個能有效持續執行正確動作的交易習慣。
操作制約(operant conditioning)
操作制約(operant conditioning)是一種由刺激引起的行為改變的過程與方法,又稱為工具制約(instrumental conditioning)或工具學習。操作制約與古典制約(classic conditioning)有所不同,操作制約的行為是個體「自願」進行的主動行為,
當行為得到獎勵或懲罰時出現刺激,主動控制自主行為的現象;而古典制約則是使個體產生非自願反應的作用。
圖像來源《Introductory Psychology Image Bank》
行為主義心理學家史金納於1938年提出操作制約理論(operant conditioning)。他為了研究白鼠們的操作制約行為,於是設計了一個能夠自動控制的精密箱子,被稱為史金納箱(Skinner Box)。在箱內的一端裝一個槓桿,而槓桿下有食槽和水管各一。按動槓桿時,可在食槽中出現一粒食物丸、一滴水。當白鼠剛進入箱中時,即便偶爾壓到槓桿,食物便會自動出現,白鼠吃下後。依此反覆執行多次後,白鼠即可學到按壓槓桿而獲取食物的行為。觀察到當白鼠飢餓的時候,即會主動按壓槓桿以獲取食物。
按壓槓桿的反應成為白鼠操作以獲取食物的勞務。此過程即史金納所謂的操作制約學習。
意即個體對刺激產生反應後,即有相對應的「增強物」產生,而這個「增強物」將影響個體日後再做出同樣反應行為的機率,我們將其稱為「操作制約」。
「增強」的四大類型
增強的方式可以被分為正向(positive)和負向(negative)兩種,而回應則可以被分為獎勵(reinforcement)和懲罰(punishment)兩種,接下來要介紹的是其所產生一共四種不同的組合。
正向獎勵(positive reinforcement)
在期待的行為出現以後,給予行為者喜歡的獎賞。
在
《哈利波特》中,分類帽 (Sorting Hat)是霍格華茲中一頂具有思想的尖頂巫師帽。它會自動決定每位新生應當去葛萊分多、赫夫帕夫、雷文克勞和史萊哲林裡的其中一個學院。
而在學期中,每位教師能依照學生的表現加減分,如正確回答問題等,即會給自己的學院加分,而行為不端或違反校規則會減分。若贏得魁地奇杯冠軍的學院還會得到額外的加分。年終時,獲最高分的學院可獲得學院杯,這是很高的榮譽。
學生在表現出色的時候,老師給予加分,即是正向獎勵。
負向獎勵(negative reinforcement)
在期待的行為出現以後,挪去行為者不喜歡的事物。
在
《阿拉丁》中,因為阿拉丁想用第三個願望完善原本編織的謊言。精靈為此感到非常難過,認為阿拉丁違背了他自己原本的初心,逃避現實活在謊言當中,於是
傷心的縮回神燈中。
阿拉丁原本以為精靈會支持他,沒想到卻是這樣的結果,讓他覺得很煩躁,於是帶著神燈跑回原本的家中。在後經歷一連串的波折,阿拉丁終於找回初心,擊敗賈方,並許下新的第三個願望,解放精靈,讓精靈變回人類和自己心愛的人共度餘生。
精靈在阿拉丁找回初心面對自我的時候,才停止鬧脾氣,即是負向獎勵。
正向懲罰(positive punishment)
在問題行為出現時,給與行為者他不喜歡的處罰。
在
《死亡筆記本》中,夜神月透過死亡筆記本,
將世界上有被媒體公開姓名、長相的罪犯殺死,創造他所謂沒有犯罪者、只有善良和努力生活人存在的「新世界」確實犯罪率下降了,然而這樣的機制,罪犯並不會知道什麼可以做,只知道不可以做壞事。
夜神月在人犯罪後,便將其處死,即是正向懲罰。
負向懲罰(negative punishment)
在問題行為出現時,挪去行為者喜歡的事物。
在
《SPY×FAMILY間諜家家酒》中,安妮亞(被検体ひけんたい007-アーニャ)是一位可以讀取人類和動物的思想超能力少女,本是某組織代號007號的實驗體,因為無法忍受組織不斷強迫自己學習和沒有童年的生活而逃離研究所,然而因為強大的超能力,
使其輾轉於多個收養家庭與孤兒院之間,因此決定隱瞞自己的能力。
人們在發現安妮亞的超能力後,決定將其送回原本的單位,剝奪安妮亞家的感覺,即是負向懲罰。
獎勵比懲罰還有效?
由於多數的時候「正、負向獎勵」效果遠大於「正、負向懲罰」,因此許多老師偏向運用獎勵的方法刺激學生學習,讓學生能在快樂中積極地學習。
需要特別注意的是,正向與負向獎勵都是在「提高」反應繼續發生的機率。不同的部分在於,正向獎勵是透過在反應後「呈現滿足個體的刺激」,而負向獎勵則是在反應後「撤除個體厭惡的刺激」,以提高反應發生的機率。
同理,正向與負向懲罰則都是在「降低」反應繼續發生的機率。
五種酬賞時制
當我們要探討如何設計增強已經學習到的知識或技能的模式,我們稱此獎勵機制為酬賞時制(reward schedule)。酬賞時制可分為兩大類,一為連續性的增強,另一種為間歇式的增強。
【連續性】的增強時制
每做出一次正確的行為就給予獎勵,例如:老鼠每拉一次桿子就獲得食物。
【間歇性】的增強時制
而間歇性的給予獎勵又可以再細分成以下四種不同的類型。
固定時距(fixed interval,FI)
每次給予獎勵的時間間距固定。
(1.)上班族每月固定時間領薪水。
(2.)每當到了垃圾車收垃圾時間,居民都會拿著垃圾先出來等待、準備。
若是設定較長的時距,行為者在期中容易因為遠離前後的激勵而鬆懈下來。
變動時距(variable interval;VI)
平均時距是預先決定的定值,然而每次給予獎勵的時間間距未必相同。
(1.)學校有固定的段考,但偶爾還是會突然隨堂抽考
(2.)道路上有固定的測速照相機,但還是會有些交通警察機動式的架設測速照相機
因為此方法無法被行為者預測,效果相對差。
固定比率(fixed-ratio;FR)
每做幾次指定的反應就給予獎勵。
(1.)業績獎金。
(2.)按件計酬薪資。
這是現在斜槓世代最主流的方式,當代接受度較高。
變動比率(variable-ratio;VR)
平均做幾次指定的反應就給予獎勵,但是每次給予的反應次數不同。
(1.)賭博。
(2.)樂透。
因為行為者沒辦法知道何時能獲得獎勵,所以會不斷嘗試,效果相對好。
個人色彩的交易風格
如何在交易上設計出適合自己的操作制約?
多數的人都知道停損很重要,但感覺好像總是在錯誤的停損,有時候事後一看,好像不停損,結果還比較好,
但偏偏在不停損那次,傷的最重。
其實這樣子的心情,都是因為我們錯誤的將對帳單上的損益直接連動到了獎懲機制上,進一步來說,如果對帳單上的虧損,並非所謂的懲罰,當我們做出錯誤的動作後,才要面對真正的懲罰,我們是否還會一錯再錯、大錯特錯呢?
綜合正向、負向、獎勵、懲罰、連續性、固定時距、變動時距、固定比率、變動比率,我們可以得出至少20種的模型,而在此20種模型的架構中,透過交易上的各類動作如:出入金、加減碼、暫停交易、停利損幅度等等,還能再變化出許多種模型。
我們不妨從日常生活、情感關係、職場活動、求學生涯中的記憶裡,
尋找令我們感到舒服的獎懲方式、時距,在自我認識後,便能
設計出帶有個人色彩的交易模式,進而提升交易績效,如同筆者個人常做的
「感覺不舒服,就先出一半。」
你可以試著調整方式,不再單純將對帳單上的損益當作獎懲,而是從其他層面去設定屬於你的交易模型,那會讓你更容易執行理想的動作,以下將簡單舉一些例子提供給你參考,也歡迎你在底下留言區分享你的設計!
連續性 × 負向獎勵
每個月月底固定出金到剩下規劃好的本金,直到當月獲利為本金的兩倍為止。
例如規劃好交易本金為20萬,該月無論賺多少錢,都會出金到剩下20萬,直到一個月賺到20萬,再重新規劃本金,調整成例如30萬或32萬。
固定比率 × 正向獎勵
連續獲利一週,週末就去吃大餐慶祝。
例如連續獲利五天,
即便有一天只賺17元,該週只賺487元,週末還是去吃大餐犒賞自己,因為獲利只是正確的停利、停損等動作,伴隨而來的禮物;只是要說的話,就差在如果賺87,484元,那就去吃
The Ukai,若是只賺487元,那就去自助便當店夾兩個主菜,也能有儀式感。
變動比率 × 正向懲罰
每連續三次停損,就把這三次的停損金額總額捐給某單位
請特別注意,並不是每三次停損就懲罰一次,這樣反而會讓人不願意停損,而是每
連續三次就懲罰一次,此設計可以有效的壓
抑交易者在較差的入場點的出手頻率,避免過度交易;當然,有些人選擇捐給
偏鄉教育、有人選擇捐給
獨居老人、有人選擇捐給自己的小孩抽
一番賞,那又是另外一個故事了。
固定時距 × 負...