反正尹芙·卡莉是覺得這些思路很奇妙,甚至有可以讓人有一種醍醐灌頂之功效。
【新章節更新遲緩的問題,在能換源的app上終於有了解決之道,這裏下載 huanyuanapp.org 換源App, 同時查看本書在多個站點的最新章節。】
之所以會有這樣的功效,很大程度上是因為在此之前多數文字摘要的研究人員都是研究抽取式文字摘要的。
抽取式文字摘要和生成式文字摘要雖然都是文字摘要。
但從前者到後者的轉變涉及到一個思路上轉換的過程。
很多時候多數傳統文字摘要方面的研究人員亦即研究抽取式文字摘要的研究人員受先入為主的影響對生成式文字摘要認識不到位也是常有的事情。
舉個例子,就比如說林灰在搞定生成式文字摘要時所提出的預訓練。
按說,這個東西並不算什麼高深的概念。
所謂的預訓練倒是不難理解,無非就是對訓練模型的資料進行粗處理而已。
但就比較難想到。
以前尹芙·卡莉在進行抽取式文字摘要這方面的調校時候就沒用到預訓練。
多數情況下都是直接進行訓練的。
而沒有應用預訓練這一步驟。
按照林灰在論文中進行的補充。
預訓練的通常做法一般是將大量低成本收集的訓練資料放在一起。
而後以某一種或者某一類特定預訓方法去學習這些訓練資料其中的共性。
然後將其中的共性移植到特定任務的模型中。
再使用相關特定領域的少量標註資料進行更細緻的調校。
完成這一過程之後,今後用於實際應用的模型模型只需要從共性出發。
再去學習特定任務的特殊部分即可。
大概類似於對於部分方程先求通解再去找特解的過程。
聽起來似乎蠻抽象的。
實際上也沒多麼高深。
涉及到機器學習這方面,無論多麼高深的東西。
其本質上基本都是在模彷人。
在這種情況下,往往我們只要瞭解人是如何處理問題的。
就能理解機器學習處理問題的思路或者說是方式。
通常我們在學習東西的時候。
或許我們的初衷是想著是將所有想學的內容一次性學懂學精。
但因為學習時間有限、學業任務繁多或者其餘各種各樣的客觀要素。
實際學習的時候是很難將所有的知識的學得一步到位的。
在這種情況下,一些擅於學習的人是怎麼學習的呢?
這些人在進行學習時可能採用的做法是先將想學的知識的共性內容搞懂。
而後再花時間放在一些那些“疑難雜症”上。
雖然這種做法似乎是有點“偷懶”。
但人類一多半的智慧結晶都是因為偷懶才出現的。
不可否認這種看似偷懶的學習方式充滿智慧。
至少從效率角度衡量的話,這種方式很值得稱讚。
畢竟除了像醫學等極其特殊的學科之外。
大部分領域所涉及到的知識,80%都是能夠找出共性的。
在找到共性之後,再去解決另外的20%複雜知識。
這無疑是一種比較省力的思維。
在自然語言處理這個機器學習的典型方向引入預訓練。
無疑等同於將部分優秀學生在學習中會用到的一種特殊的技巧“移植”過來。
這種思路無疑很是很巧妙。
思路固然很巧妙。
但正如路邊李苦的道理一樣。
為什麼這種很巧妙的思路以前卻沒人嘗試過呢?
尹芙·卡莉覺得未必是沒人想過這方面。
但別人卻無一例外的失敗了。
涉及到知識的汲取,或許絕大多數人也知道先將80%有共性的知識搞定再搞定另外的20%可以省力。
但從過往的學業上看,尹芙·卡莉覺得她身邊能夠做到先將知識80%的共性找出來再去攻克疑難處的人少之又少。
甚至於除了尹芙·卡莉眼中的學霸之外根本沒啥人能做到這一點。
尹芙·卡莉眼中的學霸又能有多少人呢?可以說是寥寥無幾了。
也就是說這種先將80%有共性的知識搞定再搞定另外的20%這種很明智的做法實際很少有人應用。
明明是看起來更加容易的方式。
什麼沒多少人這麼做?
尹芙·卡莉覺得主要原因是:
——大部分人並不善於找到知識的共性。
在不善於找到知識共性的情況下,一部分人雖然會嘗試著找知識共性。
但實際上操作的時候找到80%知識的共性完全是奢望。
可能只能找到30%、20%甚至更少知識的共性。
如此一來這些人非但沒有能夠找到主體知識的共性。
反而在找共性的時候不知不覺將其餘一些原本是普通的內容給異化成了這些人眼中的“非共性知識”。
而非共性知識在這些人心中又被這些嘗試找共性的人心理暗示成了比較麻煩的知識。
這些原本並不是特別難的知識,在心理暗示的debuff下。
效率甚至比不找共性時的效率還要低。
如此,未找到共性的人反而有可能成為這些嘗試尋找共性的人的所需要耗費大量時間去攻克的內容。
這種情況下,找知識的共性非但沒對他們造成幫助。
反而成為了他們學習時候的拖累。
就很苦逼了。
與其出現這種情況,這些人乾脆放棄了找知識的共性。
直接一視同仁,至少不會聰明反被聰明誤。
類似於學習上這些人面對的窘境。
或許機器學習方面的學者也是因為同樣的境遇才放棄了對訓練資料共性的尋找。
至少在尹芙·卡莉這是因為這個原因。
縱然是現在知道了林灰在模型訓練中引入了預訓練方式。
尹芙·卡莉現在也不知道林灰究竟是如何做的。
按照林灰在論文中補充內容進行的闡述。
傳統的訓練機制下,文字摘要模型的產生思路是:
語料訓練→模型
而按照林灰的思路引入預訓練機制後。
文字摘要模型的產生思路是:
語料預訓練→預訓練模型→微調→模型
這個思路的本身是沒問題的。
但尹芙·卡莉面對著這個全新的模型產生思路卻滿腦子全是問題。
具體應用的時候究竟引入何種的預訓練方式才能夠起到事半功倍的訓練效率?
什麼樣的預訓練模型才是預訓練的目標?
對於預訓練模型的“微調”究竟應該如何理解呢?