什麼是語言模型？

大家或多或少都聽過 ChatGPT 是一個 LLMs，那 LLMs 是什麼？

LLMs 全稱是 Large Language Models，中文是大語言模型。

那麼什麼是語言模型？

語言模型簡單說來，就是對人類的語言建立數學模型，注意，這裡的關鍵是數學模型，語言模型是一個由數學公式建立的模型，並不是什麼邏輯框架。這個認知非常重要。

最早提出語言模型的概念的是賈里尼克博士。

他是世界著名的語音識別和自然語言處理的專家，他在 IBM 實驗室工作期間，提出了基於統計的語音識別的框架，這個框架結構對語音和語言處理有著深遠的影響，它從根本上使得語音識別有實用的可能。在賈里尼克以前，科學家們把語音識別問題當作人工智慧問題和模式對應問題。而賈里尼克把它當成通訊問題。

為何是通訊問題？為何轉換成通訊問題後，就能實現語音識別？

根據香農確定的現代通訊原理，所謂的通訊，也被稱為通道的編碼和解碼，訊息源先產生原始訊息，然後接收方還原一個和原始訊息最接近的訊息。

比如，你打電話的時候，問對方一句「你吃了晚飯了嗎」，在傳輸前，通訊系統會對這句話進行編碼，編成類似「100111101100000…」，但是傳輸過程中，一定會有訊號損失，接收方收到的編碼可能是「1001111011000…」，此時我們就沒法解碼回原來的句子了。

那如何解決這個問題？

我們可以把與接收到的編碼「1001111011000…」類似的句子都羅列出來，可能的情況是：

然後通訊系統會計算出哪一種的可能性最大，最後把它選出來。只要噪音不大，並且傳輸訊息有冗餘，那我們就能復原出原來的訊息。

賈里尼克博士認為讓電腦理解人類的語言，不是像教人那樣教它語法，而是最好能夠讓電腦計算出哪一種可能的語句機率最大。

這種計算自然語言每個句子的機率的數學模型，就是語言模型。