2023-04 每日讀論文

每天強迫自己看 30 分鐘 AI 相關論文，不追求把新的都看完，重點是保持關注。為了能讓我堅持下來，計劃每天將看過的論文連結和我的一些看法發出來。也希望能獲得大家的反饋，比如指出我的錯誤理解等。Learn in public 😄

不保證能持續更新，且時間有限，我一般只會細看結論，粗看研究過程，遇到需要精讀的會先收藏，後續再細看。所以分享的質量會不盡如人意。

請各位謹慎關注 🤣

我主要使用的工具是：

2023-04-24：

GPT4Tools：透過 Self-instruction 來教授 LLM 使用工具（暫時還沒在 arxiv 上）：在眾多微軟和谷歌的論文中，終於看到了篇騰訊 AI Lab 的論文。簡單說來，這個 Tool 可以讓使用者使用文字對話的方式對圖形進行諸如換背景、去除照片中的某個主體等互動。裡面我覺得值得關注的是它可以根據需要替換 LLMs 模型，以及使用 LoRA 進行微調。
利用大型語言模型協助醫生改善臨床試驗的患者預篩選：論文中說他們是第一個引入 LLMs 來幫助醫生對臨床實驗資格進行篩查的團隊。醫生使用 LLMs 工具後，能簡化 90% 的檢查。
Low-code LLM: Visual Programming over LLMs：本文介紹了一種新的人和 LLMs 互動的框架——Low-code LLM。透過與圖形用戶界面進行視覺化互動，使用者可以將他們的想法融入工作流程中，而無需編寫瑣碎的提示。我覺得很適合最近的 Auto 或者 Agent GPT。
使用人工智慧程式設計是怎樣的體驗？：因為我最近一直在用 Github Copilot 所以對文中的內容沒啥感覺。裡面對我有價值的部分是知道微軟有個叫 GridBook 的 Demo，允許使用者使用自然語言編寫 Excel 的公式。

2023-04-25：

Scaling Transformer to 1M tokens and beyond with RMT：這篇論文，在 Twitter 上挺火的。大語言模型目前最大的問題是 token 限制，這篇論文提到，可以運用迴圈記憶技術擴充套件 BERT 在自然語言處理中的作用，在保持高精度的同時，將模型的有效上下文長度最高提高到兩百萬個 tokens。簡單換算應該有將近 150 萬個英文單詞。細看了下，大規模工程運用還需要等一等。目前看起來資源消耗還挺大的。
Renate: A Library for Real-World Continual Learning：持續學習（Continual Learning）是指將機器學習模型應用於動態資料流的能力，並且在新資料到來時自適應地更新模型，而不需要從頭開始重新訓練。與傳統的機器學習方法不同，持續學習需要在模型訓練期間考慮到資料流的非穩定性和不確定性，以適應不同場景下可能出現的各種變化。本篇論文提到的 Renate 函式庫就是一個可在生產環境使用的的 PyTorch 持續學習函式庫。

2023-04-26：

我覺得還是昨天的兩篇（特別是第一篇）牛逼。

AudioGPT：瞭解和生成語音、音樂、聲音和說話人：本文提出了一種名為 AudioGPT 的多模 AI 系統，該系統結合了基礎模型來處理複雜的音訊訊息和解決許多理解和生成任務，以及支援口語對話的輸入 / 輸出介面（ASR，TTS），並透過一系列實驗證明了 AudioGPT 在多輪對話中具有語音、音樂、聲音和對話理解和生成任務的能力。
透過對多個思維鏈進行元推理：現代的多跳問題回答（QA）系統通常會將問題分解成一系列推理步驟，稱為思維鏈（CoT），然後才能得出最終的答案。通常情況下，會對多個鏈進行抽樣，並透過對最終答案進行投票機制進行聚合，但是中間步驟本身會被拋棄。雖然這樣的方法可以提高效能，但是它們沒有考慮到鏈之間的中間步驟之間的關係，並且沒有為預測答案提供統一的解釋。多鏈推理（MCR）的方法使大型語言模型在多個思維鏈上進行元推理，而不是聚合它們的答案。MCR 檢查不同的推理鏈，在它們之間混合訊息，並選擇在生成解釋和預測答案時最相關的事實。

2023-04-27：

Towards Explainable and Safe Conversational Agents for Mental Health: A Survey：如果你對 AI 在心理健康領域的應用感興趣，不妨看看這篇論文。這篇論文作者基於 297 個有關心理健康的研究，對大約 80 種智慧技術進行了系統調查。
Evaluation of GPT-3.5 and GPT-4 for supporting real-world information needs in healthcare delivery：本文介紹了兩個大型語言模型在醫療保健領域中的應用。結果表明，GPT-3.5 和 GPT-4 的回答對患者沒有明顯傷害或風險，但僅有少於 20% 的回答與訊息諮詢服務中已知的答案一致（不是很理解這個服務，我的理解應該還類似線上醫療諮詢服務？），且它們的回答包含幻想參考（不過醫生對這些 AI 幻想出來的回答，是否對人類構成傷害存在分歧，部分醫生覺得是有害的）。不過論文，認為如果能對資料進行 fine-tuning，並使用更高階的 prompt engineering 能提升它們的實用性。
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face：在這篇論文中，作者提出了一個 HuggingGPT 的系統。我的理解有點像 ChatGPT 的外掛系統，使用者提供文字與 LLM 交流，然後 LLM 在合適的時機，呼叫合適的 API。而這個系統呼叫的不是 API，而是 Hugging Face 上的模型，這樣就能實現用 A 模型讀圖，B 模型生成圖片。

2023-04-28：

Industrial Engineering with Large Language Models: A case study of ChatGPT」s performance on Oil & Gas problems：這是一份 Case Study，主要結論是 LLMs 有可能在工業工程中，特別是石油和天然氣工程中有用。本文透過巖石物理學的例子，展示了 LLMs 在解決石油和天然氣工程各個領域問題的潛在應用，這些領域一般包括，如全波形反演（FWI）、聲學反射、水動壓力脈衝反射和井下干預。
Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models：目前很多 LLMs Chat 產品都是單聊模式，比如你讓 AI 扮演某個角色，然後它就基於這個角色跟你聊。而這篇論文則是研究多角色的情況，讓 AI 扮演多個角色。如果 Chat 產品能有多角色進行對話，應該會很有意思。對了這篇論文的第一作者也叫 Jimmy 🤣