如何應對生成式AI在工業(yè)應用的挑戰(zhàn)?
大語言模型(LLM)能夠理解、解釋和生成人類語言,給各行各業(yè)帶來了革命性的變化。然而,它們也面臨著自身的挑戰(zhàn),包括產(chǎn)生不準確或誤導性信息(幻覺)、隱私問題和安全漏洞等。
本文探討了這些挑戰(zhàn),并深入研究了 "檢索增強生成(RAG)"這一創(chuàng)新方法,以克服這些挑戰(zhàn),使大語言模型在關鍵工業(yè)應用中變得更加強大和可靠。
大語言模型可以訪問大量文本數(shù)據(jù),但它們的訓練數(shù)據(jù)可能已經(jīng)過時,而且僅來自公共領域。大型語言模型需要訪問企業(yè)的工業(yè)數(shù)據(jù),才能讓生成式人工智能(AI)為工業(yè)服務。通過在經(jīng)過整理的相關數(shù)據(jù)上 "訓練" 大語言模型(類似于 ChatGPT 的訓練方式),我們可以提高其在工業(yè)應用中響應的可靠性和準確性。
要將生成式 AI 納入數(shù)字化戰(zhàn)略,制造企業(yè)可以從下面三個基本架構著手:
數(shù)據(jù)情境化
情境化數(shù)據(jù)對于確保大語言模型提供相關且有意義的響應至關重要。例如,在尋求有關運營工業(yè)資產(chǎn)的信息時,提供與這些資產(chǎn)相關的數(shù)據(jù)和文檔及其顯式和隱式語義關系變得至關重要。這種情境化使大語言模型能夠理解任務并生成上下文適當?shù)拇鸢浮?/p>
工業(yè)知識圖譜
創(chuàng)建工業(yè)知識圖譜對于提高大語言模型的數(shù)據(jù)質量是必要的。此圖通過規(guī)范化、縮放和增強來處理數(shù)據(jù),以確保準確和可信的響應。“垃圾輸入→垃圾輸出”的古老格言也適用于生成AI,強調了豐富數(shù)據(jù)以提高大語言模型性能的重要性。
檢索增強生成
檢索增強生成(Retrieval Augmented Generation,RAG)是一種先進的設計模式,使大語言模型能夠在直接響應提示時利用特定的工業(yè)數(shù)據(jù)。通過結合上下文學習,RAG允許大語言模型基于私有上下文的數(shù)據(jù)進行推理,從而提供確定性的答案,而不是基于現(xiàn)有公共信息的概率響應。
此外,RAG 使我們能夠在企業(yè)中保持工業(yè)數(shù)據(jù)的專有性和安全性。像任何先進技術一樣,大語言模型可能容易受到對抗性攻擊和數(shù)據(jù)泄漏。在工業(yè)環(huán)境中,由于專有設計和客戶信息等敏感數(shù)據(jù),這些問題更是需要引起足夠的重視。
確保適當?shù)哪涿Wo大語言模型基礎設施,確保數(shù)據(jù)傳輸安全和實施強大的身份驗證機制,是降低網(wǎng)絡安全風險和保護敏感信息的重要步驟。RAG 允許維護訪問控制,與大型企業(yè)建立信任并滿足嚴格的安全和審計要求。
通過在生成式 AI 解決方案中利用數(shù)據(jù)情境化、工業(yè)知識圖譜和 RAG 技術,我們不僅可以解決數(shù)據(jù)泄漏、信任和訪問控制以及幻覺等挑戰(zhàn),還可以影響解決方案的整體效率和成本。
大語言模型具有上下文窗口限制,限制了它們在響應提示時可以考慮的令牌范圍。此外,每個令牌都會增加每次查詢的總成本。如果把這些查詢想象成谷歌搜索,就會發(fā)現(xiàn)成本增加是多么容易。
為了解決這個問題,將專有工業(yè)數(shù)據(jù)情景化、創(chuàng)建工業(yè)知識圖譜以及通過 RAG 優(yōu)化查詢變得至關重要。這些步驟可確保實驗室管理人員獲得可搜索且具有語義意義的輸入源,從而更有效地利用龐大的工業(yè)數(shù)據(jù)。
總之,雖然大語言模型為各個行業(yè)提供了巨大的潛力,但應對諸如不準確性、安全漏洞和隱私風險等挑戰(zhàn)也至關重要。通過整理和情境化數(shù)據(jù),構建行業(yè)知識圖譜并利用RAG等尖端技術,大語言模型可以成為簡化運營、實現(xiàn)自動化任務和為不同行業(yè)的企業(yè)提供可操作見解的寶貴資產(chǎn)。
來源:網(wǎng)絡
版權歸原作者所有,如有侵權,請聯(lián)系刪除