第274章 講座

字數:7699   加入書籤

A+A-




    思兔閱讀【sto.ist】第一時間更新《離語》最新章節。
    1.3.2
    研究方法
    本文以有關電力行業
    lca
    的近十年的英文文獻為研究對象,並根據每篇文章的元數據構建數據
    庫。進行文檔分割,將文件分割為更小的部分或章節,分區後使其更容易分類和提取文本,將文檔
    元素列表存儲並跟蹤從文檔中提取的各種元數據,將文本元素分割為適合模型注意力窗口的大小,
    構建向量數據庫,方便大模型調用。利用
    rag(檢索增強生成)模型,幫助大語言模型知曉具有電
    力
    lca
    領域專業性和時效性的知識,包括最新的新聞、公式、數據等內容,增強大模型回答關於電
    力行業
    lca
    領域專業性問題與時效性問題的能力,主要用到的研究方法如下。
    (1)文獻資料法。通過閱讀大量國內外研究檢索增強生成的文章,確定將
    rag
    技術作為提升
    大語言模型回答電力行業
    lca
    領域問題專業性與時效性問題的解決方法。文獻調研顯示,聚焦於此
    領域的大模型是一個研究空白,將電力行業
    lca
    的大模型應用於企業層麵的分析,能夠響應了重大
    戰略。該方法能夠提升科研眼界、開闊研究思路、豐富研究角度。
    (2)實驗法。本文使用爬蟲程序抓取各頂級期刊官網上近十年的文章,並通過元數據處理方
    法,構建文章元數據的數據庫。
    (3)實證分析法。本文通過大量實際數據,來驗證大模型調用電力行業
    lca
    領域向量數據庫
    回答該領域專業性問題和時效性問題的有效性。
    1.3.3
    係統設計
    係統設計三個模塊,整體設計如圖
    1.4
    所示,分別是數據處理模塊、專業領域知識庫構建模塊
    以及
    chatbot
    構建模塊。數據處理模塊主要包括對電力
    lca
    這個特定領域的英文文獻進行選擇和初
    步處理,而後將有關數據全部轉化成結構化數據。知識庫構建模塊主要是將數據向量化並構建向量
    知識庫。chatbot
    構建分為功能部分和前端部分,功能包括
    openai
    基座的調用、知識庫檢索、在
    線檢索;前端部分為
    web
    可視化以及
    ui
    設計。
    1.4
    本章小結
    第一章作為本論文的引言部分,主要圍繞研究背景、研究目的與意義、研究內容與方法以及係
    統設計進行了全麵的闡述。首先,本章通過詳細闡述當前大模型技術在內容解析領域的背景,指出
    了電力行業生命周期評價的重要性,並強調了研究流程和研究方法。在這一基礎上,本章進一步明
    確了項目係統功能設計。綜上所述,本章作為論文的引言部分,為整個研究提供了清晰的研究背
    景、目的、意義、內容及方法概述,為後續章節的展開奠定了堅實的基礎。
    2.1
    大語言模型
    chatgpt
    是由
    openai
    發布的一種大語言模型,能夠以問答的形式完成各類任務,包括接受文
    字輸入,理解自然語言,理解響應並模擬人類對話形式進行輸出。再各個自然語言處理子任務具有
    優異的表現。相比其他大語言模型擁有更豐富的知識,涵蓋自然、社會科學、人文曆史等多個領
    域。chatgpt
    在
    gpt3.5
    的基礎上引入了
    rlhf(reinforcement
    learning
    from
    human
    feedback)
    技術,通過將人類的日常對話的語言習慣嵌入模型,並引入價值偏好,使得模型的輸出滿足人類的
    意圖。微調過程分為預訓練、監督微調、設計獎勵模型和反饋優化。桑基韜等人根據
    chatgpt
    的對
    話對象和定位將其應用分為四個層次:數據生成器、知識挖掘器、模型調度器和人機交互界麵。在
    多模態領域,visual
    chatgpt、mm-react
    和
    pt
    讓視覺模型與
    思兔閱讀【sto.ist】第一時間更新《離語》最新章節。
    chatgpt
    協同工作來完成視
    覺和語音任務。
    除此以外,許多類
    chatgpt
    的大模型也同樣在自然語言處理方麵展示出來了較好的效果。
    lma
    是應該從
    7billion
    到
    65billion
    參數的語言模型,不需要求助於專有的數據集。清華大學
    提出了一種基於自回歸填充的通用語言模型
    glm
    在整體基於
    transformer
    的基礎上作出改動,在一
    些任務的表現上優於
    gpt3-175b。
    大語言模型,例如
    gpt
    係列、lma
    係列、gemini
    係列等,在自然語言處理方麵取得了顯著的
    成功,展示了超強的性能,但仍麵臨諸如幻覺、過時的知識、不可追溯的推理過程等挑戰。2020
    年,由
    lewis
    等人引入的檢索增強生成方法,通過整合來自外部數據庫的知識,然後再繼續回答問
    題或生成文本。這個過程不僅為後續階段提供信息,而且確保響應是基於檢測到的證據的,從而顯
    著提高輸出的準確性和相關性。在推理階段從外部知識庫動態檢索信息使
    rag
    能夠解決諸如生成幻
    覺等問題。rag
    與
    llm
    的集成得到了迅速的應用,提高了自然語言處理任務的性能,並且使得模型
    能夠更好地利用外部知識和背景信息。
    自
    2020
    年起,全球大語言模型在自然語言處理、計算機視覺、語音識別、推薦係統等領域表
    現出卓越技術優勢,市場規模持續增長,預計到
    2028
    年將達到
    1095
    億美元。國外大模型產品研發
    在
    2021
    年進入高速發展期,穀歌、openai、英偉達、微軟等公司都推出了自主研發的大模型,截
    至
    2023
    年
    7
    月底,國外已發布了
    138
    個大模型。我國大模型發展迅速,與國際前沿保持同步,百
    度、騰訊、清華大學、北京航空航天大學等單位都推出了自己的大模型,截至
    2023
    年七月底,我
    國已發布
    130
    個大模型。
    2.2
    知識抽取
    知識抽取主要分為命名實體識別和關係抽取兩方麵。命名實體識別(ner)任務,旨在識別與
    特定語義實體類型相關聯的文本跨度。該任務最早於
    1991
    年由
    rau
    等人提出。隨著信息理解、人
    工智能等領域的頂級會議對
    ner
    任務的評測,其定義逐漸細化和完善,並逐漸成為自然語言處理
    (nlp)領域的重要組成部分。然而,不同領域對實體類型的定義存在差異,因此
    ner
    模型的構建
    取決於特定領域任務需求,通常涵蓋人物信息、地點信息和組織機構信息等。對於英語、法語、西
    班牙語等外語文本,通常采用單詞作為基本單位,因此基於這些語言的
    ner
    模型主要關注單詞本身
    的語義特征和上下文信息。然而,中文語料文本通常由字符構成,需要考慮字符的語義信息和詞匯。
    特征,同時引入其他表征信息來提升模型性能,如中文分詞(cws)、語義部分標簽(pos)等外部
    信息,因此構建中文命名實體識別(er)模型更為複雜。目前,ner
    任務的研究方法主要包括基
    於詞典和規則的方法、基於機器學習(ml)的方法以及基於深度學習(dl)的方法。
    今天為什麽講座要那麽長時間。