<cite id="rpxhp"></cite>

    <address id="rpxhp"></address>

      <noframes id="rpxhp">
      <noframes id="rpxhp">

        <form id="rpxhp"><nobr id="rpxhp"><meter id="rpxhp"></meter></nobr></form>

        媒體關注

        人工智能駛入“下半場” 出版機構如何介入

        來源:中國出版傳媒商報 發布時間: 2024-07-08 09:16:37

        數字人、人工智能編輯、人工智能學習助手……隨著聊天機器人程序ChatGPT、AI視頻模型Sora、AI音樂創作平臺Suno等技術平臺和工具層出不窮并快速迭代,在短暫觀望后,已有多家出版機構選擇入局,通過打造人工智能大模型等融合出版平臺,服務于知識服務、數字產品開發,以及出版工作各環節??梢哉f,AIGC(生成式人工智能)已成為推動出版業高質量發展、數字化轉型升級的一個重要的創新驅動力,出版單位正在積極嘗試和促進人工智能技術賦能出版。

        從“入局”到“破局”,當人工智能駛入“下半場”,出版機構摸索和總結出了怎樣的落地經驗?本報道以時間進程為脈絡,通過采訪出版機構分管領導和數字部門負責人,聚焦出版機構應用人工智能的最新情況,重點關注如何搭建項目團隊、匹配目標市場和用戶需求,以及怎樣解決資金來源、保證數據安全和版權合規等關鍵問題。

        “出版+人工智能”

        從暢想到實踐

        據高等教育出版社信息技術部主任楊京峰介紹,早在ChatGPT問世之前,高教社已經開始關注人工智能行業發展,并探索其在出版、教育行業的應用,例如通過智能審核減少人工審核工作量,通過ASR(語音識別技術)智能生成視頻字幕,通過NLP(自然語言處理)提取文本核心內容輔助教學等助力業務發展。武漢理工數字傳播工程有限公司(以下簡稱“數傳集團”)副總裁、CTO蘇潔華表示,數傳集團也從2020年起開始布局人工智能領域,并推出了出版行業首個數字人。

        2022年底,由美國人工智能研究實驗室OpenAI推出的生成式人工智能ChatGPT“橫空出世”,通過連接大量的語料庫訓練出的模型,不僅在和人類的聊天場景里“上知天文、下曉地理”,還能根據要求撰寫和翻譯郵件、文案、詩歌、代碼等各類文本和生成圖像。自此,生成式人工智能(AICG)在全球掀起技術變革浪潮,出版業開始思考如何借助智能技術工具,聚合起高質量內容。

        高教社緊跟技術發展,基于深度學習技術的應用,探索基于人工智能輔助、建設融媒體內容審核技術的行業標準。2023年初,高教社正式建設高教社H0大語言模型,在H0模型基礎上通過增量預訓練、微調等方式構建H1學科大模型、H1編輯出版大模型,提前布局多模態大模型,同時推動各平臺聯動,拓展人工智能出版領域場景應用:社內數據中臺為大模型技術提供豐富的數據資源,大模型為數據中臺提供更加智能、高效的數據分析和處理能力;各業務平臺為大模型提供統一的落地場景,大模型為業務中臺提供自動化和智能化能力,提供更加個性化的服務和應用。從語料加工到模型訓練、模型測評,再到AI應用平臺、應用賦能業務,隨后是業務反饋,最后是數據和能力優化,形成了人工智能技術應用閉環。

        同期,廣東省出版集團數字出版有限公司(以下簡稱“廣東數字出版公司”)成立了大模型專項小組,開始了解市面上各類大模型的能力,以及在教育出版領域落地的可能性。該公司經研究發現,當時AIGC和教育領域的結合仍是一片“藍?!?,其深度結合被“提上日程”。

        2023年3月,數傳集團推出了為出版界服務的人工智能系列產品。其中,專門針對出版領域的AIGC大模型——BooksGPT聚焦圖書出版數字化,從出版流程的智能化管理,到書籍知識庫的構建,再到與讀者之間的智能交互,都展現了強大的底層技術支持能力。在此基礎上,數傳集團又推出了“AI編輯室”,以及全面升級的“RAYS7.0版本”。

        以專業技術團隊保障人工智能大模型研發

        從設計機器學習工具到開發人工智能大模型,如何搭建項目團隊,團隊人員怎么分工,如何解決資金來源,錨定怎樣的目標市場,這些成了出版機構大模型研發首先要面對的問題。

        據了解,目前高教社AI專項技術團隊有專職人員40余人,工作內容主要有三個方向。一是大模型語料處理工作,形成用于大模型訓練的預訓練數據集、微調數據集和評測數據集。二是大模型研發工作,通過與技術廠商合作,建設H0教育大語言模型、H1學科大語言模型、H1教育出版大語言模型和H2場景大語言模型。三是大模型應用研發工作,結合事業部、教師和學生需求,研發人工智能平臺。資金來源方面,楊京峰表示,高教社主要通過自籌的方式解決資金問題,主要的目標市場為教育教學領域。

        數傳集團的數據和算法團隊共有10余人,據蘇潔華介紹,他們普遍擁有百度、新浪、搜狗等一線互聯網公司的工作經歷,學歷多為碩士和博士研究生,負責數據處理、模型訓練、模型服務、業務策略等工作。

        關于項目的資金投入,該公司技術中心總經理劉錦永介紹說,解決資金來源問題的方式,除了使用公司自有資金進行投資,也會尋求產業資金的支持。廣東數字出版公司的專項團隊由30人組成,成員來自不同專業領域,涵蓋技術研發、教育資源開發、市場推廣等方面。其中技術研發團隊負責大模型的訓練和優化,確保技術的先進性和適用性;教育資源開發團隊負責將人工智能技術應用于具體的教育場景,開發相關教材和教學工具,以及對大模型輸出內容進行專業性評估,促進模型研發;市場推廣團隊負責產品的市場推廣和用戶服務,確保產品能夠有效地進入目標市場,并得到用戶認可。

        迄今為止,以廣東省中小學師生用戶為目標受眾的“粵教翔云數字教材應用平臺”已覆蓋1600萬用戶,通過逐步應用人工智能技術,提升教育質量和教學效率,為師生提供優質的教育資源和個性化的學習體驗。據悉,下一階段廣東數字出版公司也將面向各出版社的編輯人員,為他們提供數字出版工具及內容制作工具,通過結合人工智能技術,為編輯人員提供選題靈感、提高內容生產效率。

          出版機構智能平臺能否“以舊翻新”?

        出版機構能否通過“翻新”以往的數據庫、智能平臺,進而升級人工智能工具或搭建人工智能大模型?“答案是肯定的,高教社推薦通過‘翻新’歷史數據庫、智能平臺的方式,進行工具開發、模型搭建?!睏罹┓逭J為,大模型如今展現出的強大能力,得益于背后蘊含豐富“人類”知識的海量數據,出版機構在以往的工作中,積累了大量文本、圖片、視頻、音頻等內容,這些內容通常以結構化或非結構化數據形態存在數據庫中,經過加工處理可以成為用于模型訓練的語料。他強調,如果說算力可以推進大模型的迅速發展,語料就能推動大模型的高質量發展,這部分數據是出版機構“傳承”下來的智慧結晶,也形成了出版機構的語料優勢。

        楊京峰提出,出版機構對舊數據庫進行“翻新”,需要特別關注數據庫的能力、庫量級和數據內容。第一,隨著人工智能技術發展,對數據庫能力的需求越來越多樣化,其中一項能力就是數據向量化存儲。以大模型智能問答為例,檢索增強生成技術通過向量檢索獲取到語義相似度高的信息,并提供給大型語言模型(LLM),提升其回答的準確性。第二,模型訓練對數據質量、數據數量、數據多樣性都有較高要求,所以搭建人工智能大模型需要考慮海量語料數據存儲場景,因此對數據庫進行“翻新”,使其更好應對大規模數據存儲、管理的需求。第三,翻新數據內容,使其更符合大模型建設要求。包括對舊的數據進行清洗、加工、去噪,以免干擾模型訓練效果;對數據庫中數據進行標注或分類,以便于提取有用特征,為模型提供更準確的輸入;對舊數據脫密并進行審核,避免模型訓練泄漏隱私數據等。

        劉錦永也十分認可出版機構在原有基礎上作技術升級,他認為“翻新”可以分為三個步驟。首先需要對現有數據庫進行全面的清洗和整理,篩選出真正適合應用場景的數據,特別是清除冗余和重復數據,確保數據的高質量和適用性。然后對智能平臺進行升級和優化,確保其具備支持大規模數據處理和模型訓練的能力,這包括硬件設施的更新以及軟件系統的優化,以滿足大規模數據處理和計算的需求。最后將清洗和整理后的數據封裝,供給大模型進行訓練。通過多輪訓練和優化,構建出適用于出版機構垂直領域的高性能專業模型。

        “出版機構真正需要的不一定是大模型,而是能夠結合業務流并解決自身痛點的大模型應用?!碧K潔華則強調,人工智能大模型(技術)本質是為了解決企業自身業務痛點,業務難點在于找到對用戶有價值且大模型可以發揮能力實現的“場景”。因此出版機構通過梳理以往數據,重新升級服務,利用大模型改造原有服務等方式來升級系統,不是簡單的翻新,而是要做許多跨領域、大模型技術攻克和場景適配、算力儲備和運維相關工作。

        一是數據處理、清理、重構等,得到符合算法模型需要的數據格式和質量;二是確定智能平臺和工具需要達到的功能和效果,明確現有數據是否滿足要求,是否要尋求其他的數據支持。三是根據數據訓練特有模型和微調大模型,目標是達到各個場景的效果和性能要求。四是部署模型服務,評估模型的系統效果,確定優化迭代的點。五是不斷重復以上步驟,更新模型和數據,持續提升業務效果。

        楊京峰也表達了相似看法,他解釋說,所有大模型若缺少最終的落地場景,便無法真正做到業務賦能,所以它一定需要以智能平臺或工具等形式為載體,并與業務緊密結合。高教社把這類應用定義為教育智能體,即能夠模擬人類智能行為,具有一定的自主性和學習能力,可以調用信息系統或者學科工具,能夠與教學環境或學習者交互,能夠學習用戶偏好,擁有長期記憶,為教學活動提供服務的實體或者系統。出版機構此前搭建智能平臺時,已經積累了大量的業務智能應用場景,這些場景在長期使用中匯聚了用戶行為和反饋數據,對這些應用場景和數據進行挖掘和分析,能夠為智能工具的升級提供關鍵洞察。

        如何規避人工智能風險?

        出版機構開拓“出版+人工智能”的業務條線,除了要考慮技術、資金、市場需求等要素,“數據安全”“意識形態安全”“私域可控”“版權合規”同樣是需要提前謀篇布局、規避風險的關鍵問題。

        自2018年開始,高教社就開始利用中臺技術重新架構高教社的業務平臺。以云原生為代表的技術中臺,以統一資源中心為代表的數據中臺和以用戶中心為代表的業務中臺,在統一安全中心的支撐下,保障高教社幾十個業務平臺的迭代升級。數據安全和意識形態安全是重點關注的內容,高教社按照線下線上一個標準,具有完善的內容審核機制和流程,建設融媒體內容審查標準,發布人工智能審核平臺“智校云讎”,通過智能審核加人工審核結合的方式,不斷提升審核能力和效率。出版機構的內容都是版權合規的,只有保障創作者的權益才能使得優質內容持續產出。

        廣東數字出版公司在數據安全方面,采用了多層次的數據保護措施,包括數據加密、訪問控制和定期安全審計,確保用戶數據在存儲和傳輸過程中的安全性;建立了完善的數據備份和恢復機制,以防止數據丟失和泄露。意識形態安全方面,通過內容審核機制,對大模型訓練時所使用的語料資源進行前置審查,防止大模型接收到不良的數據資產,確保意識形態的正確引導;在對大模型進行選型時,優先選取經過國家網信辦備案過的大模型,確保安全可靠。私域可控方面,在平臺開發和運營過程中,注重用戶隱私保護,遵循“最小必要原則”收集用戶數據,并確保用戶數據的私域可控;為用戶提供數據管理工具,使用戶能夠自主控制和管理自己的數據。版權合規方面,在開發和應用過程中,嚴格遵守版權法律法規,確保所有使用的素材和內容都有合法授權;建立了版權管理體系,對平臺上的內容進行版權審核,防止侵權行為;積極與版權方合作,共同推動數字教育資源的合法使用和傳播。

        數傳集團結合出版行業特點,在算法設計上,嚴格控制數據權限,把控意識形態安全的底線。目前,BooksGPT大模型在把控數據和意識形態安全方面,采取了以下策略。比如明確告知大模型對敏感內容相關的需求不做響應,不輸出敏感內容,積累敏感詞庫,用戶輸入內容時進行判斷和過濾,當觸發敏感詞時進行攔截,對疑似敏感內容走人工通道進行審核,提高AI系統的透明度和可解釋性,建立用戶反饋機制,AI系統在自我學習和優化時根據用戶反饋和歷史數據不斷改進等。私域可控方面,數傳集團確保系統做到私有化部署,根據客戶需求進行個性化支持。版權合規方面,數傳集團獲取數據和出版資料會獲得相關機構授權,以及網絡開源的協議支持。此外,鑒于國內外對AIGC生成物的版權尚無明確約定,數傳集團會通過協議界定版權歸屬,確保版權所有權,同時賦予客戶非獨家使用權,保障雙方的權益與利益。

        “單打獨斗”還是“抱團取暖”?

        面對人工智能等新技術形態,出版機構是選擇單打獨斗還是抱團取暖?或者說哪些工作適合出版機構獨立完成,哪些工作適合與同行協同、與外部力量合作?

        楊京峰傾向于“抱團取暖”,他認為,高教社最大的優勢是具有高等教育、職業教育全學科覆蓋的內容和人才,和高校具有緊密關系。特別是有學科內容方面的高質量數據,因此在數據匯聚、加工、處理、審核把關方面可以發揮出版社優勢,而在大模型算法創新、工程實踐方面,需要技術公司推動、出版社合作。高教社的人工智能平臺也采用中臺架構,堅持開放、共享的合作態度。

        蘇潔華認為,要結合具體工作選擇是單獨完成或是共創協同。她提出,對于出版業來說,具有本出版單位特色的、核心的,事關版權,以及需要特定人員技能完成的內容,可以獨立完成;具有出版共性、需要更多數據、更通用的功能部分,可以選擇部分共享、行業協同的方式,同外部技術公司,比如與數傳集團的合作加持,以達到更好的通用效果。

        劉錦永認為,在面對人工智能等新技術形態時,出版業既需要獨立完成部分核心工作,也需要與同行及外部力量合作。充分發揮各自的優勢,共同推動行業創新與發展。

        他解釋說,對于出版單位來說,核心內容創作和數據管理和安全需要“親力親為”。首先,出版機構在內容創作方面具有獨特的專業性和優勢,尤其是在專業圖書和教材出版等領域。這些核心內容的創作和編輯工作應由出版機構獨立完成,以確保內容質量和版權保護。其次,涉及用戶隱私和數據安全的部分,需要出版機構獨立完成,確保數據的安全性和合規性。同時,出版機構可以通過建立完善的數據管理體系,提升數據處理和應用的能力。

        在技術研發和平臺建設、跨行業資源整合方面,更加適合出版機構與外部力量協同合作完成。首先,考慮到人工智能技術和大模型的研發需要大量的資源和專業知識,出版機構可以與技術公司、高??蒲袡C構等外部力量合作,共同研發和搭建智能平臺,提升技術水平和應用能力。其次,跨行業資源整合:尤其是在教育、文化等領域,出版機構可通過加強與同行及上下游產業的合作,整合資源,合力開發多元化產品和服務,滿足不同用戶的需求。


        欧美成人精品午夜免费影片,成人A级毛片高清全免费不卡视频,成人女人A级毛片免费软件,亚洲成人AV少妇无码 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();