<li id="2mqmi"></li>
  • <option id="2mqmi"></option><bdo id="2mqmi"><tr id="2mqmi"></tr></bdo>
  • <xmp id="2mqmi"><li id="2mqmi"></li>
  • <legend id="2mqmi"><tbody id="2mqmi"></tbody></legend>
    <xmp id="2mqmi"><button id="2mqmi"></button>
  • 中央政法委機關報法治日報社主辦

    您所在的位置:首頁  > 文學·副刊

    生成式人工智能著作權侵權糾紛的證明之道

    2024-03-07 13:21:50 來源:法治日報·法治周末

    視覺中國供圖

    智道 欄目主持人:於興中

    □ 朱悅

    對本就廣受關注的生成式人工智能著作權糾紛來說,2月是個有著特殊意義的月份。國內,廣州互聯網法院判決了可能是世界范圍內第一個生成式人工智能的著作權侵權糾紛案件。國外,美國人工智能研究機構OpenAI面臨的一系列類似案件也開始迎來早期的裁決。正值國內外產業發展和立法推進的關鍵時期,這一問題上的司法動向,很可能產生全局層面的影響。

    無論是國內的簡易程序判決還是國外Trembly等訴OpenAI案中的補正裁決,對這一問題上最核心的爭議點的觸及都還相對有限。國內判決非常簡潔地適用了基于接觸和實質性相似的證明標準。國外裁決蜻蜓點水地涉及了直接證明,但沒有進一步展開分析。筆者認為,在此類侵權糾紛中應當采取高度穿透技術的直接證明標準,同時配套證據開示和舉證責任等制度。

    直接證明和間接證明之間

    起訴著作權侵權的主體需要對存在相應侵權行為舉證。如起訴侵犯復制權,則需要對復制行為舉證。從歷史角度看,舉證既可以采取直接證明,也可以采取間接證明。20世紀以來,間接證明逐漸成了主導性的舉證標準。盡管如此,鑒于生成式人工智能的整個訓練和生成過程的客觀性,直接證明是更加合適的標準。

    首先回顧直接證明和間接證明的簡要歷史。從出現著作權概念的數百年起,一直到20世紀,所謂“版權”中的“版”都還是物質上的實在。無論是盜版還是翻版,通過當事人自認、相關方證言或者有關制版過程的物證,都有可能直接證明存在著作權侵權的行為。后來,隨著作品形式和生產方式日漸豐富,除了當事人自認,很難再去證明直接證明存在侵權行為。由此,根據是否接觸作品和涉嫌侵權作品是否實質相似來間接地證明,成為務實的主流。

    其次是訓練和生成的客觀性。無論是文本生成的變換器模型還是圖像生成的擴散模型,具體架構和技術原理都是大家比較熟悉的。這些模型的優化過程主要是使用Adam、AdaGrad、SGD等優化器。雖然其技術性比較強,但整個的運行過程是客觀的,可以一行一行地看清楚數據究竟如何進入模型。這些模型的生成過程也一樣,無論是變換器中的表征、編碼、解碼和輸出,還是擴散模型的表征、去噪和輸出,都可以一行行地說清楚。

    最后說明為何直接證明是更加合適的標準。主要有四方面理由。一是既然可以朝向客觀存在的模型代碼舉證,就沒有必要再舍近求遠。二是直接舉證的歷史實際上更悠久,從間接回歸直接,可以說是歸復初心的體現。三是直接證明能在一個案件中說清楚一類模型是否涉嫌侵權問題,達到分析一點、安定一片的效果。四是相比之下,借助接觸和實質性相似的間接證明只能不斷在一個個可能很不相同的個案中得到碎片化的判決,無法提供足夠的安定性。

    通過穿透技術實現直接證明

    由于生成式人工智能的訓練和生成過程具備很強的技術性,一個很自然的疑問是:真的能夠對常見的生成式人工智能模型實現直接證明嗎?為此需要結合法律和技術交叉研究的一些前沿進展,從三個層面進行初步的解說。

    首先是將著作權的法律適用于模型架構和優化器。不妨僅以Adam優化器是否構成復制為例。作為當前最常用的優化器之一,Adam在行業層面是公共性的知識。概言之,先將訓練數據分批送入模型、結合模型參數計算更新的梯度。然后,綜合這一批得到的梯度和先前得到的梯度,決定如何更新模型參數、更新的參數幅度又有多大。這個過程就描述了一批作品具體是如何進入模型的。訓練過程構成復制,在直接證明的視角下意味著舉證這一過程蘊含復制。

    其次是優化過程的一些工程細節的影響。當前的研究已經認識到至少有7個方面的細節可能和訓練過程的侵權認定有關。一是作品作為訓練數據送入模型之前是否去重。二是訓練數據的標注方式。三是訓練數據的批的大小。四是當期梯度和先前梯度在綜合時候的相對權重。五是每一輪梯度更新幅度的整體大小,也就是學習率。六是有沒有對梯度做裁剪。七是有無額外加噪。通過綜合考慮這些細節有助于判斷是否構成復制。研究正在揭示更多的細節。

    最后是法律和技術交叉領域的一些探索??偟膩碚f,是“一正一反”。如果能在理論上證明模型存在記憶,并且在實驗中成功提取模型記憶的訓練數據,則更有可能直接證明侵權。與之相反,如果能在理論上證明訓練過程足以排除單個作品對模型輸出的影響,并且成功驗證,則更有可能在構成要件等多個層面上否定侵權。與此相關的研究,可謂日新月異。

    證據開示和舉證責任規則的配套

    盡管確有采取直接證明標準的理由,作為一種實踐主張,仍然需要考慮此類糾紛的實際情況。特別是,如果雙方在技術和工程的知識和經驗上極不對等,直接證明很可能導致與政策或公平觀念不符的結果。參考我國人工智能示范法、歐盟《人工智能法》《產品責任指令》等解決方案,為了實現相對平衡,可以考慮證據開示、舉證責任、監管沙盒等制度安排。

    首先是證據開示。直接證明能否實現,終究依賴于有關訓練數據、模型架構和優化訓練的舉證。自行舉證通常無法實現。因此,有待在人工智能相關立法中為證據開示提供一定便利。當然,由于這些信息可能涉及具備很高價值的商業秘密,開示規則需要加強對商業秘密的保障。

    其次是舉證責任的分配,特別是責任降低或倒置。證據無法充分開示,技術和工程的理解存在客觀困難,模型的不可解釋性或不穩定性等,很多因素都會導致即使法院和當事各方窮盡努力,仍然很難在是否構成侵權上形成確定性的判斷。舉證責任分配因此至關重要。如果采取通常的分配,復雜案件中的請求方面臨比較大的困難;如果在請求方說明科學復雜性的前提下降低舉證責任,則各方各自面對一定困難;如果倒置,則被請求方面臨較大的困難。

    最后是監管沙盒。具體來說,隨著此類案件數量不斷增加,司法實務積累一定的經驗,可以將著作權合規前置到監管沙盒中。也就是說,在人工智能投放市場之前,通過匯總既有案件認定的侵權事實和證明方法,提前對其開展評估。如果存在顯著侵權風險,則相應整改;如果沒有發現顯著風險,后續再發生此類糾紛,可以直接推定不存在相應侵權事實。監管沙盒中的測試和評估一般予以免責。由此,除非出現新的情況,沙盒可以前置合規免責和糾紛化解。

    綜上,從三個方面闡明:生成式人工智能著作權侵權糾紛應當采取直接證明標準。直接證明相對間接證明既在理論上足夠牢固,又有實踐的優勢。直接證明適用于訓練數據、模型架構、訓練過程和推理生成有其可行性。同時,這一主張也需要配套證據開示、舉證責任和監管沙盒方面的制度安排,以求充分發揮其效果。筆者相信,未來可在全球范圍的立法和司法進展中目睹這些進展。

    (作者系同濟大學法學院助理教授、上海市人工智能社會治理協同創新中心研究員)


    責編:尹麗

    聯系我們 | 誠聘英才 | 廣告征訂 | 本站公告 | 法律聲明 | 報紙訂閱

    版權所有 Copyrights ? 2014-2024 www.mxum.cn ALL RIGHTS Reserved 《法治周末》

    京ICP備10019071號-1 京報出證字第0143號

    京公網安備 11010502038778號

    啦啦啦中文日本免费高清|日本网站在线观看|啦啦啦www日本高清免费观看|日本一区二区在线视频
    <li id="2mqmi"></li>
  • <option id="2mqmi"></option><bdo id="2mqmi"><tr id="2mqmi"></tr></bdo>
  • <xmp id="2mqmi"><li id="2mqmi"></li>
  • <legend id="2mqmi"><tbody id="2mqmi"></tbody></legend>
    <xmp id="2mqmi"><button id="2mqmi"></button>