AI數據爆發“石油危機”,內容公司可以躺著賺錢了

243次瀏覽

ChatGPT 的出現和 Midjourney 的爆發式采用讓 AI 實現了第一次大規模應用,即大模型的普及。zeD知多少教育網-記錄每日最新科研教育資訊

所謂大模型,是指具有大量參數和復雜結構的機器學習模型,能夠處理海量數據、完成各種復雜的任務。zeD知多少教育網-記錄每日最新科研教育資訊

AI數據版權糾紛zeD知多少教育網-記錄每日最新科研教育資訊

如果把當下的 AI 大模型比作汽車,原始數據就是原油。無論如何,首先 AI 模型需要足夠的“原油”。zeD知多少教育網-記錄每日最新科研教育資訊

AI 公司的“原油”來源主要有以下幾類:zeD知多少教育網-記錄每日最新科研教育資訊

●網上公開免費的數據源,比如維基百科、博客、論壇、新聞資訊等;zeD知多少教育網-記錄每日最新科研教育資訊

●老牌新聞媒體和出版社;zeD知多少教育網-記錄每日最新科研教育資訊

●大學等研究機構;zeD知多少教育網-記錄每日最新科研教育資訊

●使用模型的 C 端用戶。zeD知多少教育網-記錄每日最新科研教育資訊

現實世界的石油歸屬權已經有成熟的法律規范,而在 AI 這個天地尚且混沌的領域,“原油”開采權還不明晰,由此造成的糾紛不勝枚舉。zeD知多少教育網-記錄每日最新科研教育資訊

就在最近,多家大型音樂廠牌起訴AI音樂制作公司Suno和Udio,指控其侵犯版權。這起訴訟與《紐約時報》去年12月對OpenAI的訴訟類似。zeD知多少教育網-記錄每日最新科研教育資訊

2023年7月,一些作家對該公司提起訴訟,指控ChatGPT根據受版權保護的內容生成了作者作品的摘要。zeD知多少教育網-記錄每日最新科研教育資訊

同年12月,《紐約時報》也對微軟和OpenAI提起類似版權侵權訴訟,指控這兩家公司利用該報的內容訓練人工智能聊天機器人。zeD知多少教育網-記錄每日最新科研教育資訊

此外,還有一起集體訴訟在加利福尼亞州提起,指控OpenAI未經用戶同意,從互聯網上獲取用戶私人信息來訓練ChatGPT。zeD知多少教育網-記錄每日最新科研教育資訊

OpenAI 最終并沒有為這份指控買單,他們表示不認同《紐約時報》的指控,也無法復現《紐約時報》提到的問題,更重要的是,所謂《紐約時報》提供的數據源,對于 OpenAI 來說并不重要。zeD知多少教育網-記錄每日最新科研教育資訊

zeD知多少教育網-記錄每日最新科研教育資訊

來源:https://openai.com/index/openai-and-journalism/zeD知多少教育網-記錄每日最新科研教育資訊

對于 OpenAI 來說,這件事情帶來的最大教訓也許就是處理好與數據供應商的關系,明確雙方權責。于是,我們在近一年的時間內看到 OpenAI 跟很多數據供應商達成合作伙伴關系,包括但不僅限于The Atlantic、Vox Media、News Corp、Reddit、Financial Times、Le Monde、Prisa Media、Axel Springer、American Journalism Project 等等。zeD知多少教育網-記錄每日最新科研教育資訊

未來,OpenAI 將名正言順地使用這些媒體的數據,而這些媒體也會將 OpenAI 的技術融合到產品中。zeD知多少教育網-記錄每日最新科研教育資訊

AI 推動內容平臺變現zeD知多少教育網-記錄每日最新科研教育資訊

不過,OpenAI 跟數據供應商達成合作關系最根本的原因不是恐懼被起訴,而是機器學習即將面臨的數據枯竭。MIT等研究人員曾進行一項研究估計,機器學習數據集可能會在 2026 年之前耗盡所有「高質量語言數據」。zeD知多少教育網-記錄每日最新科研教育資訊

「高質量的數據」因此成為像 OpenAI 和 Google 這樣的模型制造商的香餑餑。內容公司與AI模型廠商屢屢達成合作,開啟躺平賺錢模式。zeD知多少教育網-記錄每日最新科研教育資訊

傳統媒體平臺Shutterstock陸續和Meta, Alphabet, Amazon, Apple, OpenAI, Reka等AI公司達成合作, 2023年通過內容授權給AI模型將年收入提高到 1.04 億美元,預計 2027 年產生 2.5 億美元收入;Reddit 授權給谷歌的內容版權收入每年高達 6000 萬美元;蘋果也在尋求與主流新聞媒體合作,開出一年至少5000萬美元的版權費。內容公司從 AI 公司收到的版權費正在以 450% 的年增長率瘋狂上漲著。zeD知多少教育網-記錄每日最新科研教育資訊

而在過去一些年里,流媒體之外的內容難以變現,這是內容行業的一大痛點。相比互聯網創業時代,AI 的出現給內容行業帶來了更大的想象力以及更強烈的收入預期。zeD知多少教育網-記錄每日最新科研教育資訊

高質量數據依然稀缺zeD知多少教育網-記錄每日最新科研教育資訊

當然不是什么樣的內容都符合 AI 的需求。zeD知多少教育網-記錄每日最新科研教育資訊

關于前文提到的 OpenAI 和《紐約時報》的爭論,另一個亮點是數據質量。從原油中提煉石油,一則是要油本身質量好,二則提純技術要好。zeD知多少教育網-記錄每日最新科研教育資訊

OpenAI 特意強調《紐約時報》的內容并未對 OpenAI 的模型訓練產生任何重大貢獻,比起能夠讓 OpenAI 每年自掏腰包數千萬美金的 Shutterstock,《紐約時報》這類靠時效性起家的文字媒體并不是 AI 時代的寵兒。AI 更需要深刻而獨特的數據。zeD知多少教育網-記錄每日最新科研教育資訊

而高質量數據太稀缺,AI 公司也開始在“提純技術”和“一站式應用”上下功夫。zeD知多少教育網-記錄每日最新科研教育資訊

6 月 25 日,OpenAI 收購實時分析數據庫公司 Rockset。這家公司主要提供實時數據索引和查詢功能,OpenAI將在其產品中集成 Rockset 的技術,提高數據的實時使用價值。zeD知多少教育網-記錄每日最新科研教育資訊

通過收購Rockset,OpenAI 計劃使 AI 更好地利用和訪問實時數據。這能使 OpenAI 的產品支持更復雜的應用,如實時推薦系統、動態數據驅動的聊天機器人、實時監控和報警系統等。zeD知多少教育網-記錄每日最新科研教育資訊

Rocket是 OpenAI 內置的“石化部門”,將普通數據直接轉化為應用所需的高質量數據。zeD知多少教育網-記錄每日最新科研教育資訊

創作者數據確權是異想天開嗎?zeD知多少教育網-記錄每日最新科研教育資訊

互聯網媒體平臺(Facebook、Reddit 等)的數據很大程度來自于UGC,即用戶貢獻內容。很多平臺在向 AI 公司收取高額數據費的同時,也悄悄在用戶條款上加上了一條“平臺擁有使用用戶數據訓練 AI 模型的權力”。zeD知多少教育網-記錄每日最新科研教育資訊

雖然用戶條款對 AI 模型訓練權力有所標注,但創很多作者并不清楚自己生產的內容具體被哪些模型使用,也不知道是否是付費使用,更無從獲得本該屬于自己的相關權益。zeD知多少教育網-記錄每日最新科研教育資訊

在今年 2 月份的 Meta 季度業績電話會議上,扎克伯格明確表示將使用 Facebook 和 Instagram 上的圖片來訓練他的 AI 生成工具。zeD知多少教育網-記錄每日最新科研教育資訊

據報道,Tumblr 也已經與 OpenAi 和 Midjourney 神秘達成內容授權協議,但并未公開具體協議的具體的內容。zeD知多少教育網-記錄每日最新科研教育資訊

圖片庫平臺EyeEm的創作者們最近也收到一份通知,提示他們發布過的照片會用于 AI 模型訓練。通知提到,用戶可以選擇因此不使用產品,但還未提及任何補償政策。EyeEm 的母公司 Freepik 向路透社透露,該公司已與兩家大型科技公司簽署協議,以每張圖片 3 美分左右的價格授權其 2 億張圖片中的大部分圖片。首席執行官 Joaquin Cuenca Abela 表示,還有五筆類似的交易正在進行中,但拒絕透露買家的身份。zeD知多少教育網-記錄每日最新科研教育資訊

zeD知多少教育網-記錄每日最新科研教育資訊

Getty Images、Adobe、Photobucket、Flickr、Reddit 等UGC 為主導的內容平臺都面臨類似的問題,在巨大的數據變現誘惑下,平臺選擇忽視用戶的內容所有權,一把將數據打包賣給 AI 模型公司。zeD知多少教育網-記錄每日最新科研教育資訊

整個過程都在暗處進行,創作者并沒有任何反抗的機會。甚至許多創作者,可能要在未來某一天,在某個模型中訓練出與自己作品類似的內容時,才能有機會懷疑曾經的作品被某個平臺拿去賣給 AI 公司做模型訓練。zeD知多少教育網-記錄每日最新科研教育資訊

解決創作者的數據確權和收益難以保護的問題,Web3 可能是個好選擇。當 AI 公司在美股屢創新高時,web3 的 AI 概念幣也在同時一飛沖天。區塊鏈以其去中心化和不可篡改的特性,在保護創作者權益上享有得天獨厚的優勢。zeD知多少教育網-記錄每日最新科研教育資訊

諸如圖片和視頻這樣的媒體內容已經在 2021 年的牛市完成了上鏈的大規模采用,而社交平臺的 UGC 內容上鏈也在悄然發生。同時,許多 web3 AI 模型平臺已經在激勵為模型訓練做貢獻的普通用戶,無論是數據所有者,還是訓練者,都被激勵著。zeD知多少教育網-記錄每日最新科研教育資訊

AI 模型指數級的發展為數據確權提出了更大的需求,創作者應該思考:為什么我的作品在沒有經過我同意的情況下被 5 美分一幅賣給了 AI 模型公司?為什么整個過程中我不知情,且無法得到任何收益?zeD知多少教育網-記錄每日最新科研教育資訊

媒體平臺竭澤而漁也無法緩解 AI 模型公司的數據焦慮,實現高質量數據高產量的前提是數據確權,是創作者、平臺和 AI 模型公司三者合理的利益分配。zeD知多少教育網-記錄每日最新科研教育資訊

參考來源zeD知多少教育網-記錄每日最新科研教育資訊

Shutterstock Made $104 Million Licensing Assets to AI Devs Last Year(PetaPixel)zeD知多少教育網-記錄每日最新科研教育資訊

All The Photo Companies That Have Struck Licensing Deals With AI Firms(PetaPixel)zeD知多少教育網-記錄每日最新科研教育資訊

Reddit has a new AI training deal to sell user content(TheEverge)zeD知多少教育網-記錄每日最新科研教育資訊

GPT-4耗盡全宇宙數據!OpenAI接連吃官司,竟因數據太缺了,UC伯克利教授發出警告(新智元)zeD知多少教育網-記錄每日最新科研教育資訊

OpenAI acquires Rockset(OpenAI)zeD知多少教育網-記錄每日最新科研教育資訊


zeD知多少教育網-記錄每日最新科研教育資訊

本文鏈接:http://www.albanygandhi.com/news-23-2.htmlAI數據爆發“石油危機”,內容公司可以躺著賺錢了

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

熱門文章

延伸閱讀

相關閱讀

熱點精選

最新推薦

您可能感興趣

中小企業將可享“5公里服務圈”

【申報】關于公開征集2024年綠色診斷服務商的通知

【解讀】《北京經濟技術開發區小微企業貸款風險補償資金管理辦法》政策解讀

【解讀】金融監管總局有關負責人就《國務院關于推進普惠金融高質量發展的實施意見》答記者問

2023年度《國家科學技術獎勵工作辦公室網站工作年度報表》

@中小微企業 政策速遞一圖讀懂(熱點政策)

北京培育建設國際消費中心城市2024年工作要點

《北京經濟技術開發區關于鞏固和增強經濟回升向好態勢的若干措施》

《北京國際科技創新中心建設條例》

科技部辦公廳 中國科學院辦公廳關于公布2023年度全國優秀科普微視頻作品名單的通知

春節期間單日客流量最高達5萬人,湖北云夢祥云灣上演非遺中國年

2025年不出國購買印度阿伐曲泊帕多少錢一盒代購價格折合人民幣約1280元代購渠道一覽!孟加拉版印度阿伐曲泊帕(阿伐曲波帕)多少錢一盒20mg28粒價格正式公開

如登春臺:鄭州中牟縣代還信用卡都在這信譽至上,價格最低的地方

熱點-印度艾曲泊帕(艾曲波帕)多少錢一盒及代購購買策略報告!

升級:支付寶花唄的錢怎么套出(僅需5個方法一看就會)

南京都市圈新增“通勤列車”D5570車次 1月5日起正式上線

如登春臺:寧波鄞州代還信用卡墊還,真實商戶積分,多年經驗誠信

正規變現商家:羊小咩便荔卡包靠譜回收商家!回顧昨天:

真實:羊小咩額度怎么提現(教你如何找到合適的商家)

實測:京東白條可以套出來嗎(白條升級消費者使用攻略)-知者

主站蜘蛛池模板: 4ayy私人影院| 久久久久久久久中文字幕| 中文字幕精品在线| 欧美另类xxx| 又黄又爽一线毛片免费观看| 国产一区二区三区乱码网站| 国产自产2023最新麻豆| swag剧情系列在线观看| 撞击着云韵的肉臀| 久久精品无码一区二区www| 欧美国产人妖另类色视频| 亚洲精品无码不卡在线播放| 精品乱码一区内射人妻无码| 国产一卡二卡≡卡四卡无人| 黑人与中国女一级毛片不卡| 国产精品内射视频免费| 99久久人妻精品免费一区| 无码喷水一区二区浪潮AV | 一级黄色日b片| 日本免费人成视频播放 | 免费无码国产V片在线观看| 色综合一区二区三区| 国产大片免费观看中文字幕| tom影院亚洲国产一区二区| 国内免费高清视频在线观看| chinese国产在线视频| 强制邻居侵犯456在线观看| 中文字幕日韩人妻不卡一区| 日本高清va在线播放| 人妻aⅴ无码一区二区三区| 精品国产精品国产偷麻豆| 国产ts人妖合集magnet| a拍拍男女免费看全片| 国内午夜免费鲁丝片| 99热国产在线观看| 天天摸日日添狠狠添婷婷| 久久av老司机精品网站导航| 日韩人妻无码一区二区三区99 | 国产高清www免费视频| bt在线www天堂资源网| 妞干网在线免费视频|