1. <blockquote id="lwgwu"></blockquote>
    2. <kbd id="lwgwu"><samp id="lwgwu"></samp></kbd>
    3. <abbr id="lwgwu"><tt id="lwgwu"></tt></abbr>
      免费专区丝袜调教视频,亚洲午夜无码极品久久,亚洲乳大丰满中文字幕,乱乱网,两个人看的www视频中文字幕,中文字幕日韩精品无码内射,欧美成aⅴ人高清免费,女人被爽到高潮视频免费国产
      泡泡網(wǎng)新聞頻道 PCPOP首頁(yè)      /      新聞?lì)l道     /      動(dòng)態(tài)    /    正文

      數(shù)據(jù)的第三種形態(tài):藝恩如何為大模型提供多模態(tài)的數(shù)據(jù)彈藥?

      數(shù)據(jù)的第三種形態(tài):藝恩如何為大模型提供多模態(tài)的數(shù)據(jù)彈藥?

      數(shù)據(jù)的第三種形態(tài):藝恩如何為大模型提供多模態(tài)的數(shù)據(jù)彈藥?

      數(shù)據(jù)的第三種形態(tài):藝恩如何為大模型提供多模態(tài)的數(shù)據(jù)彈藥?

      一、凌晨?jī)牲c(diǎn)的訓(xùn)練Run,和一個(gè)沒(méi)人問(wèn)的問(wèn)題

      凌晨?jī)牲c(diǎn),北京某多模態(tài)大模型實(shí)驗(yàn)室。大屏上,一個(gè)正在進(jìn)行的預(yù)訓(xùn)練Run跑到了第47小時(shí)。技術(shù)負(fù)責(zé)人盯著Loss曲線(xiàn)抖了一下,然后把椅子轉(zhuǎn)回來(lái)說(shuō)了一句:“我們?nèi)钡牟皇强ǎ歉蓛簟?duì)齊、能被復(fù)用的多模態(tài)語(yǔ)料。”

      這不是個(gè)例。2026年4月2日,字節(jié)火山引擎披露:豆包大模型日均Token使用量突破120萬(wàn)億,兩年翻了約1000倍;同月,中國(guó)日均Token調(diào)用量跨過(guò)140萬(wàn)億量級(jí)。2026年2月中旬,OpenRouter平臺(tái)上中國(guó)大模型的周調(diào)用量首次超越美國(guó),并在隨后一周沖到5.16萬(wàn)億Token,三周內(nèi)增長(zhǎng)127%。豆包2.0、GLM-5、MiniMax M2.5、Kimi K2.5在春節(jié)前后連環(huán)發(fā)布;Sora 2以“GPT-3.5 moment for video”的定位在2025年9月30日登場(chǎng),雖然這款產(chǎn)品最終于2026年4月26日App下架(API延至9月24日),但它所引爆的多模態(tài)軍備競(jìng)賽并沒(méi)有停。可靈(Kling)2.6在2025年12月實(shí)現(xiàn)單次生成完整音視頻,3.0進(jìn)入Omni階段;阿里Wan2.6、字節(jié)Seedance 2.0、Seedream 5.0 Lite接連上線(xiàn)——多模態(tài)“百模大戰(zhàn)”已從“能不能生”迭代為“好不好用”。

      但很少有人追著問(wèn)下一句:訓(xùn)練這些模型的數(shù)據(jù),從哪里來(lái)?

      這篇稿子,想回答這個(gè)被參數(shù)與Benchmark分?jǐn)?shù)淹沒(méi)的“上游問(wèn)題”——并且,想用一家公司的年報(bào),把它講清楚。

      二、數(shù)據(jù)的第三種形態(tài)

      在AI訓(xùn)練數(shù)據(jù)領(lǐng)域,產(chǎn)業(yè)已形成清晰的分層。

      第一種形態(tài),通用爬取的公開(kāi)數(shù)據(jù)。Common Crawl約含130萬(wàn)億Token,全指數(shù)化網(wǎng)頁(yè)約510萬(wàn)億Token,全量網(wǎng)絡(luò)(含登錄墻后內(nèi)容)約3100萬(wàn)億Token。據(jù)Epoch AI在同行評(píng)審的測(cè)算,高質(zhì)量人類(lèi)生成公開(kāi)文本的“有效存量”約300萬(wàn)億Token,在當(dāng)前scaling節(jié)奏下將在2026—2032年間耗盡,這種形態(tài)的黃金時(shí)代,已經(jīng)走到了尾聲。更糟的是,公開(kāi)數(shù)據(jù)不僅在枯竭,還在被“鎖進(jìn)保險(xiǎn)柜”——Reddit、Stack Overflow、X、知乎紛紛對(duì)爬蟲(chóng)加設(shè)圍欄;紐約時(shí)報(bào)、Getty、環(huán)球音樂(lè)、康科德音樂(lè)先后對(duì)OpenAI、Stability、Anthropic發(fā)起訴訟。一位北京的AI法律合規(guī)專(zhuān)家告訴筆者:“公開(kāi)互聯(lián)網(wǎng)的數(shù)據(jù),法律成本從邊際成本變成了固定成本。”

      第二種形態(tài),人工合成的AI生成數(shù)據(jù)。Sam Altman在公開(kāi)場(chǎng)合承認(rèn)嘗試過(guò)“生成海量合成數(shù)據(jù)”,但也親口提示不能過(guò)度依賴(lài)。Nature 2024年一篇論文系統(tǒng)描述了“Model Collapse”——用AI生成的數(shù)據(jù)反復(fù)訓(xùn)練AI,會(huì)讓模型的表達(dá)分布持續(xù)退化。合成數(shù)據(jù)可以是拐杖,不能是主糧。

      第三種形態(tài),垂類(lèi)深耕的結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)這是目前產(chǎn)業(yè)里不僅稀缺,更是被各方看中并爭(zhēng)搶的數(shù)據(jù)資產(chǎn)形態(tài)。它由人類(lèi)在真實(shí)產(chǎn)業(yè)場(chǎng)景中沉淀,帶有明確的時(shí)空/主體/語(yǔ)義標(biāo)簽,具備跨模態(tài)對(duì)齊能力,合規(guī)、可追溯、可被多次復(fù)用。它不是互聯(lián)網(wǎng)上就能爬來(lái)的,也不是AI自己能合成的。它需要有人在某一個(gè)具體的行業(yè)里,花足夠長(zhǎng)的時(shí)間,把數(shù)據(jù)鏈路一段一段建起來(lái)。

      藝恩數(shù)據(jù)——北京藝恩世紀(jì)數(shù)據(jù)科技股份有限公司,ENDATA,新三板證券代碼871430——正是第三種形態(tài)的中國(guó)代表玩家之一。它不是通用大廠(chǎng),也不是通用爬取平臺(tái),而是一家把“視頻+圖像+文本”三模態(tài)數(shù)據(jù),在影視綜、社媒、電商、版權(quán)數(shù)據(jù)四個(gè)領(lǐng)域打深的垂直數(shù)據(jù)公司。它的產(chǎn)品線(xiàn)叫enbase數(shù)據(jù)智庫(kù)和藝恩營(yíng)銷(xiāo)智庫(kù)。

      三、三模態(tài)與四領(lǐng)域的“數(shù)據(jù)血緣”

      要理解藝恩的數(shù)據(jù)為何能被大模型客戶(hù)搶著買(mǎi)走,得先看清它的“數(shù)據(jù)血緣”。

      視頻模態(tài)鏈路。影視綜場(chǎng)景下,從劇集、綜藝、電影、短劇的全網(wǎng)播映數(shù)據(jù),到彈幕、評(píng)論、評(píng)分、票房、用戶(hù)畫(huà)像的結(jié)構(gòu)化采集;在社媒場(chǎng)景下,從KOL視頻行為、話(huà)題傳播曲線(xiàn)到情緒衰減周期的動(dòng)態(tài)追蹤;在電商場(chǎng)景下,從直播間講解視頻到商品展示視頻的多粒度標(biāo)注;在版權(quán)場(chǎng)景下,從授權(quán)鏈條到代言/IP的跨平臺(tái)溯源。視頻模態(tài)不是簡(jiǎn)單“扒視頻”,而是“視頻+標(biāo)簽+時(shí)間戳+主體+語(yǔ)義”的全鏈路。

      圖像模態(tài)鏈路。商品圖的結(jié)構(gòu)化拆解(材質(zhì)、顏色、款式、搭配),劇照的角色/場(chǎng)景/情緒多粒度標(biāo)注,KOL視覺(jué)資產(chǎn)的身份綁定,版權(quán)圖像的授權(quán)狀態(tài)追蹤。這些是多模態(tài)大模型“看圖理解”訓(xùn)練中極稀缺的語(yǔ)料形態(tài)。

      文本模態(tài)鏈路。劇本、評(píng)論、傳播文本、版權(quán)文本、代言合約關(guān)鍵條款——藝恩把這些文本結(jié)構(gòu)化成可調(diào)用的知識(shí)圖譜。

      三種模態(tài)里真正具有Alpha的,是“跨模態(tài)綁定”。同一部劇集,它的視頻片段、劇照海報(bào)、劇本臺(tái)詞、彈幕評(píng)論、票房數(shù)據(jù)、主演代言——在藝恩的數(shù)據(jù)結(jié)構(gòu)里,共享同一個(gè)主體ID下的不同模態(tài)視圖。這種“同源對(duì)齊”正是MLLM(多模態(tài)大語(yǔ)言模型)訓(xùn)練中最貴、最稀缺、最難替代的語(yǔ)料。它不是用OCR和CLIP從爬來(lái)的圖文對(duì)中硬配的,而是從業(yè)務(wù)源頭就綁在一起的。

      這就是藝恩數(shù)據(jù)與通用爬取數(shù)據(jù)的根本差別——前者是“原生對(duì)齊”,后者是“事后擬合”。對(duì)Sora 2、可靈3.0 Omni、Seedance 2.0、Seedream這樣的模型而言,原生對(duì)齊的語(yǔ)料直接決定生成效果的上限。

      四、數(shù)據(jù)資產(chǎn)入表與會(huì)計(jì)意義上的“價(jià)值顯性化”

      2024年1月1日,財(cái)政部《企業(yè)數(shù)據(jù)資源相關(guān)會(huì)計(jì)處理暫行規(guī)定》正式施行——數(shù)據(jù)資源從“費(fèi)用化的業(yè)務(wù)輸入品”,變成“資本化的資產(chǎn)負(fù)債表科目”。這是中國(guó)數(shù)據(jù)要素市場(chǎng)一個(gè)很容易被技術(shù)圈忽略、但意義重大的拐點(diǎn)。

      藝恩2025年年報(bào)中的兩個(gè)會(huì)計(jì)信號(hào),值得細(xì)讀。

      信號(hào)一:無(wú)形資產(chǎn)(數(shù)據(jù)資源)同比增長(zhǎng)103.34%。這意味著藝恩在過(guò)去一個(gè)財(cái)年里,把持續(xù)沉淀的、符合無(wú)形資產(chǎn)確認(rèn)條件的數(shù)據(jù)資源,按照會(huì)計(jì)準(zhǔn)則進(jìn)行了系統(tǒng)性確認(rèn)。對(duì)一家數(shù)據(jù)公司而言,這不是簡(jiǎn)單的“賬面好看”——而是把過(guò)去多年的“業(yè)務(wù)沉淀”正式轉(zhuǎn)化為“資產(chǎn)存量”。

      信號(hào)二:開(kāi)發(fā)支出同比大幅增長(zhǎng)。對(duì)應(yīng)的會(huì)計(jì)處理是:當(dāng)數(shù)據(jù)產(chǎn)品尚處于研發(fā)階段、未滿(mǎn)足資本化條件的部分費(fèi)用化;滿(mǎn)足條件的部分計(jì)入開(kāi)發(fā)支出,后續(xù)可轉(zhuǎn)入無(wú)形資產(chǎn)。開(kāi)發(fā)支出的增長(zhǎng),說(shuō)明藝恩在數(shù)據(jù)產(chǎn)品的研發(fā)、結(jié)構(gòu)化、標(biāo)注鏈路上持續(xù)加碼。高金智庫(kù)跟蹤顯示,數(shù)據(jù)資源入表的企業(yè)中,約63.57%計(jì)入無(wú)形資產(chǎn),35.48%計(jì)入開(kāi)發(fā)支出——藝恩的兩個(gè)科目雙向放量,走的就是這條會(huì)計(jì)主路徑。

      把這兩個(gè)會(huì)計(jì)動(dòng)作翻譯成產(chǎn)業(yè)語(yǔ)言:藝恩正將過(guò)去多年的“數(shù)據(jù)沉淀”從“業(yè)務(wù)成本”正式改寫(xiě)為“資產(chǎn)存量”。在“數(shù)據(jù)資產(chǎn)可登記、可入股、可抵押融資”的基礎(chǔ)設(shè)施(2025年3月國(guó)家公共數(shù)據(jù)資源登記平臺(tái)上線(xiàn)、2026年2月國(guó)家數(shù)據(jù)局公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)信息披露通知)逐步完備的背景下,這個(gè)改寫(xiě)不是賬面技巧,而是估值地圖的重繪。

      與此同時(shí),2025年藝恩數(shù)據(jù)產(chǎn)品業(yè)務(wù)收入同比增長(zhǎng)127.68%,數(shù)據(jù)產(chǎn)品業(yè)務(wù)毛利率同比上升16.83個(gè)百分點(diǎn)——這兩個(gè)指標(biāo)并列出現(xiàn)的含義很清晰:不是“低價(jià)走量”撐起來(lái)的翻倍,是“產(chǎn)品化+議價(jià)權(quán)”同時(shí)上抬。在一個(gè)被“價(jià)格戰(zhàn)”裹挾了一年半(火山引擎、阿里云、百度智能云2024—2025連續(xù)降價(jià))的AI產(chǎn)業(yè)中,毛利同步上行是一個(gè)值得注意的信號(hào)。

      五、客戶(hù)視角的真實(shí)采購(gòu)邏輯

      說(shuō)到這里,有必要切到客戶(hù)端。大模型客戶(hù)采購(gòu)?fù)獠繑?shù)據(jù)的KPI是什么?

      筆者詢(xún)問(wèn)過(guò)三家不同類(lèi)型客戶(hù)的采購(gòu)負(fù)責(zé)人,把他們的回答合并起來(lái),大致是三條:訓(xùn)練效率、幻覺(jué)率、合規(guī)性。

      訓(xùn)練效率層面。中國(guó)大模型Token調(diào)用量在2026年2月第三周沖上5.16萬(wàn)億(單周),字節(jié)豆包日均120萬(wàn)億Token,跑在前面的模型廠(chǎng)商都意識(shí)到一件事——Benchmark提升1個(gè)百分點(diǎn)的邊際訓(xùn)練成本正在變貴。“找到一份原生對(duì)齊的多模態(tài)語(yǔ)料,相當(dāng)于給訓(xùn)練Run降本。”這不是情緒化判斷,是算力賬本。

      幻覺(jué)率層面。大模型在影視綜、品牌、代言、商品這類(lèi)“事實(shí)密集”的長(zhǎng)尾場(chǎng)景上,幻覺(jué)成本極高——一個(gè)錯(cuò)誤的代言歸因、一個(gè)失真的票房數(shù)據(jù)、一個(gè)過(guò)時(shí)的藝人標(biāo)簽,都會(huì)直接傷害下游商業(yè)化。藝恩這類(lèi)持續(xù)維護(hù)“事實(shí)主體庫(kù)”的數(shù)據(jù)公司,在降低“知識(shí)類(lèi)幻覺(jué)”上具有結(jié)構(gòu)性?xún)?yōu)勢(shì)。

      合規(guī)性層面。Anthropic的15億美元和解金、Concord新一輪30億美元索賠、NYT對(duì)OpenAI/Perplexity的訴訟,都在給中國(guó)大模型廠(chǎng)商上了一課——“用未授權(quán)數(shù)據(jù)訓(xùn)練”的長(zhǎng)期成本,遠(yuǎn)高于“買(mǎi)授權(quán)數(shù)據(jù)”的短期支出。合規(guī)的數(shù)據(jù)通道不再是可選項(xiàng),是必選項(xiàng)。

      再看“海外客戶(hù)”這一極。海外短劇2025年全球市場(chǎng)規(guī)模40億美元,ReelShort與DramaBox雙雄年度收入合計(jì)超過(guò)8億美元;可靈網(wǎng)頁(yè)端80%以上流量來(lái)自海外、2026年1月登頂韓國(guó)多個(gè)品類(lèi)下載榜;中國(guó)AI應(yīng)用在海外iOS的GenAI榜單持續(xù)沖高。出海紅利越大,對(duì)“可合規(guī)出境、可追溯、可本地化”的數(shù)據(jù)通道越依賴(lài)。藝恩2025年海外業(yè)務(wù)觸及千萬(wàn)級(jí)訂單突破——這個(gè)數(shù)字看似不大,但放在一家新三板基礎(chǔ)層公司的財(cái)報(bào)里,它的意義是“中國(guó)AI數(shù)據(jù)的合規(guī)出海通道”在實(shí)際運(yùn)行中被海外客戶(hù)付費(fèi)驗(yàn)證過(guò)了。

      六、結(jié)語(yǔ):上限不在參數(shù)里,在數(shù)據(jù)里

      財(cái)報(bào)往往最誠(chéng)實(shí)。

      藝恩數(shù)據(jù)2025年?duì)I業(yè)收入37,355,395.51元,同比增長(zhǎng)49.86%;毛利率48.79%;凈利潤(rùn)3,635,478.71元——單看數(shù)字,對(duì)一家營(yíng)收體量?jī)H3000多萬(wàn)元的新三板公司而言并不驚艷;但當(dāng)把這組數(shù)字放回2026年的多模態(tài)軍備競(jìng)賽里,它講出的故事截然不同:

      數(shù)據(jù)產(chǎn)品業(yè)務(wù)增加127.68%、數(shù)據(jù)產(chǎn)品毛利率提升16.83pp、無(wú)形資產(chǎn)增加103.34%、開(kāi)發(fā)支出同比大幅增長(zhǎng)、海外業(yè)務(wù)千萬(wàn)級(jí)訂單突破、數(shù)據(jù)集業(yè)務(wù)被明確為前瞻性核心增長(zhǎng)方向。

      這六條并列,構(gòu)成一個(gè)清晰的產(chǎn)業(yè)敘事——當(dāng)“公開(kāi)爬取的數(shù)據(jù)”在見(jiàn)底、“合成數(shù)據(jù)”被證偽為主糧、“結(jié)構(gòu)化垂類(lèi)數(shù)據(jù)資產(chǎn)”成為大模型的真正稀缺資源,藝恩手里的enbase數(shù)據(jù)智庫(kù)和藝恩營(yíng)銷(xiāo)智庫(kù),正在承接來(lái)自大模型廠(chǎng)商、互聯(lián)網(wǎng)巨頭、海外客戶(hù)的三路需求。


      回到開(kāi)篇——那個(gè)凌晨?jī)牲c(diǎn)的訓(xùn)練Run,那位技術(shù)負(fù)責(zé)人說(shuō)“我們?nèi)钡牟皇强ǎ歉蓛簟?duì)齊、能被復(fù)用的多模態(tài)語(yǔ)料”。

      大模型的上限,不寫(xiě)在參數(shù)里,寫(xiě)在數(shù)據(jù)里。

      在中國(guó)AI產(chǎn)業(yè)下一個(gè)五年的故事里,會(huì)有很多名字被記住——有的是千億港元市值的明星,有的是百萬(wàn)機(jī)卡的基建巨頭,也有的像871430這樣——在影視綜、社媒、電商、版權(quán)數(shù)據(jù)的田里埋頭深耕的“彈藥供應(yīng)商”。


      特別提醒:本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。
      0人已贊

      關(guān)注我們

      泡泡網(wǎng)

      手機(jī)掃碼關(guān)注
      主站蜘蛛池模板: 人妻97资源站| 噜噜综合亚洲av中文无码| 日韩在线视频网| 日韩在线欧美| 无码写真精品永久福利在线| 久久综合婷婷成人网站| 天堂久久蜜桃一区二区三区| 乌克兰少妇videos高潮| 天天做天天爱天天综合网2021| 成年无码aⅴ片在线观看| 无码少妇一区二区三区芒果| 欧美喷水抽搐magnet| 国产精品天干天干有线观看| 婷婷五月综合丁香在线| 福利网午夜视频一区二区| 免费在线观看av天堂| 毛片a在线完整视频免费网站| 国产色婷婷| 日韩精品亚洲不卡一区二区| 无码3p| 最新亚洲人成无码网站| 蜜桃久久精品成人无码av| 国产亚洲精久久久久久无码77777 久青草久青草视频在线观看 | 四虎国产精品永久在线影视| 99久热re在线精品99 6热视频| 麻豆国产成人AV| 色婷婷综合久色aⅴ五区最新| 九九视频精品13在线观看| 久久精品一本到东京热| 女人被爽到高潮视频免费国产| 一本一道VS无码中文字幕| 大尺度av无码污污福利网站 | 男人和女人在床的app| 日本乱码在线| 国产欧美日韩综合精品一区二区| 亚洲中文日韩天天嗨| 国产成人久久综合一区| 午夜毛片不卡高清免费看| 日韩人妻无码一区二区三区99| 亚洲天堂精品在线| 亚洲精品福利|