編者按:本月主題旨在探討數(shù)據(jù)與媒體中的內(nèi)容關(guān)系,本文系《媒介雜志》4月號封面文章,全文深入淺出地剖析了數(shù)據(jù)與內(nèi)容之間的關(guān)系,分為“數(shù)據(jù)與內(nèi)容生產(chǎn)”、“數(shù)據(jù)與內(nèi)容優(yōu)化”以及“數(shù)據(jù)與內(nèi)容市場”三部分。因原文較長,考慮到微信閱讀體驗,故分篇推送,本篇系“數(shù)據(jù)與內(nèi)容優(yōu)化”。當(dāng)前媒體面臨怎樣的時代技術(shù)升級、場景變遷、產(chǎn)品迭代、社交遷徙......在這樣的環(huán)境下,昨天還只是寓居于想象的未來蜃景,今天能夠迅速具象為可感現(xiàn)實。但無論媒體產(chǎn)業(yè)如何發(fā)展、技術(shù)如何迭代,我們發(fā)現(xiàn),“內(nèi)容”始終是這條產(chǎn)業(yè)鏈中重要的一環(huán)。內(nèi)容產(chǎn)業(yè)似乎從傳統(tǒng)時代走來,卻也被這個新的時代賦予了新的能量。所以,當(dāng)前的內(nèi)容運營者面對的似乎是一個既光怪陸離又一脈相承的時代,它似乎輕車熟路又遍地希望,卻也時常讓人充滿無力感與困惑。那內(nèi)容行業(yè)該如何解決這份痛點目前,內(nèi)容的概念包括得更加寬泛,除了常規(guī)意義上的新聞、劇集、圖片等,社交內(nèi)容、廣告、搜索頁面、交互信息都是我們界定的整體內(nèi)容行業(yè)所能涵蓋的范疇。而內(nèi)容運營的智能化、數(shù)據(jù)化、程序化等發(fā)展的基礎(chǔ)也在于對數(shù)據(jù)的長期積累、挖掘和運用。那么,數(shù)據(jù)技術(shù)是否會成為未來內(nèi)容行業(yè)中的執(zhí)牛耳者數(shù)據(jù)究竟能為內(nèi)容帶來什么我們需要從行業(yè)的實踐中找到方向。從有到優(yōu)標(biāo)簽與算法優(yōu)化內(nèi)容分發(fā)與管理監(jiān)察如果說,數(shù)據(jù)工具在內(nèi)容生產(chǎn)環(huán)節(jié)是提供素材渠道與模版,那么在生產(chǎn)的基礎(chǔ)上,在分發(fā)、管理等優(yōu)化環(huán)節(jié),數(shù)據(jù)就更加能大施拳腳。在從有到優(yōu)的環(huán)節(jié),生產(chǎn)專業(yè)性上的壁壘被打破,互聯(lián)網(wǎng)平臺涉入其中,通過其數(shù)據(jù)算法等的積累,為內(nèi)容產(chǎn)業(yè)延伸出越來越豐富的優(yōu)化管理平臺。分發(fā)精準(zhǔn)化:數(shù)據(jù)標(biāo)簽算法實現(xiàn)內(nèi)容與人的匹配新聞推薦、社交推薦、廣告投放、文娛內(nèi)容推薦、智能互動等方面,生產(chǎn)出來的內(nèi)容如何更快速、精準(zhǔn)地抵達(dá)讀者,又如何爭取讀者更多的注意力資源,是各大機(jī)構(gòu)正在努力用技術(shù)革新回答的問題。其中以全球最大的社交平臺之一Facebook為例,F(xiàn)acebook借助算法收集用戶、企業(yè)等信息,調(diào)整用戶首頁展示內(nèi)容,影響了用戶的在線行為習(xí)慣,甚至改變歐美新聞分發(fā)和社交媒體盈利的模式。Facebook也有自己的排序規(guī)則——FacebookEdgeRank。Facebook收集每位用戶發(fā)布的內(nèi)容(包括分享的內(nèi)容),關(guān)注好友的狀態(tài)更新,加入的群組,點贊、評論、分享等行為信息。根據(jù)權(quán)重(早期標(biāo)準(zhǔn)有:互動/親密度/時間等)對監(jiān)測數(shù)據(jù)進(jìn)行評級,展示信息流排名評級高的內(nèi)容推送用戶,也即用戶最感興趣的內(nèi)容。后來,F(xiàn)acebook在原來EdgeRank的基礎(chǔ)上,更加細(xì)致地定義了不同層級的親密度。用深度神經(jīng)網(wǎng)絡(luò)理解圖片內(nèi)容和文字內(nèi)容,從而可以知道相片中的物體是不是用戶感興趣的。隨著產(chǎn)品迭代,也加入了更多產(chǎn)品特征,諸如閱讀時間長短、視頻內(nèi)容、鏈接內(nèi)容;取關(guān)、隱藏等。FacebookEdgeRank2017年上半年,《紐約時報》對其網(wǎng)站和App進(jìn)行個性化改造,被用戶稱為“模仿Facebook”。在后續(xù)的幾個月里,它陸續(xù)進(jìn)行了一些個性化實驗,比如根據(jù)用戶的閱讀習(xí)慣、訪問時間、地理定位來決定推送內(nèi)容,最終希望達(dá)到的是,在傳統(tǒng)報紙編輯選薦與網(wǎng)絡(luò)個性化模式之間達(dá)到平衡。在國內(nèi),今日頭條的推薦算法是其產(chǎn)品的靈魂。頭條用機(jī)器給文章打標(biāo)簽,追蹤用戶的閱讀行為和習(xí)慣,再用算法完成兩者之間的匹配,根據(jù)用戶關(guān)注的內(nèi)容分類進(jìn)行推薦。數(shù)據(jù)積累到一定程度,最終想達(dá)到的效果就是系統(tǒng)越來越了解用戶的品味,推薦的內(nèi)容用戶都喜歡看。頭條的標(biāo)簽基本有兩種方式,一種是機(jī)器判定,一種是人工添加,目前機(jī)器判定的比例更高。以電影為例,一部電影可以細(xì)分出影片類型、年代、演員、導(dǎo)演等等多種元素。用戶標(biāo)注了某一部電影,算法就會為他推薦同一導(dǎo)演的作品。這樣的推薦模式大多被適用于識別結(jié)構(gòu)化數(shù)據(jù)——算法并不知道文章、影片中到底說了什么,只能根據(jù)結(jié)構(gòu)化數(shù)據(jù)標(biāo)注判斷。這個結(jié)構(gòu)化數(shù)據(jù),也就是關(guān)鍵詞。社會和娛樂這兩大標(biāo)簽是受眾最為廣泛的標(biāo)簽。頭條會對關(guān)鍵詞進(jìn)行收集和整合,如果發(fā)現(xiàn)這些關(guān)鍵詞熱度比較高,就會生成一定的頻道。比如體育底下其實還是包含很多的子頻道。這也算對用戶定制的一種反饋,更便于網(wǎng)民能夠直接查看相關(guān)的文章。不過關(guān)鍵詞的不精準(zhǔn)也帶來了一些問題。隨著資訊類平臺中的內(nèi)容越來越豐富,短消息、圖文、問答都有。關(guān)鍵詞標(biāo)注只能對內(nèi)容進(jìn)行浮于表面的理解,而內(nèi)容中暗含的情緒往往會冒犯到用戶。在流量的誘惑下,很多創(chuàng)作者會更傾向于生產(chǎn)具有刺激性情緒的內(nèi)容,這就增加了用戶被冒犯的幾率?;谒惴ㄍ扑]機(jī)制的個性化分發(fā)嘗試一如既往,算法所代表的精準(zhǔn)滿足信息需求、擴(kuò)展細(xì)分市場的概念起初非常理想,所以很多媒體紛紛做出相應(yīng)嘗試。但熱趨勢中,算法正在面臨讀者“過濾氣泡”、“信息繭房”等質(zhì)疑,難以達(dá)到預(yù)期效果。近期,哈佛尼曼實驗室的一篇報告詳細(xì)地探討了這一技術(shù)機(jī)制,承認(rèn)個性化算法的力量,但也不能只將個性化留給算法,“你仍然需要一個人類編輯”。管理與監(jiān)察數(shù)據(jù)化:促進(jìn)機(jī)構(gòu)走向規(guī)模與成熟當(dāng)內(nèi)容發(fā)展到一定規(guī)模之后,內(nèi)容本身就成長為有一定規(guī)模的數(shù)據(jù)庫。如何實現(xiàn)內(nèi)容的數(shù)據(jù)化管理以及如何識別因數(shù)據(jù)的中立性而帶來的虛假和錯誤也是媒體機(jī)構(gòu)承擔(dān)社會責(zé)任,完善用戶體驗的重要環(huán)節(jié)。被Google并購后,YouTube對內(nèi)容版權(quán)問題越來越被重視。為了提供一套可行的版權(quán)及內(nèi)容管理方式,Google于2011年上線了ContentID。ContentID為版權(quán)所有者提供免費的內(nèi)容數(shù)據(jù)管理方式,并提供封鎖、追蹤和獲利三種方式,讓版權(quán)所有者自行決定所擁有的版權(quán)內(nèi)容以何種形式出現(xiàn)在YouTube上。YouTubeContentID功能包含了影片ID(VideoID)和音頻ID(AudioID)兩種數(shù)據(jù)標(biāo)簽化管理功能,分別具有比對視頻、音頻是否侵權(quán)的功能。YouTubeContendID以熱圖(Heatmap)的數(shù)據(jù)處理方式比對影片,因此即使不是完全符合的影片,如內(nèi)容包含加框、影音歪斜、左右鏡象、水印、質(zhì)量不佳的影片,一樣可進(jìn)行比對是否侵權(quán)。Heatmap用顏色變化來反映二維矩陣或表格中的數(shù)據(jù)信息,它可以直觀地將數(shù)據(jù)值的大小以定義的顏色深淺表示出來。常根據(jù)需要將數(shù)據(jù)進(jìn)行樣品間豐度相似性的聚類,將聚類后數(shù)據(jù)表示在Heatmap圖上,可將高豐度和低豐度的樣品分塊聚集,通過顏色梯度及相似程度來反映多個樣品的相似性和差異性。YouTube熱圖(Heatmap)另外,YouTube也會篩選監(jiān)察自身的內(nèi)容,如果使用者有重復(fù)侵權(quán)的情況,帳號還可能被終止。藉由ContentID的禁播功能設(shè)定,可以讓包含侵權(quán)內(nèi)容的影片可在特定的區(qū)域中觀看,如此可以符合版權(quán)擁有者的區(qū)域利益,也不致讓所有的使用者都看不到影片的內(nèi)容。將內(nèi)容也視為一種數(shù)據(jù),并利用工具為內(nèi)容制定考量的標(biāo)簽和標(biāo)準(zhǔn),讓內(nèi)容實現(xiàn)數(shù)據(jù)化管理,幾乎成為所有形成規(guī)模的媒體機(jī)構(gòu)的必修課。其中還包括Facebook的反垃圾系統(tǒng)Sigma和Immune、今日頭條的內(nèi)容攔截算法等都是媒體內(nèi)容管理與監(jiān)察開始趨于完善的重要標(biāo)志。
欄目索引
相關(guān)內(nèi)容
欄目推薦