中文互聯(lián)網(wǎng)內(nèi)容真的正在衰退嗎?
“全球前100萬網(wǎng)站中,中文網(wǎng)站的比例只占1.3%,英文占59.3%”;
“中文網(wǎng)頁數(shù)量僅僅略高于印尼語和越南語”;
“中文網(wǎng)頁的數(shù)量十年間下降了70%”……
這類關(guān)于中文互聯(lián)網(wǎng)內(nèi)容占比低、迅速衰退的說法,在互聯(lián)網(wǎng)上已經(jīng)流行了很長時(shí)間。中國有超過10億的網(wǎng)民,卻連互聯(lián)網(wǎng)內(nèi)容的一角都占據(jù)不了,甚至還在繼續(xù)倒退,這種反差感不能不讓人印象深刻。這是真的嗎?
有缺陷的數(shù)據(jù)
這些說法的數(shù)據(jù)都有同一個(gè)來源,監(jiān)測網(wǎng)站W(wǎng)3Techs,它通過分析訪問量最高的1000萬個(gè)網(wǎng)站來確定互聯(lián)網(wǎng)內(nèi)容的語言分布?,F(xiàn)在網(wǎng)上很多關(guān)于互聯(lián)網(wǎng)語言多樣性的討論,就建立在W3Techs的數(shù)據(jù)之上。按照W3Techs的數(shù)據(jù),英文內(nèi)容始終是互聯(lián)網(wǎng)的主流。
然而法國學(xué)者丹尼爾·皮米恩塔(Daniel Pimienta)和他的合作者不認(rèn)同這個(gè)觀點(diǎn)。皮米恩塔是FUNREDES(Fundación Redes y Desarrollo,網(wǎng)絡(luò)與發(fā)展基金會(huì))的創(chuàng)始人之一,他和合作者一直致力于研究互聯(lián)網(wǎng)語言的多樣性和文化分布。聯(lián)合國教科文組織曾經(jīng)委托他制作關(guān)于互聯(lián)網(wǎng)語言多樣性的主題報(bào)告[1]。
有趣的是,皮米恩塔當(dāng)年踏入互聯(lián)網(wǎng)語言多樣性研究的契機(jī),也是因?yàn)榉▏藢?duì)互聯(lián)網(wǎng)英語內(nèi)容占比的高估。1995年,時(shí)任法國總統(tǒng)希拉克在一次峰會(huì)上表示,互聯(lián)網(wǎng)幾乎一個(gè)100%講英語的領(lǐng)域。但在皮米恩塔看來,這樣的說法根本經(jīng)不起驗(yàn)證[2]。
當(dāng)時(shí)流行其他說法也不可靠,比如一項(xiàng)1999年的研究提到英文內(nèi)容占互聯(lián)網(wǎng)達(dá)到80%。但這項(xiàng)研究僅僅對(duì)3000個(gè)網(wǎng)站做了一次抽樣,而沒有多次重復(fù)得出數(shù)據(jù)的特征,這在統(tǒng)計(jì)上是不過關(guān)的,但這個(gè)數(shù)據(jù)在當(dāng)時(shí)被反復(fù)引用[3]。
互聯(lián)網(wǎng)語言多樣性的數(shù)據(jù)其實(shí)一直很不完善。1998年,研究人員首次采用基于搜索引擎的數(shù)據(jù)方法研究互聯(lián)網(wǎng)語言多樣性。然而,到2007年,他們發(fā)現(xiàn)搜索引擎報(bào)告的可靠性下降,只能去尋找新方法。自2011 年以來,討論互聯(lián)網(wǎng)語言分布的政策制定者和語言學(xué)研究者,都不得不完全依賴W3Techs和InternetWorldStats,這兩個(gè)數(shù)據(jù)源都來自商業(yè)營銷領(lǐng)域,用它們的數(shù)據(jù)是一種無奈之舉。
W3Techs的方法存在顯著缺陷,尤其忽視了互聯(lián)網(wǎng)的多語言特性。例如,許多網(wǎng)站同時(shí)使用多種語言,但W3Techs通常只記錄其中一種主要語言,導(dǎo)致了對(duì)非主要語言內(nèi)容的嚴(yán)重低估。這樣的統(tǒng)計(jì)方法導(dǎo)致英語之外的互聯(lián)網(wǎng)語言存在被大大低估。
另外,W3Techs的計(jì)量單位是網(wǎng)站,沒有詳細(xì)到網(wǎng)頁的程度。一些非英文網(wǎng)站會(huì)在其主頁中出現(xiàn)英文摘要或少量英文單詞,這可能會(huì)導(dǎo)致整個(gè)網(wǎng)站被算作英文網(wǎng)站。此外,許多英文網(wǎng)站的其他語言版本也不會(huì)被計(jì)算在內(nèi)。
中文互聯(lián)網(wǎng)內(nèi)容到底占比多少?
為了糾正這種誤解,皮米恩塔和他的合作者開發(fā)了一種新的統(tǒng)計(jì)方法。他們的方法不僅依賴于網(wǎng)站聲明的語言,還結(jié)合了多個(gè)關(guān)鍵因素,包括互聯(lián)網(wǎng)用戶的語言偏好、不同地區(qū)的網(wǎng)絡(luò)流量、社交網(wǎng)絡(luò)的訂閱情況及各國互聯(lián)網(wǎng)服務(wù)的發(fā)展進(jìn)度等。這種綜合考量使得研究結(jié)果更具代表性和準(zhǔn)確性。
盡管W3Techs等網(wǎng)站數(shù)據(jù)顯示,互聯(lián)網(wǎng)上英文內(nèi)容占比超過50%,但這項(xiàng)研究表明,這一比例實(shí)際上大約只有20%。
具體來說,現(xiàn)在英文占到互聯(lián)網(wǎng)內(nèi)容的20.4%,中文占到18.9%,西班牙語占7%到9%,其他語言如阿拉伯語、印地語、俄語、法語和葡萄牙語分別占3%到4%。相比W3Techs的數(shù)據(jù),這項(xiàng)研究中印地語和中文內(nèi)容的比重都增加了超過10倍。按這項(xiàng)研究的計(jì)算標(biāo)準(zhǔn),中文內(nèi)容不僅沒有減少,反而在全球范圍內(nèi)持續(xù)增長。
比例上有所下降的反而是英文內(nèi)容。從1998年到現(xiàn)在,英文內(nèi)容的比例從已經(jīng)從80%下降到20%。但這并不是因?yàn)橛⑽膬?nèi)容消亡了,而是其他語言的內(nèi)容顯著增加,削弱了英文內(nèi)容的相對(duì)比例,而中文內(nèi)容就處于增長之中[4]。
按照皮米恩塔與合作者長期以來的跟蹤?;ヂ?lián)網(wǎng)的發(fā)展可以劃分為幾大階段。最初,從1992年到2000年,網(wǎng)絡(luò)主要圍繞著英語內(nèi)容構(gòu)建。隨后進(jìn)入了第二階段,從2000年到2010年,這一時(shí)期以歐洲語言的興起為特征,盡管英語仍然占據(jù)主導(dǎo)地位。從2010年到2020年,互聯(lián)網(wǎng)邁入了更加國際化的階段,亞洲語言和阿拉伯語等非西方語言迅速發(fā)展。
很難說皮米恩塔的統(tǒng)計(jì)就能代表互聯(lián)網(wǎng)語言分布狀況的真相。畢竟這方面的研究并不多,研究團(tuán)隊(duì)的結(jié)果缺少交叉印證,而且他們的計(jì)算標(biāo)準(zhǔn)本身也在迭代過程中。
論文中也提到,互聯(lián)網(wǎng)語言測量領(lǐng)域是兩個(gè)偏差相當(dāng)普遍的領(lǐng)域的交叉點(diǎn):語言人口學(xué)和網(wǎng)絡(luò)。在這兩個(gè)領(lǐng)域中,對(duì)數(shù)據(jù)并沒有達(dá)成很好的共識(shí)。根據(jù)資料來源的不同,在一些數(shù)字上可能會(huì)出現(xiàn)很大的差異,比如在某個(gè)國家有多少人講這種語言,或者網(wǎng)頁的總數(shù)到底是多少。
但他的研究至少說明,過去普遍被引用的W3Techs數(shù)據(jù)是有偏見的。中文的互聯(lián)網(wǎng)內(nèi)容占比未必少到了和越南語一個(gè)程度,中文互聯(lián)網(wǎng)內(nèi)容的迅速消亡也并非是一個(gè)定論。
衰退的,不只是中文互聯(lián)網(wǎng)內(nèi)容
2005年,一位商學(xué)院的學(xué)生正在為自己的學(xué)費(fèi)發(fā)愁,考慮如何賺錢來填補(bǔ)學(xué)費(fèi)。很快他有了一個(gè)主意,“百萬美元主頁”。這是一個(gè)一百萬像素的廣告頁,每個(gè)像素一美元,以100個(gè)像素為一組售賣廣告位。一年之后,他真的成了百萬富翁。
到2019年,百萬美元主頁依然在運(yùn)作,但上面40%廣告位的鏈接都指向無效網(wǎng)站,還有很多廣告位背后的網(wǎng)站已經(jīng)多次變化,指向全新的域名。百萬美元網(wǎng)頁不僅展示了一個(gè)經(jīng)典的商業(yè)案例,更展示了早期互聯(lián)網(wǎng)內(nèi)容的衰退[5]。
對(duì)于互聯(lián)網(wǎng)內(nèi)容來說,這樣的衰退其實(shí)每天都在發(fā)生。今年5月,皮尤研究中心的一項(xiàng)新研究發(fā)現(xiàn),截至 2023 年 10 月,2013 年至 2023 年間一度存在的所有網(wǎng)頁中,有四分之一已無法訪問。2013年的網(wǎng)頁有38%已經(jīng)消失。哪怕是2023年的網(wǎng)頁,到這一年的十月份都有8%已經(jīng)無法訪問了。
團(tuán)隊(duì)從互聯(lián)網(wǎng)快照數(shù)據(jù)庫Common Crawl 的檔案中隨機(jī)收集了近 100 萬個(gè)網(wǎng)頁樣本,對(duì) 2013 年到 2023 年每一年 Common Crawl 收集的頁面進(jìn)行抽樣(每年大約 90,000 個(gè)頁面),并檢查這些頁面是否仍然存在。
這項(xiàng)研究旨在調(diào)查有互聯(lián)網(wǎng)上有多少內(nèi)容已經(jīng)無法訪問。研究者無法訪問的網(wǎng)站定義為在其主機(jī)服務(wù)器上不復(fù)存在的網(wǎng)站,也就是我們熟悉的404錯(cuò)誤還有它的變體。有些網(wǎng)頁相比過去出現(xiàn)了面目全非的變化,其實(shí)也可以算作是消失了,但這類情況并不是此次研究的重點(diǎn)。
具體到各個(gè)領(lǐng)域。政府網(wǎng)站有21%至少包含一個(gè)損壞的鏈接。新聞網(wǎng)站頁面上的所有鏈接中有5%無法訪問,抽樣的所有頁面中23%至少包含一個(gè)損壞的鏈接。按網(wǎng)站流量排名前 20% 的新聞網(wǎng)站中,約有 25% 的頁面至少有一個(gè)損壞的鏈接。近五分之一的推特帖子,在三個(gè)月左右的觀察期內(nèi)也不再可見[6]。
在學(xué)術(shù)領(lǐng)域,也有很多數(shù)字化的論文從互聯(lián)網(wǎng)上消失。數(shù)字化的學(xué)術(shù)論文通常有著唯一且不變的DOI,以確保學(xué)術(shù)鏈接和引用的持久性,然而現(xiàn)在很多DOI背后的作品卻已經(jīng)無法找到。
倫敦伯克貝克大學(xué)文學(xué)、科技和出版研究員馬丁·伊夫(Martin Eve)對(duì)超過70萬篇帶有DOI的數(shù)字學(xué)術(shù)論文進(jìn)行調(diào)查,發(fā)現(xiàn)接近28%的論文沒有出現(xiàn)在主要的數(shù)字檔案庫中,也就是說,超過200萬學(xué)術(shù)論文沒有得到保存[7]。
或許是互聯(lián)網(wǎng)并沒有實(shí)體,保存互聯(lián)網(wǎng)信息的成本很難直觀看到,我們就有了互聯(lián)網(wǎng)信息可以持續(xù)存在的錯(cuò)覺。實(shí)際上無論從成本還是工作量上,互聯(lián)網(wǎng)內(nèi)容的存儲(chǔ)從來都是一個(gè)難題。互聯(lián)網(wǎng)內(nèi)容永遠(yuǎn)在持續(xù)的增長中,無論是歸檔還是存儲(chǔ)都要花錢,問題是這些錢誰來付?
高質(zhì)量信息更難找了
普通人切身感到的互聯(lián)網(wǎng)信息的衰退,有時(shí)候未必是信息不存在了,而是我們搜不到了。
問題出在搜索引擎上,現(xiàn)在搜索引擎無法像過去一樣在信息搜索上穩(wěn)準(zhǔn)狠。輸入關(guān)鍵詞得到答案,這種直觀而清晰的互動(dòng)體驗(yàn)正在減少。今天我們?cè)谒阉饕孑斎腙P(guān)鍵詞,得到的往往是內(nèi)容同質(zhì)、信息重復(fù)、掛著各式廣告信息的軟文。
2022年,一位工程師發(fā)布了一篇名為“谷歌搜索正在死亡”的博文(Google Search Is Dying),表示谷歌的搜索結(jié)果一團(tuán)糟,如果搜索菜譜、健康內(nèi)容或者商品評(píng)論,排在最前面的幾個(gè)非廣告結(jié)果都是格式一致、內(nèi)容重復(fù)的軟文,正文還是會(huì)有大量的廣告和鏈接[8]。
這是搜索引擎商業(yè)模式所不能避免的問題。讓內(nèi)容占據(jù)搜索引擎的黃金位置本身就是一項(xiàng)稱為搜索引擎優(yōu)化(SEO)的業(yè)務(wù)。這種業(yè)務(wù)不同于競價(jià)排名,是利用搜索引擎算法漏洞,通過大量重復(fù)關(guān)鍵詞、偽原創(chuàng)內(nèi)容或不相關(guān)鏈接來提升網(wǎng)頁排名。為人熟知的小編體,就是這種針對(duì)搜索引擎,刷關(guān)鍵詞騙點(diǎn)擊量的產(chǎn)物。
根據(jù)市場研究公司 IBISWorld 的數(shù)據(jù),去年 SEO 業(yè)務(wù)價(jià)值 760 億美元。搜索引擎優(yōu)化已成為大多數(shù)網(wǎng)絡(luò)營銷的重要組成部分,出現(xiàn)在顯眼位置的網(wǎng)站可以通過商品鏈接的返傭賺錢,其中一些甚至干脆就是詐騙網(wǎng)站[9]。
為了保證內(nèi)容的可靠,現(xiàn)在很多用戶在搜索詞后面加上了 “reddit”,來搜索reddit論壇里的用戶真實(shí)看法。要不是reddit始終沒有認(rèn)真開發(fā)搜索功能,恐怕倒向reddit的用戶會(huì)更多。
在今年的歐洲信息檢索會(huì)議(European Conference on Information Retrieval)上,四位來自德國的研究者發(fā)布了一項(xiàng)名為《谷歌在變壞嗎?》(Is Google Getting Worse?)的研究,回應(yīng)了網(wǎng)民對(duì)于搜索引擎的質(zhì)疑。這項(xiàng)研究的起點(diǎn)就是網(wǎng)民對(duì)于搜索引擎質(zhì)量日漸下降的抱怨,結(jié)果說明,網(wǎng)民的直覺是對(duì)的。
研究團(tuán)隊(duì)利用一年時(shí)間,監(jiān)測了Google、Bing和DuckDuckGo搜索結(jié)果的變化,發(fā)現(xiàn)所有搜索引擎在處理SEO內(nèi)容上存在問題,遠(yuǎn)超過整個(gè)網(wǎng)絡(luò)平均情況。越是靠前的內(nèi)容,越是做了更多優(yōu)化而且有更多返傭鏈接,鏈接越多內(nèi)容的復(fù)雜性越差。其中聯(lián)盟營銷內(nèi)容(為平臺(tái)推廣產(chǎn)品,獲取點(diǎn)擊或返傭的內(nèi)容)僅占網(wǎng)絡(luò)產(chǎn)品評(píng)論的小部分,但它卻在搜索結(jié)果中占據(jù)主導(dǎo)地位。不僅是谷歌,所有搜索引擎均遭受垃圾信息的困擾[10]。
搜索引擎運(yùn)營商在嘗試通過排名算法更新來打擊SEO和聯(lián)盟營銷內(nèi)容。從搜索結(jié)果上看,Google的更新產(chǎn)生了明顯但短暫的效果,從實(shí)驗(yàn)開始到結(jié)束,Google的聯(lián)盟垃圾量有所減少。高質(zhì)量的雜志和社交平臺(tái)通常在多次抓取中穩(wěn)定出現(xiàn)在谷歌搜索結(jié)果的前列,而純粹的產(chǎn)品評(píng)論農(nóng)場和一些頻繁的垃圾站點(diǎn)則相對(duì)短暫,常在Google排名更新后消失。
雅虎前CEO、谷歌早期員工瑪麗莎·梅耶爾(Marissa Mayer)表示,如果說谷歌搜索變?cè)懔?,那是因?yàn)檎麄€(gè)網(wǎng)絡(luò)都變?cè)懔恕T谒齽倿楣雀韫ぷ鲿r(shí),互聯(lián)網(wǎng)只有3000萬個(gè)網(wǎng)頁,對(duì)所有網(wǎng)頁進(jìn)行爬取和編制索引更為簡單。而現(xiàn)在谷歌面對(duì)的可能是上萬億個(gè)網(wǎng)頁。在經(jīng)濟(jì)誘因的驅(qū)動(dòng)下,虛假信息、騙取點(diǎn)擊量的內(nèi)容以及廣告鏈接不受監(jiān)管地迅速增長[11]。
AI技術(shù)進(jìn)步后,互聯(lián)網(wǎng)上這類垃圾信息越來越多。網(wǎng)絡(luò)安全公司 Imperva 今年的一份“不良機(jī)器人”報(bào)告表明,去年所有互聯(lián)網(wǎng)流量中近一半(49.6%)來自機(jī)器人,這是從2013年以來的最高水平。特別是不良機(jī)器人,占現(xiàn)在所有流量的三分之一。
Imperva應(yīng)用安全總經(jīng)理Nanhi Singh表示:“自動(dòng)機(jī)器人將很快超過來自人類的互聯(lián)網(wǎng)流量比例......隨著更多人工智能工具的推出,機(jī)器人將變得無所不在[12]?!?/span>
隨著互聯(lián)網(wǎng)內(nèi)容的膨脹,谷歌只能像打地鼠一樣追著隱藏在數(shù)十億網(wǎng)站中的騙子們打。前述論文作者說,這是一場持久戰(zhàn),而搜索引擎輸?shù)袅诉@場“與SEO垃圾內(nèi)容之間的貓鼠游戲”。
搜索引擎逐漸迷失是一個(gè)世界性的問題,對(duì)于中文互聯(lián)網(wǎng)用戶來說,高質(zhì)量的數(shù)據(jù)更為受限,比如一些行政公開數(shù)據(jù)。
中國公開數(shù)據(jù)的透明度一度有著明顯地上升。2013后的幾年里,國家統(tǒng)計(jì)局的統(tǒng)計(jì)指標(biāo)(如人口數(shù)據(jù)、經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)等指標(biāo))數(shù)量增加了 673%。《中華人民共和國政府信息公開條例 》也在2019年進(jìn)行了修訂,強(qiáng)調(diào)了“堅(jiān)持以公開為常態(tài)、不公開為例外 ”的信息公開原則。
然而2015年達(dá)到頂峰后,信息公開又出現(xiàn)了下降的趨勢(shì)。
不同類型的信息公開程度不同。法律法規(guī)是公民和企業(yè)生計(jì)相關(guān)的事項(xiàng),因此相對(duì)透明。相反,與內(nèi)部工作流程相關(guān)的文件透明度較低。隨著對(duì)安全的強(qiáng)調(diào),普通人看到了越來越多健康、消費(fèi)、價(jià)格、就業(yè)等相關(guān)數(shù)據(jù),但是更少看到能源、科技、創(chuàng)新、金融等方面的公開信息。
尤其是科技創(chuàng)新方面的信息,從2017年之后公開文件的比例就逐步下降,到2022年的公開比例更是達(dá)到2009年來的低點(diǎn)。
文件的保存程度也很堪憂。只有78%的政策文件鏈接在發(fā)布兩年后仍然可用。失效的文件大部分與網(wǎng)站無法訪問或網(wǎng)站更新有關(guān)。其中一些可能在其他地方仍可獲取,但這只是一部分[13]。
對(duì)于生活,這種變化可能并沒有帶來什么顯著的不便利。但對(duì)于相對(duì)嚴(yán)肅的用戶,比如科技行業(yè)的投資者,這些信息的缺失仍然會(huì)帶來很多不便。相比同樣深受互聯(lián)網(wǎng)垃圾和廣告信息發(fā)達(dá)國家,這些高質(zhì)量信息的差距,可能才是中文互聯(lián)網(wǎng)真正的短板。
參考文獻(xiàn):(上下滑動(dòng)可瀏覽)