昨天深圳網絡公司【創絡】特意将網站優化過程中比較接近數據挖掘層面的信息做了一下簡單的介紹,今天創絡将繼續介紹有關搜索引擎是如(rú)何去(qù)掉網站上的噪聲數據的。可(kě)能有很多朋友在做網站優化的時候,會經常僞原創一些文章(zhāng)來(lái)放(fàng)到自(zì)己的網站上,但(dàn)是收錄的效果和網站的權重卻沒有實質上的提升,這就(jiù)是沒有搞清楚搜索引擎是如(rú)何去(qù)判斷一個文章(zhāng)是否是原創的機(jī)理(lǐ),這個問(wèn)題創絡将在本文中加以說(shuō)明。
搜索引擎會去(qù)掉文章(zhāng)中無意義的停止詞,例如(rú):“的”、“地”、“得(de)”。其實,無論是英文還(hái)是中文,頁面中都(dōu)會出現一些頻率很高卻對内容沒有影(yǐng)響的詞,還(hái)有一些感歎詞和副詞也是如(rú)此,例如(rú):“啊”、“呀”、“以”、“卻”等等。這些詞在搜索引擎眼裡(lǐ)統稱爲停止詞,搜索引擎在索引一篇文章(zhāng)之前會講這些詞語删除掉,以使索引到的數據更加幹淨且便于節省計(jì)算時間。
搜索引擎還(hái)會去(qù)掉那些相(xiàng)關性很差的網頁内容,因爲這些頁面有極大(dà)的可(kě)能對網站的主題沒有任何幫助,比如(rú)版權聲明、聯系方式等。還(hái)有在論壇中,我們常見(jiàn)的無意義回帖和不相(xiàng)關的回帖都(dōu)不會被收錄,這就(jiù)是爲什麽大(dà)多數的論壇會對這樣的帖子加以處罰的原因。這樣的噪聲數據對網站内容本身(shēn)沒有意義,還(hái)分(fēn)散了網站的主題内容,如(rú)果對這些噪聲數據加以索引,那就(jiù)是在浪費時間。
如(rú)果要僞原創一篇文章(zhāng),那麽就(jiù)根據本文前面一部分(fēn)提到的内容一樣,不要簡單的處理(lǐ)掉原來(lái)文章(zhāng)中的那些副詞和感歎詞,這樣跟沒做完全一樣。