搜索引擎是如(rú)何去(qù)掉網站上的噪聲數據

發布時間

2012-03-20

浏覽次數

6896次

所屬類别

本文于2012-03-20最後更新，距今已超過1年(nián)，如(rú)不符合現在的實際情況，可(kě)聯系創絡客服獲取幫助或查閱近期文章(zhāng)。

昨天深圳網絡公司【創絡】特意将網站優化過程中比較接近數據挖掘層面的信息做了一下簡單的介紹，今天創絡将繼續介紹有關搜索引擎是如(rú)何去(qù)掉網站上的噪聲數據的。可(kě)能有很多朋友在做網站優化的時候，會經常僞原創一些文章(zhāng)來(lái)放(fàng)到自(zì)己的網站上，但(dàn)是收錄的效果和網站的權重卻沒有實質上的提升，這就(jiù)是沒有搞清楚搜索引擎是如(rú)何去(qù)判斷一個文章(zhāng)是否是原創的機(jī)理(lǐ)，這個問(wèn)題創絡将在本文中加以說(shuō)明。

搜索引擎會去(qù)掉文章(zhāng)中無意義的停止詞，例如(rú)：“的”、“地”、“得(de)”。其實，無論是英文還(hái)是中文，頁面中都(dōu)會出現一些頻率很高卻對内容沒有影(yǐng)響的詞，還(hái)有一些感歎詞和副詞也是如(rú)此，例如(rú)：“啊”、“呀”、“以”、“卻”等等。這些詞在搜索引擎眼裡(lǐ)統稱爲停止詞，搜索引擎在索引一篇文章(zhāng)之前會講這些詞語删除掉，以使索引到的數據更加幹淨且便于節省計(jì)算時間。

搜索引擎還(hái)會去(qù)掉那些相(xiàng)關性很差的網頁内容，因爲這些頁面有極大(dà)的可(kě)能對網站的主題沒有任何幫助，比如(rú)版權聲明、聯系方式等。還(hái)有在論壇中，我們常見(jiàn)的無意義回帖和不相(xiàng)關的回帖都(dōu)不會被收錄，這就(jiù)是爲什麽大(dà)多數的論壇會對這樣的帖子加以處罰的原因。這樣的噪聲數據對網站内容本身(shēn)沒有意義，還(hái)分(fēn)散了網站的主題内容，如(rú)果對這些噪聲數據加以索引，那就(jiù)是在浪費時間。

如(rú)果要僞原創一篇文章(zhāng)，那麽就(jiù)根據本文前面一部分(fēn)提到的内容一樣，不要簡單的處理(lǐ)掉原來(lái)文章(zhāng)中的那些副詞和感歎詞，這樣跟沒做完全一樣。

上一條返回目錄下一條

來(lái)一份專業的網站建設方案，參考一下？

主營業務
網站案例
- LED
- 五金
- 單位
- 自(zì)動化設備
- 電子
- 塑膠模具
- 物流
- 化工(gōng)
- 服務業
- 制造業
新聞中心
關于我們
聯系創絡
- 聯系方式
- 支付方式
- 員(yuán)工(gōng)登錄

不出售過期域名

24小時服務電話(huà)
0755-23698839
134-1757-3710
132-6576-8769