接下來就好辦了,摘抄、重組、整合。
如果查重不過關,也簡單,用谷歌翻譯,先漢譯英、再英譯漢。再人工地把句子整理通順,查重就順利通過。
可能是北科的創業環境被周不器給帶起來了,那倆大學生就有了通過技術牟利的心思,玩起了幫同學寫論文的生意。
被發現后,倆人都被開除了。
要不是周不器出面力保,上繳了非法所得,并安排到了校內網工作,他倆說不定就要蹲監獄了,前程就全毀了。
王小船接著說:“這是靜態網站的爬取,如果是優酷、朋友網的這種動態頁面,算法會相對復雜。可不管怎樣,這都是很基礎的工具。我們做搜索引擎,難點已經從復雜性變為規模量了。”
周不器皺皺眉,“老馬……就是阿里的那位。他跟我說,要屏蔽百度對淘寶的爬蟲,怎么回事?”
王小船笑道:“這事也簡單,爬蟲和網站之間有一個爬取協議,業內叫robot協議。這個協議會聲明,該網站的哪些內容可以爬取,哪些內容不能爬取,并規定白名單里的爬蟲可以爬取主頁內容。淘寶如果要屏蔽百度,只需要把百度的爬蟲加到黑名單里就行了。”
“嗯!”
周不器點了點頭。
內容未完,下一頁繼續閱讀