爬蟲技術違法的判例 爬蟲技術違法嗎?

先說結論,技術無罪,有罪的是人 。爬蟲技術本身是不違法的,但是如果利用爬蟲技術做損害他人利益的事情就是違法的了 。
具體的法律條文,我也記不大清了,目前對于爬蟲技術的使用界限沒有一個特別明確的規定,按照我之前咨詢律師得到答案,大概就是關乎這三個方面:采集途徑、采集行為、使用目的 。
通過什么途徑爬取數據,這個是最需要重視的一點 ??傮w來說,未公開、未經許可、且帶有敏感信息的數據,不管是通過什么渠道獲得,都是一種不合法的行為 。
采集行為上使用技術手段應該懂得克制,一些容易對服務器和業務造成干擾甚至破壞的行為,容易違法
還有就是使用目的,就算你通過合法途徑采集的數據,如果對數據沒有正確的使用,同樣會存在不合法的行為 。一種情況是公開收集的數據,但沒有遵循之前告知的使用目的 。比如有些網站上標明內容不得用于商業行為,還有未經授權不得轉載的,些都是有法律明文保護,所以要注意使用 。
最后,結合實際情況,給幾點建議吧
1、爬蟲訪問頻次要控制,別把對方服務器搞崩潰了
雖然你爬取的信息都是公開的,也不涉及公民隱私,爬取的數據也不用于違法獲利,只是自己弄著玩,但是如果你的爬蟲太瘋狂了,一分鐘請求1萬次,導致對方服務器應接不暇,不能處理正常業務了,對不起,你這種屬于違法行為,這種爬蟲等同于進行黑客攻擊了,你讓人家不能正常工作了,損害了對方的利益
2、 涉及到個人隱私的信息你不能爬

其實這很好理解,你希望你自己的電話號,身份證號,家庭住址,工作單位,行蹤軌跡這些隱私信息被別人用爬蟲抓取么?當然不希望,別人抓了你的這些信息,你肯定想去報警對不對,讓警察去抓那個壞蛋,ok,你不要去做那個壞蛋 。
3、 突破網站的反爬措施,后果很嚴重
正規的網站都會在根目錄下放置 robots.txt,這里就規定了哪些能爬,哪些不能爬,誰可以爬,比如知乎的robots.txt,人家希望搜索引擎來爬它,其他的,一概不接受
不過呢,知乎并沒有做特別嚴厲的反爬措施,這就是說,如果你偷偷的爬一點東西,不影響它的正常服務,它也懶得找你麻煩,但對于那種反爬特別嚴重的,例如淘寶,你最好別去爬,如果你真的利用你的高智商突破了淘寶的反爬措施,那么恭喜你,你已經違法了
4、 不要用爬取的數據做不正當競爭
比如你把大眾點評的評論數據都爬下來了,然后自己搞了一個xx點評,這肯定不行,人家辛辛苦苦的積累的數據,你輕輕松松的弄下來,直接拿來主義,跟人家搞競爭,你不違法誰違法 。
5、 付費內容,你不要抓
既然是付費內容,說明這東西價值很高,付費才能看,你弄下來了,你想干啥?你私自傳播,就對網站造成了潛在損失 。

6、最后一條,突破網站反爬措施的代碼,最好不要上傳到網上
【爬蟲技術違法的判例 爬蟲技術違法嗎?】你技術很牛逼,能突破網站的反爬措施,你把這些代碼發布到網上,比如github,你自己沒做啥壞事,可是想做壞事的人利用了你的代碼,入侵了網站,那么,這種情況下,你也是有責任的,這個聽起來有點冤,但確實存在這樣的風險,所以,最好還是不要這么干

    推薦閱讀