
制,免費在多次嘗試之后發現,在短時間內如果同一IP地址多移動次訪問用戶主頁信息會被抖音APP禁止訪問,本文通過設置不同的客戶端代理等,通過隨視頻機切換不同的模擬IP等訪問抖音客戶端,從而順利繞過抖移動音APP的反爬獲得數據。本文通過構造post請移動求訪問抖音推薦的視頻,之后抖音會推送一個JSON數據包,接著通過對有沒有JSON數據包進有沒有行解析,獲取移動短視頻用戶的id等參現在數信息,接著構造移動短視頻用戶主頁和移動短視頻用戶視頻的用戶地址,然后分別發送請求,獲取用戶和視用戶頻的數據包,接著對這些數據包移動進行解析,最終,獲得較為全面的移動短視頻用戶信息和移動短視頻信息,如圖4-1所示現在。由于不同經緯度推送的視頻基本不移動同現在,但每次只能得到六個視頻的包,所以本文通免費過切換經緯度完成持續不斷的數據抓取。本文將爬蟲得到的信息存入SQLi有沒有te數據庫中,該數據庫中設有兩張表,一個是用戶信息表,一個是視頻信息表,用戶信息表里用戶id是現在主鍵,如果采集的推薦視頻里的用戶存在于用戶信息表中,就會被過濾掉,不會再構造對這個用戶的主頁信息和視頻信息的用戶請求,從而起到了過濾的作用。圖4-1爬蟲流程圖月25日為研究期,在此期間展開第一步數據采集工作。
本文運用網絡爬蟲程序陸續從抖音APP上免費隨機抓取移動短視頻用戶信息總計15992條,抓取視頻信息總計1575217條。在抓取到的用免費戶記錄的基礎免費上,提取出用戶id信息以供后續數據抓取所用戶用。第二步,本文選取了第二次采集時間段,以2019年04月12日至2019年04月26移動日為研究期移動,在此期間展開第二步數據采視頻集工作。本文的第二步數據采集工作以2019年02月17日至2用戶019年02月25日之間采集到的15992用戶個用現在戶的id為基礎,每天將15992個用現在戶的用戶信息與所有視頻信有沒有息抓取一遍,總共持續15天。本文在查閱互聯網發展報告之后發現,凌晨開始,網民的網絡免費應用使用率開始大幅降低并逐漸視頻走向有沒有最低值,而在白天,網民的網絡應用使用率基本上都處于比較高的水平,鑒于這一情況,本移動文在2019年0現在4月12日至2019年04月26日之間的數免費據抓取工作從凌晨12點之后開始進行,基本每天在早晨八九點之前都可以移動完成當天的數據抓取工作,這樣做也有利于保障所獲得的關于傳播效果的數據的穩定性。