這三更半夜的,小趙又不在家,方澈干脆在辦公室對付一宿。
第二天一大早。
光電等部門的工作人員看到網上的情況都驚了。
“這是什么情況啊這是!”
畢竟是正月初二,這些部門又不像豆半,豆半就指望著春節檔拉流量呢,所以集體上班,這些部門基本上都放假了。
結果放假第二天就出這幺蛾子?
中宣部的人也坐不住了。
工作群里此起彼伏的討論聲。
“自2000年以后,這還是第一次如此大規模的惡性刷分事件!”
“這得是哪一家公司傻到這地步。”
這時候有人想到了春晚,方澈事件。
“春晚,方澈……”這人眼前一亮:“今年的春節檔有方澈的電影上映是吧?不會是孔俊賢那些粉絲干的吧?”
“嗯?”群友表示自己也想到了什么。
“這……方澈這一次是炸出來多大的魚啊。”
說到這有人都開始激動了:“靜觀其變,搞不好要加班。”
而在過去的這半夜里,豆半公司,技術部的人幾乎全員無休。
干什么呢?
找數據,爬數據。
技術部的工作室里。
技術部總經理此時急得滿頭冒汗。
有人來匯報:“頭,情況確實不對勁,除夕晚上,出現了一批新注冊的用戶,這些用戶在過去的一天里利用給其他的電影打分的方式,在養號。而這些用戶里有80%的人參與了春節檔電影的評分工作。”
技術部經理一臉黑線:“廢話!這點東西掉一調后臺數據就知道,你們就研究這個研究了一宿?”
匯報人員定了定心神,揉了揉已經快要閉上的眼睛:“不是的,這件事情讓我們確定了這一定是某一個群體在作祟!隨后我們對昨晚進行評分的四萬人提取了id。”
“頭,你知道吧,很多人,在不同的平臺習慣用一個id的。而且這批新用戶注冊的那么急,所以肯定有不少人用了常用的id。”
還是那句話,人走過,必留痕跡。
而且這痕跡里,往往帶著很濃重的個人特色。
匯報人員繼續說:“然后我們根據這四萬個id,逐一在微博上進行了搜索,然后爬取了這些用戶名的所有的發言,再利用這些用戶動態的相似性,進行深度挖掘。”
這是個極大的工作量。
一個id在微博上有可能有成千上萬個同名的賬號。
這些帳號的動態內容都得爬下來(這不違法,在地球上,好像是在2017年12月份,微博才關閉了api接口的。)。
爬下來之后還得對這些id曾經發布的動態和內容進行關鍵詞提取、照片信息提取,然后存檔。
注意哦,這只是一個id的工作量。
比如說有一個人在豆半上注冊了一個帳號叫張三,你按照這個名字在微博上搜索,結果出現了一萬個叫張三。
那這些張三的人的所有的動態都得爬下來。
可是你怎么知道這一萬個張三里面,哪一個是你想要的呢。
豆半的工作人員堅信昨晚這些人肯定是有相似性的,比如他們都是某一個人的粉絲。
那么他們的發言里一定會提到同樣的東西。
這個時候就要再拿出來一個新的id,比如李四。
利用李四這個id,在微博上進行搜索,又出來一萬個李四。
照例,全給爬取下來。
接下來是王五、趙六……
然后再進行橫向比對,一個個的去試!
總能試出來蛛絲馬跡。
這個工作量是無比巨大的,對計算機的要求也很高。
這種情況下,豆半只能增加人手,外聘公司。