“陳默,你來(lái)一下。”
王海站在他工位旁邊,手指敲了敲隔板的邊緣,力道不大,聲音不輕不重。他手里拿著一個(gè)銀色的u盤(pán),拇指無(wú)意識(shí)地摩挲著u盤(pán)的邊緣。
陳默從電腦屏幕上移開(kāi)視線,抬起頭。他正在處理一份上周的銷(xiāo)售周報(bào),數(shù)據(jù)有點(diǎn)對(duì)不上,他剛找到差異的原因。“王組,什么事?”
“有個(gè)新活,比較急。”王海把u盤(pán)遞過(guò)來(lái),“這是從天晟那邊剛拷過(guò)來(lái)的第一批原始數(shù)據(jù)。量不小,亂七八糟的。你接手,做初步整理和清洗。要求我發(fā)你郵箱了,你先看看。”
陳默接過(guò)u盤(pán)。金屬外殼冰涼,帶著點(diǎn)濕氣,大概是王海手心的汗。u盤(pán)很輕,貼著“天晟-2024q1原始”的標(biāo)簽,字跡有點(diǎn)潦草。
“這批數(shù)據(jù)是后續(xù)分析的基礎(chǔ),很重要,不能出錯(cuò)。”王海看著他,語(yǔ)氣帶著慣常的、交代任務(wù)時(shí)的嚴(yán)肅,“時(shí)間也比較緊,那邊催得急,希望盡快看到初步分析方向。你抓緊,爭(zhēng)取三天,最多四天,弄出個(gè)干凈可用的基礎(chǔ)數(shù)據(jù)集。有什么問(wèn)題隨時(shí)找我。”
“好。”陳默點(diǎn)點(diǎn)頭,把u盤(pán)插進(jìn)自己電腦的usb接口。指示燈亮起藍(lán)光,開(kāi)始閃爍。電腦發(fā)出讀取硬件的提示音。
“行,那你先看要求,開(kāi)始弄吧。”王海說(shuō)完,轉(zhuǎn)身要走,又停住,補(bǔ)了一句,“對(duì)了,跟李濤也說(shuō)一聲,讓他把他手頭那個(gè)客戶畫(huà)像的數(shù)據(jù)字段說(shuō)明發(fā)你一份,可能用得上。你們倆配合一下。”
“知道了。”
王海走了。陳默點(diǎn)開(kāi)郵箱,找到王海剛發(fā)來(lái)的郵件。標(biāo)題是“天晟項(xiàng)目數(shù)據(jù)預(yù)處理要求(優(yōu)先級(jí):高)”。附件里有一個(gè)word文檔。他下載,打開(kāi)。
文檔不長(zhǎng),大約兩頁(yè)。列出了數(shù)據(jù)源說(shuō)明、需要保留的核心字段、數(shù)據(jù)清洗的基本規(guī)則(去重、缺失值處理、異常值識(shí)別閾值)、格式統(tǒng)一要求,以及最終需要交付的數(shù)據(jù)表結(jié)構(gòu)和命名規(guī)范。最后用紅色字體加粗了一句:“注意:數(shù)據(jù)質(zhì)量直接影響后續(xù)所有分析結(jié)論的可靠性,務(wù)必仔細(xì)。時(shí)間節(jié)點(diǎn):4個(gè)工作日后提交初步清洗后數(shù)據(jù)。”
陳默快速瀏覽了一遍。要求不算特別復(fù)雜,但數(shù)據(jù)量大、原始、雜亂的話,工作量會(huì)很大,而且需要極度仔細(xì),一個(gè)字段處理不當(dāng),可能就會(huì)埋下雷。他看了一眼那個(gè)正在讀取的u盤(pán),指示燈還在閃爍。他點(diǎn)開(kāi)“我的電腦”,找到新出現(xiàn)的盤(pán)符,雙擊打開(kāi)。
里面塞滿了文件和文件夾。名字都很隨意:“data_part1.xlsx”、“天晟導(dǎo)出_0321.rar”、“l(fā)ogfiles_week12.zip”、“未命名文件夾”、“temp_old”。沒(méi)有清晰的結(jié)構(gòu)。陳默皺了下眉,點(diǎn)開(kāi)那個(gè)最大的excel文件。文件打開(kāi)得很慢,進(jìn)度條一點(diǎn)點(diǎn)往前爬。
終于打開(kāi)了。密密麻麻的單元格,一眼望不到邊。列數(shù)很多,很多列名是英文縮寫(xiě),有些干脆是“column_a”、“field_1”這樣的默認(rèn)名。數(shù)據(jù)格式混亂,同一列里,有的是數(shù)字,有的是文本,有的單元格是“na”,有的是“null”,有的是空白。日期格式五花八門(mén),有些看起來(lái)像日期,但實(shí)際是文本。還有大量重復(fù)的記錄。
陳默滾動(dòng)著鼠標(biāo)滾輪,大致掃了幾屏。他關(guān)了文件,又點(diǎn)開(kāi)幾個(gè)其他的csv和文本文件。情況大同小異。數(shù)據(jù)確實(shí)“原始”,而且混亂程度比他預(yù)想的要高。這不僅僅是清洗,先得花時(shí)間理解這些數(shù)據(jù)到底是什么,哪些是垃圾,哪些是有效信息,各個(gè)文件之間有什么關(guān)聯(lián)。
他拿起桌上的筆記本和筆,快速記下幾個(gè)關(guān)鍵問(wèn)題和需要確認(rèn)的點(diǎn)。然后站起身,走到李濤的工位。
李濤正戴著耳機(jī),手指在鍵盤(pán)上飛快敲打,屏幕上是代碼編輯器,花花綠綠的字符滾動(dòng)。陳默敲了敲他的隔板。
李濤沒(méi)反應(yīng),專注地盯著屏幕。
陳默提高聲音:“李濤。”
李濤這才猛地轉(zhuǎn)頭,扯下一只耳機(jī),臉上帶著被打斷的不耐煩:“啊?咋了?”
“王組說(shuō),讓你把那個(gè)客戶畫(huà)像的數(shù)據(jù)字段說(shuō)明發(fā)我一份,天晟項(xiàng)目用。”陳默說(shuō)。
“哦,那個(gè)啊。”李濤臉上的不耐收斂了點(diǎn),但也沒(méi)多少熱情,他切了下屏幕,找到一個(gè)文件,快速操作幾下,“發(fā)你郵箱了。不過(guò)那個(gè)說(shuō)明是咱們自己內(nèi)部項(xiàng)目的標(biāo)準(zhǔn),天晟的數(shù)據(jù)不一定對(duì)得上,你參考著看吧。”
“行,謝了。”陳默點(diǎn)頭,準(zhǔn)備回去。
“哎,等等,”李濤叫住他,身體往椅背上一靠,挑了下眉,“天晟那個(gè)爛攤子,丟給你了?”
“王組讓我做初步整理。”陳默說(shuō)。
“嘖,”李濤發(fā)出一聲意味不明的聲音,搖搖頭,聲音壓低了些,“那堆數(shù)據(jù),我之前瞟過(guò)一眼,一塌糊涂。天晟那邊it水平就那樣,導(dǎo)出來(lái)的東西能看就不錯(cuò)了。王頭兒這是想快點(diǎn)出活,又不想自己碰這臟活累活。你悠著點(diǎn),這玩意費(fèi)時(shí)費(fèi)力不出彩,還容易背鍋。做得再干凈,也就是個(gè)基礎(chǔ),后面分析出彩了是別人的,分析出問(wèn)題了,搞不好第一個(gè)查你數(shù)據(jù)源頭。”
陳默沒(méi)接這話茬,只說(shuō):“我先做著看看。”
“行吧,你加油。”李濤聳聳肩,又把耳機(jī)戴了回去,重新面對(duì)他的代碼。