H1B和綠卡, 有更好的數據清理與統計方法嗎?

大家知道myvisajobs.com上關於在美國工作學習的各種數據雖然很多, 其核心是2000年
以來的56萬個工作綠卡和187萬個h1b申請. 將來所有的web 2.0智能功能都將建立在這
些核心數據上麵, 所以確保這些h1b與綠卡數據的準確性是網站壓倒一切的任務.

這250多萬個數據光不同的名字就有60多萬個, 實際上辦過h1b和綠卡的應該少於20萬個
. 這顯然無法用人工清理. 考慮到這些數據將以每年50萬的速度增加(移民法案如果通
過, 每年可能增加100萬), 現在我們迫切需要開發出完善的算法清理與統計數據. 過去
幾個月來, 我們花了不少精力研究改進算法, 在高性能服務器上運行一次也要幾天幾夜
, 但結果還差強人意. 我們的目標是讓所有辦過十個以上H1b和綠卡的公司100%準確, 5
個以上的99%準確, 1個以上的98準確. 其他地點, 工資, 律師和職位分類什麽的, 也有
一些問題, 但處理方法相對簡單. 下麵是公司名稱的幾種主要情況:

1. 最普遍的, 是company type(謝謝beijing mm). 以Inc.為例子, 有的有INC, 有的沒
有, 有的用incorporated, 有的加點, 有的沒有, 有空格沒空格, 這是最容易解決的.

2. typo, 比如有的把century打成centvry, 不知道除了把WORD的spell check拉進來,
有沒有其他更好的辦法. 用spell check check公司名字, 顯然不是好主意.

4. 學校最麻煩, 大概因為自由主義嚴重. 比如the university of ABC後麵會跟無數變
種, 比如location, department或者經手部門, 有的還用縮寫. 有的有the, 有的沒the
, 裏麵的medical college什麽的, 勢力龐大, 往往是h1b的最大戶(看這些數據的時候,
不禁覺得學生物的真不容易), 總是獨立申請.

4. 細微錯位, 比如communications, 少了個s, 也不能就算相同的公司, 因為到最後可
能發現是不同的公司.

5. 輸入錯誤: 比如I2 technologies, 成了12 technologies, 除了人工糾錯, 好象
沒什麽其他辦法. 對於10個申請一下的公司, 這種錯誤恐怕沒發處理了, 所以目標98%
準確就夠了.


我不是學統計或其他數理化專業的, 所以雖然做了很多研究, 這方麵知識終究有限.解
決方法往往是自己想出來的土辦法, 我相信對這樣的數據處理, 專業上肯定有更好的
辦法, 希望有高手能夠指點一二.

所有跟帖: 

回複:H1B和綠卡, 有更好的數據清理與統計方法嗎? -8015- 給 8015 發送悄悄話 (102 bytes) () 04/26/2007 postreply 17:10:17

回複:回複:H1B和綠卡, 有更好的數據清理與統計方法嗎? -ILoveOPT- 給 ILoveOPT 發送悄悄話 (75 bytes) () 04/26/2007 postreply 19:39:04

you need an expert to build data warehouse. After my gc :-) -d_outside- 給 d_outside 發送悄悄話 d_outside 的博客首頁 (0 bytes) () 04/27/2007 postreply 06:20:25

SAS programmer can do this easily -TX_Kitty- 給 TX_Kitty 發送悄悄話 TX_Kitty 的博客首頁 (0 bytes) () 04/27/2007 postreply 07:25:08

請您先登陸,再發跟帖!