大數據

如何避免人類偏見對數據分析產生影響

隨著越來越多的企業開始采用機器學習技術以實現流程的自動化,人們也逐漸開始質疑計算機決策中的倫理含義。我們如何處理計算機系統中潛在的偏見?相對較少被提及但同樣重要的,是人類本身的偏見,它與分析和商業決策有很大關系。

人類的偏見可能會滲入到分析過程的每一步。當商業決策者開始擁抱機器學習進行預測分析,以獲得下一步行動的具體建議時,盡可能客觀地利用數據和方法是很重要的。監測這一分析過程中可能存在的人類偏見是一項偉大的職責,而這一切都始于從頭開始構建模型的人:數據科學家。

在這篇文章中,我們主要關注以下三個方面,來管理整個流程中可能產生的偏見——從評估初始請求和收集信息到構建模型和挖掘見解。

Pexels 上的 rawpixel.com 拍攝的照片

評估請求:業務決策者需要什么?

在某些情況下,偏見會從一開始就進入分析項目流程中,這種偏見直接來自于提出請求的業務用戶。例如,一個模型可能會被帶著偏見進行請求和評估,因為提出分析請求的這個人可能潛意識里只是想驗證自己的想法。例如,如果一個CMO認為他們的公司應該在PR上投資,那么讓他們的分析團隊構建一個展示PR需求的模型就是有問題的。

像任何人一樣,數據科學家也會想要取悅老板——我們總是想要提供能夠滿足商業決策者所請求的信息。重要的是,不要根據商業決策者的需求來尋找和評估結果。為了在最后達到最公正的結果,需要避免一開始就設定期望。這個過程應該是一個協作的過程——您可能需要告訴業務決策者,要以最道德和最準確的方式來回答他們的業務問題。這是一個棘手的問題,但是一旦解決了這個問題,就可以同時避免受到業務決策者的需求的影響。

仔細選擇評估為模型提供的數據

人類偏見可能會在選擇數據的過程中產生影響。思考一下您擁有哪些必需的可用數據,以及您將從何處收集這些數據。在選擇數據時,應考慮這樣的問題:與總體相關人群相比,我有多少數據?如何創建數據樣本?

在處理質量問題時,應該尋找信息的一致性,并評估它是否捕獲了足夠的變量。同時需要確保沒有遺漏任何重要內容,如果遺漏了,一定要高度重視,并確定其可能對模型產生什么樣的影響。

Pexels 上的 rawpixel.com 拍攝的照片

客觀地選擇最好的分析方法

每種方法和模型都有其假設——知道哪種方法和模型最適合您的問題是非常重要的。不同的建模選擇有時會帶來非常不同的結果。請求的復雜性、性質和數據的可用性是幫助你選擇適當方法的主要因素。注意結果、測試結果穩定性,并將模型結果與您的先驗預期進行比較。效果的方向合乎邏輯嗎?效果的大小合乎邏輯嗎?效果的作用合乎邏輯嗎?合適嗎?所有這些問題都應該解決,才能對模型更有信心。

如果要用各種算法測試數據,請注意不要選擇特定的算法,因為它會輸出所需的輸出。我們應該注意模型給出的所有洞察。

最終,避免數據分析中帶有偏見的最好方法是實現一個包括檢查和平衡的過程,所有的假設都應該經過同行評審和檢查。在整個分析過程中,人員、視角和信息的多樣性越大,獲得平衡、公正結果的機會就越大。

原文作者:Kalina Angelova

我還沒有學會寫個人說明!

我們可以不再使用ETL了嗎?

上一篇

10后小學生都能教你學編程了!低齡編程的下限在哪?

下一篇

你也可能喜歡

如何避免人類偏見對數據分析產生影響

長按儲存圖像,分享給朋友

ITPUB 每周精要將以郵件的形式發放至您的郵箱


微信掃一掃

微信掃一掃
海天娱乐群 广西11选五走势图带连线图 幸运飞艇全国统一开奖号码 大乐透前200期 云智在线配资 极速赛车在哪个网站 华尔街股票配资炒股下载 天涯彩票论坛 韩国1.5分彩全天计划 湖南快乐十分开奖结果查询今天 安徽十一选五app