<optgroup id="i0uik"></optgroup>
<optgroup id="i0uik"></optgroup>
旗下產業: A產業/ A實習/ A計劃
全國統一咨詢熱線:010-5367 2995
首頁 > 熱門文章 > 大數據分析 > 大數據分析機器學習的數據清理和準備
大數據分析機器學習的數據清理和準備
時間:2020-06-30來源:www.zhuozheng31.icu點擊量:作者:Sissi
時間:2020-06-30點擊量:作者:Sissi


  數據清理和準備是任何機器學習項目中至關重要的第一步。盡管我們經常認為數據科學家花費大量時間來修改算法和機器學習模型,但現實情況是大多數數據科學家花費大量時間來清理數據。
 

  在大數據分析機器學習的數據清理和準備中,我們將逐步介紹使用Python進行數據清理,檢查數據集,選擇特征列,以可視方式探索數據然后進行編碼的過程機器學習的功能。
 

  要了解有關數據清理的更多信息,請查看我們的交互式數據清理課程之一:
 

  1、數據清理和分析課程(Python)

  2、高級數據清理課程(Python)

  3、數據清理(R)
 

  了解數據
 

  在我們開始為機器學習項目清理數據之前,至關重要的是要了解數據是什么,以及我們想要實現什么。沒有這種了解,我們就沒有依據來決定在清理和準備數據時要確定哪些數據是相關的。
 

  我們將使用個人貸款的一些數據,個人貸款是一個個人貸款市場,它將正在尋求貸款的借款人與希望借錢并獲得回報的投資者進行匹配。每個借款人都填寫一份全面的申請表,提供他們過去的財務記錄,貸款原因等。個人貸款使用過去的歷史數據(以及他們自己的數據科學過程!)來評估每個借款人的信用評分,并為借款人分配一個利率。

大數據分析
 

  批準的貸款在個人貸款網站上列出,合格的投資者可以在其中瀏覽最近批準的貸款,借款人的信用評分,貸款目的以及應用程序中的其他信息。
 

  一旦投資者決定為貸款提供資金,借款人便每月向個人貸款償還款項。個人貸款將這些付款重新分配給投資者。這意味著投資者不必等到全額還清就可以開始看到回報。如果按時還清了貸款,則投資者將獲得與借款人除要求的金額外還需支付的利率相對應的回報。
 

  但是,許多貸款沒有按時還清,有些借款人拖欠貸款。這就是我們在清理個人貸款的一些數據進行機器學習時將嘗試解決的問題。讓我們想象一下,我們的任務是建立一個模型來預測借款人是否可能償還或拖欠其貸款。
 

  步驟1:檢查數據集
 

  個人貸款會在其網站上定期發布其所有已批準和已拒絕貸款申請的數據。為了確保我們都使用相同的數據集,我們已經在data.world上鏡像了將用于本教程的數據。
 

  在個人貸款類的網站上,您可以選擇不同的年份范圍來下載已批準和已拒絕貸款的數據集(CSV格式)。您還將在個人貸款類頁面底部找到一個數據字典(XLS格式),其中包含有關不同列名的信息。該數據字典對于理解數據集中每一列表示什么很有用。數據字典包含兩頁:
 

  1)LoanStats工作表:描述批準的貸款數據集

  2)RejectStats工作表:描述拒絕的貸款數據集
 

  由于我們對批準的貸款數據集感興趣,因此我們將使用LoanStats工作表。
 

  批準的貸款數據集包含有關當前貸款,已完成貸款和拖欠貸款的信息。在本教程中,我們將使用2007年至2011年的批準貸款數據,但是對于發布到個人貸款類網站上的任何數據,都將需要類似的清理步驟。


  首先,讓我們導入一些我們將要使用的庫,并設置一些參數以使輸出更易于閱讀。就本教程而言,我們將扎實地掌握使用Python處理數據的基礎知識,包括使用pandas,numpy等,因此,如果您需要掌握其中的任何技能,則可能需要瀏覽我們的課程清單。

大數據分析
 

  將數據加載到熊貓
 

  我們已經下載了數據集并命名為lending_club_loans.csv,但是現在我們需要將其加載到pandas DataFrame中以進行探索。加載完畢后,我們將需要執行一些基本的清理任務來刪除一些不需要的信息,這些信息會使我們的數據處理速度變慢。
 

  具體來說,我們將要:
 

  1)刪除第一行:它包含多余的文本,而不是列標題。此文本可防止熊貓庫正確解析數據集。

  2)刪除“ desc”列:其中包含我們不需要的長文字說明。

  3)刪除“ URL”列:它包含指向個人貸款上每個鏈接的鏈接,只能使用投資者帳戶進行訪問。

  4)刪除所有缺失值超過50%的列:這將使我們能夠更快地工作(并且我們的數據集足夠大,如果沒有它們,它將仍然有意義。
 

  我們還將命名過濾后的數據集loans_2007,并在本節末尾將其保存為loans_2007.csv與原始數據分開的名稱。這是一種很好的做法,可以確保我們擁有原始數據,以防萬一需要返回并檢索要刪除的所有內容。
 

  現在,讓我們繼續執行以下步驟:

大數據分析
 

  讓我們使用pandas head()方法顯示loan_2007 DataFrame的前三行,以確保我們能夠正確加載數據集:

大數據分析
大數據分析
 

  讓我們還使用pandas .shape屬性來查看我們現階段要處理的樣本和功能的數量:

大數據分析
 

  步驟2:縮小色譜柱進行清潔
 

  現在我們已經建立了數據,我們應該花一些時間來探索它,并理解每一列代表什么功能。這很重要,因為對功能的了解不足可能會導致我們在數據分析和建模過程中出錯。
 

  我們將使用個人貸款類提供的數據字典來幫助我們熟悉列以及每個列在數據集中的表示。為了簡化該過程,我們將創建一個DataFrame來包含列的名稱,數據類型,第一行的值以及數據字典中的描述。為了簡化操作,我們已經將數據字典從Excel格式預先轉換為CSV。
 

  讓我們加載該字典并看看。

大數據分析
 

  現在已經加載了數據字典,讓我們loans_2007將data_dictionaryDataFrame 的第一行連接起來,為我們提供帶以下幾列的預覽DataFrame:
 

  1)name—包含的列名loans_2007。

  2)dtypes—包含loans_2007列的數據類型。

  3)first value—包含loans_2007第一行的值。

  4)description—解釋其中的每一列所loans_2007代表的含義。

大數據分析
 

  當我們打印loans_2007較早的形狀時,我們注意到它有56列,因此我們知道此預覽DataFrame有56行(其中一個解釋loans_2007)。
 

  嘗試一次瀏覽預覽的所有行可能很麻煩,因此,我們將其分為三個部分,每次查看較小的功能選擇。當我們探索功能以更好地理解它們的每一個時,我們將要注意任何專欄文章:
 

  泄漏未來的信息(在貸款已經被資助之后),
 

  a、不會影響借款人的還款能力(例如個人貸款隨機生成的ID值),

  b、格式不佳,

  c、需要更多數據或大量預處理才能變成有用的功能,或者

  d、包含冗余信息。
 

  這些都是我們要小心的事情,因為從長遠來看,不正確地處理它們會損害我們的分析。
 

  我們需要特別注意數據泄漏,這可能會導致模型過擬合。這是因為該模型還將從我們使用時將無法使用的功能中進行學習,從而對未來的貸款進行預測。我們需要確保我們的模型僅使用貸款申請時的數據進行訓練。
 

  第一組列
 

  讓我們顯示的前19行preview并進行分析:

大數據分析
 

  在分析了列并考慮了我們要構建的模型之后,我們可以得出結論,可以刪除以下功能:
 

  1)id —由個人貸款類隨機生成的字段,僅供唯一標識。

  2)member_id —也是個人貸款類隨機生成的字段,僅供識別。

  3)funded_amnt —泄露未來的信息(在貸款已開始提供資金之后)。

  4)funded_amnt_inv -還會泄漏未來的數據。

  5)sub_grade-包含該grade列中已經存在的冗余信息(更多信息在下面)。

  6)int_rate-也包含在此grade列中。

  7)emp_title -需要其他數據和大量處理才能變得有用

  8)issued_d -泄漏未來的數據。
 

  注意:個人貸款使用借款人的等級和還款期限(30個月或幾個月)來分配利率(您可以閱讀有關“ 利率和費用”的更多信息)。這會導致給定等級內利率的變化。
 

  對于我們的模型可能有用的是集中于借款人的集群而不是個人。而且,這正是分級的作用-它根據借款人的信用評分和其他行為對借款人進行細分,這就是為什么我們將保留該grade列并降低利息int_rate和的原因sub_grade。在移到下一組列之前,讓我們從DataFrame中刪除這些列。

大數據分析
 

  現在,我們準備繼續進行下一組列(功能)。
 

  第二組列
 

  讓我們繼續進行下19列:

大數據分析
 

  在該組中,注意fico_range_low和fico_range_high列。雖然兩者都在上表中,但在查看最后一組列后,我們將進一步討論它們。另請注意,如果您使用的是較新的個人貸款類數據,則該數據可能不包括FICO得分的數據。
 

  現在,回顧第二組列,我們可以通過刪除以下列來進一步完善數據集:
 

  1)zip_code –對于addr_state列,大多數情況下是多余的,因為5位郵政編碼中的前3位僅可見。

  2)out_prncp –泄漏未來的數據。

  3)out_prncp_inv –還會泄漏未來的數據。

  4)total_pymnt –還會泄漏未來的數據。

  5)total_pymnt_inv –還會泄漏未來的數據。
 

  讓我們繼續,從DataFrame中刪除以下5列:

大數據分析
 

  第三組列
 

  讓我們分析最后一組功能:

大數據分析
 

  在這最后一組列中,我們需要刪除以下所有列,所有這些將來都會泄漏數據:
 

  1)total_rec_prncp

  2)total_rec_int

  3)total_rec_late_fee

  4)recoveries

  5)collection_recovery_fee

  6)last_pymnt_d

  7)last_pymnt_amnt
 

  讓我們刪除最后一組列:

大數據分析
 

  大!現在,我們有了一個數據集,它將對構建我們的模型更加有用,因為它不必浪費時間處理無關的數據,也不會通過分析來自未來的信息來“欺騙”貸款的結果。
 

  調查FICO分數列
 

  這是值得花一些時間來討論fico_range_low,fico_range_high,last_fico_range_low,和last_fico_range_high列。
 

  FICO分數是信用分數:銀行和信用卡使用的數字代表一個人的信用度。盡管在美國使用的信用評分類型有幾種,但FICO評分是最著名和使用最廣泛的。
 

  當借款人申請貸款,借貸俱樂部得到借款人的信用分數從FICO -他們是考慮到借款人得分范圍的下限和上限屬,它們存儲這些值fico_range_low,fico_range_high。之后,對借方分數的任何更新都記錄為last_fico_range_low和last_fico_range_high。
 

  任何數據科學項目的關鍵部分是盡一切可能理解數據。在研究此特定數據集時,我發現了由斯坦福大學的一群學生于2014年發起的項目。在該項目的報告中,該小組將last_fico_range滯納金和回收金中的當前信用評分()列為他們錯誤地添加到功能中的字段,但指出后來他們從這些列中了解了所有將來泄漏的信息。
 

  但是,按照該小組的項目,斯坦福大學的另一個小組研究了相同的個人貸款數據集。他們last_fico_range_low在建模中使用了FICO分數列,僅將其刪除。第二組報告被描述last_fico_range_high為預測準確結果的更重要特征之一。
 

  有了這些信息,我們必須回答的問題是:FICO信用評分會泄露未來的信息嗎?回憶一下,當我們使用模型進行預測時,如果其中包含的數據不可用,則認為該列泄漏了信息-在這種情況下,當我們在未來的貸款申請中使用我們的模型來預測借款人是否違約時。
 

  這篇博客文章深入研究了個人貸款類貸款的FICO分數,并指出,盡管查看FICO分數的趨勢可以很好地預測貸款是否會違約,但在貸款獲得貸款后,個人貸款類會繼續更新FICO分數。換句話說,雖然我們可以使用初始FICO分數(fico_range_low和fico_range_high)(那些可以作為借款人的應用程序的一部分提供),但我們不能使用last_fico_range_low和last_fico_range_high,因為個人貸款類可能會在借款人申請后更新這些分數。
 

  讓我們看一下我們可以使用的兩列中的值:

大數據分析
 

  讓我們擺脫缺失的值,然后繪制直方圖以查看兩列的范圍:

大數據分析
 

  現在,讓我們繼續前進,創造了平均的列fico_range_low和fico_range_high列,并將它命名fico_average。請注意,這不是每個借款人的平均FICO得分,而是我們知道借款人所處的最高和最低范圍的平均值。

大數據分析
 

  讓我們檢查一下我們剛剛做了什么。

大數據分析
 

  好!我們得到了均值計算,一切都正確?,F在,我們可以繼續下降fico_range_low,fico_range_high,last_fico_range_low,和last_fico_range_high列。

大數據分析
 

  注意,只要熟悉數據集中的列,我們就可以將列數從56減少到33,而不會丟失任何對我們的模型有意義的數據。我們還通過丟棄會泄漏將來信息的數據來避免問題,而這會弄亂我們模型的結果。這就是為什么數據清理如此重要的原因!
 

  確定目標列
 

  現在,我們將確定適當的列以用作建模的目標列。
 

  我們的主要目標是預測誰將還清貸款,誰將違約,我們需要找到一欄反映此情況。我們從預覽DataFrame中的列描述中學到了內容,這loan_status是主數據集中描述貸款狀態的唯一字段,因此讓我們將此列用作目標列。

大數據分析
 

  當前,此列包含需要轉換為數值才能用于訓練模型的文本值。讓我們探索此列中的不同值,并提出轉換它們的策略。我們將使用DataFrame方法value_counts()返回該loan_status列中唯一值的頻率。

大數據分析
 

  貸款狀態有九種可能的值!讓我們了解這些獨特的值,以確定最能描述貸款最終結果的值,以及我們將要處理的分類問題。
 

  我們可以在個人貸款類網站以及Lend Academy和Orchard論壇上閱讀有關大多數不同貸款狀態的信息。
 

  下面,我們將這些數據匯總到下表中,以便我們可以看到唯一值,它們在數據集中的出現頻率,并更清楚地了解每種含義:

大數據分析

大數據分析
 

  請記住,我們的目標是建立一個機器學習模型,該模型可以從過去的貸款中學習,從而試圖預測哪些貸款將得到還清,而哪些則不會。在上表中,僅“已付清”和“已清還”值描述了貸款的最終結果。其他值描述的是仍在進行中的貸款,即使有些貸款延遲付款,我們也無法將其歸類為“沖銷”。
 

  同樣,雖然“默認”狀態類似于“已注銷”狀態,但在個人貸款類的眼中,已注銷的貸款基本上沒有償還的機會,而“違約”貸款的機會很小。因此,當我們只能使用樣品loan_status列'Fully Paid'或'Charged Off'。
 

  我們對指示貸款正在進行或正在進行的任何狀態都不感興趣,因為預測正在發生的事情不會告訴我們任何事情。
 

  我們對能夠預測將屬于哪筆'Fully Paid'或'Charged Off'一筆貸款感興趣,因此我們可以將問題視為二進制分類。讓我們刪除不包含'Fully Paid'或'Charged Off'作為貸款狀態的所有貸款,然后將'Fully Paid'值轉換1為正案例的'Charged Off'值并將值轉換0為負案例的值。
 

  這意味著在我們擁有的約42,000行中,我們將刪除3,000多行。
 

  轉換列中所有值的方法很少,我們將使用DataFrame方法replace()。

大數據分析
 

  可視化目標列結果

大數據分析
大數據分析
 

  這些圖表明,我們的數據集中有大量借款人還清了貸款,其中85.62%的借款人還清了借入的金額,而不幸的是有14.38%的違約。我們更感興趣的是識別這些“違約者”,因為出于我們模型的目的,我們試圖找到一種最大化投資回報的方法。
 

  不向這些違約者提供貸款將有助于增加我們的回報,因此我們將繼續著眼于清理數據,以期建立一個模型來識別應用程序中可能的違約者。
 

  僅刪除一個值的列
 

  為了結束本節,讓我們查找僅包含一個唯一值的所有列并將其刪除。這些列不會對模型有用,因為它們不會向每個貸款申請添加任何信息。此外,刪除這些列將減少我們在下一階段需要進一步探討的列數。
 

  pandas Series方法nunique()返回唯一值的數量,不包括任何空值。我們可以在整個數據集上應用此方法,只需一個簡單的步驟即可刪除這些列。

大數據分析
 

  同樣,可能有一些列具有多個唯一值,但其中一個值在數據集中的頻率很小。讓我們查找并刪除任何唯一值少于四次的列:

大數據分析
 

  付款計劃列(pymnt_plan)具有兩個唯一值'y'和'n','y'僅出現一次。讓我們刪除此列:

大數據分析
 

  最后,讓我們使用熊貓將我們剛清洗的DataFrame保存為CSV文件:

大數據分析
 

  現在,我們有了更好的數據集。但是我們還沒有完成數據清理工作,所以讓我們繼續吧!
 

  步驟3:為機器學習準備功能
 

  在本節中,我們將準備filtered_loans_2007.csv用于機器學習的數據。我們將專注于處理缺失值,將分類列轉換為數字列并刪除任何其他無關的列。
 

  在將數據輸入機器學習算法之前,我們需要處理缺失值和分類特征,因為大多數機器學習模型所基于的數學假定數據是數值的并且不包含缺失值。為了加強此要求,如果在使用線性回歸和邏輯回歸等模型時嘗試使用包含缺失值或非數字值的數據訓練模型,則scikit-learn將返回錯誤。
 

  以下是我們在此階段將要做的事情的概述:
 

  a、處理缺失值

  b、調查分類列
 

    1)將分類列轉換為數值特征
 

      i)將序數值映射為整數

      ii)將標稱值編碼為虛擬變量
 

  不過首先,讓我們從上一節的最終輸出中加載數據:

大數據分析
大數據分析

  處理缺失值
 

  讓我們計算缺失值的數量并確定如何處理它們。我們可以像這樣在整個DataFrame中返回缺失值的數量:
 

  a)首先,使用Pandas DataFrame方法isnull()返回包含布爾值的DataFrame:

  1)True 如果原始值為null

  2)False 如果原始值不為null

  b)然后,使用Pandas DataFrame方法sum()計算每列中空值的數量。

大數據分析
 

  請注意,盡管大多數列都有0個缺失值,title有9個缺失值,revol_util有48個,并pub_rec_bankruptcies包含675行有缺失值。
 

  讓我們完全刪除列中該列中超過1%(392)的行包含空值的列。此外,我們將刪除其余包含空值的行。這意味著我們將丟失一些數據,但作為回報,保留一些額外的功能以用于預測(因為我們不必刪除那些列)。
 

  我們將保留title和revol_util列,只是刪除包含缺失值的行,但pub_rec_bankruptcies由于該行中有1%以上的行具有缺失值,因此將其完全刪除。
 

  具體來說,這是我們要做的事情:
 

  a)使用滴法去除pub_rec_bankruptcies從列filtered_loans。

  b)使用dropna方法,從刪除所有行filtered_loans包含任何遺漏值。
 

  這就是代碼中的樣子。

大數據分析
 

  請注意,有多種方法可以處理缺失值,這是用于機器學習的數據清理中最重要的步驟之一。我們針對Python的數據清理高級課程對清理數據時遺漏的值進行了更深入的探討,這將是深入學習該主題的重要資源。
 

  不過,出于此處的目的,我們已經完成了這一步,因此讓我們繼續使用分類列。
 

  調查分類列
 

  我們的目標是最終獲得一個可供機器學習使用的數據集,這意味著它不包含任何缺失值,并且列中的所有值均為數字(浮點或整型數據類型)。
 

  我們已經處理了缺少的值,所以現在讓我們找出對象數據類型的列數,并弄清楚如何使這些值成為數字。

大數據分析
 

  我們有11個對象列,其中包含需要轉換為數字特征的文本。讓我們使用DataFrame方法select_dtype只選擇對象列,然后顯示一個示例行,以更好地了解每一列中的值如何格式化。

大數據分析
 

  請注意,該revol_util列包含數值,但被格式化為對象。我們從preview前面的DataFrame 列描述中學到的revol_util是“循環使用率或借款人相對于所有可用信貸所使用的信貸量”(在此處了解更多)。我們需要將其格式化revol_util為數字值。這是我們可以做的:
 

  a、使用str.rstrip()字符串方法去除右尾的百分號(%)。

  b、在產生的Series對象上,使用astype()方法轉換為type float。

  c、將新的系列浮點值重新分配給中的revol_util列filtered_loans。

大數據分析
 

  繼續,這些列似乎代表分類值:
 

  1)home_ownership —房屋所有權狀態,根據數據字典,只能是4個分類值中的1個。

  2)verification_status —表示收入是否已由個人貸款類驗證。

  3)emp_length -借款人在申請時受雇的年限。

  4)term -貸款的還款次數,為36或60。

  5)addr_state -借款人的居住地。

  6)grade — LC根據信用評分分配貸款等級。

  7)purpose —借款人為貸款請求提供的類別。

  8)title -借款人提供了借款名稱。
 

  可以肯定的是,讓我們通過檢查每個值中的唯一值來進行確認。
 

  此外,基于第一行的對值purpose和title,看來這兩列反映了同樣的信息。我們將分別探索其唯一值計數,以確認是否為真。

大數據分析
大數據分析
大數據分析
大數據分析
 

  最后,請注意第一行的值earliest_cr_line和last_credit_pull_d列的值都包含日期值,這些日期值需要大量的功能設計,以使其可能有用:
 

  1)earliest_cr_line —借款人最早報告的信貸額度開放的月份。

  2)last_credit_pull_d —最近一個月個人貸款類提取了此筆貸款的信貸。
 

  對于某些分析,進行此功能工程可能是值得的,但是出于本教程的目的,我們將僅從DataFrame中刪除這些日期列。
 

  首先,讓我們探索看起來好像包含分類值的六列的唯一值計數:
 

  這些列大多數包含離散的分類值,我們可以將其編碼為虛擬變量并保留。addr_state但是,該列包含太多唯一值,因此最好刪除它。
 

  接下來,讓我們看看purpose和title列的唯一值計數,以了解我們要保留哪些列。

大數據分析
大數據分析
 

  似乎purpose和title列確實包含重疊的信息,但是該purpose列包含的離散值較少并且更整潔,因此我們將其保留并丟棄title。
 

  讓我們刪除到目前為止我們決定不保留的列:

大數據分析
 

  將分類列轉換為數值特征
 

  首先,讓我們了解數據集中的兩種分類特征,以及如何將它們轉換為數字特征:
 

  有序值:這些分類值是自然順序的。我們可以按升序或降序對它們進行排序或排序。例如,我們較早地了解到個人貸款類將貸款申請人的等級從A 分級為G,并為每個申請人分配相應的利率-A等級風險最低,B等級風險高于A,依此類推:
 

  A
 

  標稱值:這些是常規分類值。您不能訂購標稱值。例如,雖然我們可以emp_length根據在勞動力中花費的年限在“就業時長”列()中訂購貸款申請人:
 

  1年<2年<3年…
 

  我們無法通過專欄來做到這一點purpose。說:
 

  汽車<婚禮<教育<移動<房子
 

  這些是我們現在在數據集中具有的列:
 

  序數值
 

  1)grade

  2)emp_length
 

  標稱值 _home_ownership
 

  1)verification_status

  2)purpose

  3)term
 

  有兩種不同的方法來處理這兩種類型。為了序值映射到整數,我們可以使用數據框大熊貓方法replace()來映射兩者grade并emp_length以適當的數值:

大數據分析
 

  完善!讓我們繼續看名義值。將名義特征轉換為數字特征需要將其編碼為偽變量。該過程將是:
 

  1)使用pandas的get_dummies()方法返回一個新的DataFrame,其中包含每個虛擬變量的新列。

  2)使用該concat()方法將這些虛擬列添加回原始DataFrame。

  3)使用drop方法完全刪除原始列。
 

  讓我們繼續對數據集中的標稱列進行編碼:

大數據分析
大數據分析
大數據分析
 

  總結一下,讓我們檢查一下本節的最終輸出,以確保所有要素的長度相同,不包含空值且為數字。我們將使用pandas的info方法來檢查filtered_loansDataFrame:

大數據分析

 

  一切看起來都不錯!恭喜,我們剛剛清理了大數據集進行機器學習,并在此過程中為我們的庫添加了一些有價值的數據清理技能。
 

  但是,我們仍然需要完成一項重要的最終任務!
 

  保存為CSV
 

  最好將工作流的每個部分或階段的最終輸出存儲在單獨的csv文件中。這種做法的好處之一是,它可以幫助我們更改數據處理流程,而不必重新計算所有內容。
 

  和以前一樣,我們可以使用方便的pandas to_csv()函數將DataFrame存儲為CSV 。
 

大數據分析

  下一步
 

  在本文中,我們介紹了處理大型數據集,清理數據并為機器學習項目準備數據所需的基本步驟。但是,還有很多東西要學習,您可以從這里選擇許多不同的方向。
 

  如果您對數據清理技能感到滿意,并且想更多地使用該數據集,請查看我們的交互式機器學習演練課程,該課程涵蓋了使用個人貸款數據的后續步驟。
 

  如果您想繼續研究數據清理技能,請查看我們的一個(或多個)交互式數據清理課程,以更深入地研究這項關鍵的數據科學技能:
 

  1)數據清理和分析課程(Python)

  2)高級數據清理課程(Python)

  3)數據清理(R)

 

?2007-2019/北京漫動者教育科技有限公司版權所有
備案號:京ICP備12034770號

?2007-2019/ www.zhuozheng31.icu 北京漫動者教育科技有限公司 備案號:京ICP備12034770號 監督電話:010-62568622 郵箱:bjaaa@aaaedu.cc

久久久大香菇精品