2017年5月25日 星期四

機器學習實戰 - 機器學習的應用步驟 - 1


由於身邊很多朋友想要接觸機器學習,卻不知道如何開始與應用,所以撰寫簡易的入門文讓新手理解如何應用機器學習的演算法於現實世界的問題。也分享個人經驗。

根據Machine Learning in Action書裡面的講解,可分成下面步驟:

  1. 收集數據
  2. 準備輸入數據
  3. 分析輸入數據
  4. 訓練算法
  5. 測試算法
  6. 使用算法 
收集數據部分:個人是使用python透過scrapy框架撰寫網絡爬蟲程式,好用便捷。
準備輸入數據:可透過numpy或pandas裡面讀取文件的API,並確認Load資料正確無誤。
分析輸入數據:查看資料是否有異常值、分析特徵的數值分佈、使用matplotlib將資料視覺化
訓練算法:根據資料抽取知識跟信息後,根據資料特性來選擇適合的機器學習演算法。
測試算法:設計評估算法,透過accuracy與recall數值評分。
使用算法:如何設計整個應用的流程pipeline。

建議使用python語言,提供適用的字串處理、數值運算、文本分析工具、機器學習套件等。
下面是IEEE選出的TOP 10演算法,可先以這些算法著手學習:






沒有留言:

張貼留言