Skip to content

Latest commit

 

History

History
26 lines (21 loc) · 563 Bytes

Readme.md

File metadata and controls

26 lines (21 loc) · 563 Bytes

論文相關的程式碼備份

資料:USPC 2006 年至 2016 年間分類編號 700 類別(軟體相關)的專利文檔

實作步驟:

  • 專利擷取
    • 連線至實驗室 MongoDB 取得專利資料特定欄位
  • 預處理
    • 斷詞
    • 去停用詞
    • 詞性還原
    • 短語識別
  • 詞向量計算
    • TF-IDF
    • Word2Vec
    • 嘗試不同作法的詞向量計算
  • 原創性評估
    • 由專利資料中根據前人研究的原創性公式進行分類
    • 機器學習模組
      • CNN
      • XGBoost
      • Random Forest
    • 比較模組成功率