論文相關的程式碼備份 資料:USPC 2006 年至 2016 年間分類編號 700 類別(軟體相關)的專利文檔 實作步驟: 專利擷取 連線至實驗室 MongoDB 取得專利資料特定欄位 預處理 斷詞 去停用詞 詞性還原 短語識別 詞向量計算 TF-IDF Word2Vec 嘗試不同作法的詞向量計算 原創性評估 由專利資料中根據前人研究的原創性公式進行分類 機器學習模組 CNN XGBoost Random Forest 比較模組成功率