Skip to content
This repository has been archived by the owner on Dec 19, 2022. It is now read-only.
kouamano edited this page Jul 11, 2012 · 31 revisions

このプロジェクトは何か

大量の論文から頻出フレーズを抽出するツールを開発する。

第1段階

機能要件

  • ユーザーインターフェースはコマンドライン
  • 入力はディレクトリパス
    • ディレクトリ配下のXMLファイルをすべて読み込む
  • 出力は頻出表現(出現回数、ファイル名、XML階層付き)のリスト
    • <title タグ : コンテンツ>の抽出
    • <p タグ : コンテンツ>の抽出

ファイル構成

  • baumディレクトリ
    • cmd.py (実行ファイル)
      • 引数: -i <入力パス> -o <出力ファイル> -n <ターム数> -t <しきい値> {-F|-H}
      • 説明: -F : operation.py の flat を指定. -H : operation.py の hierarchical を指定
    • operation.py
      • flat.py
      • hierarchical.py
    • extract.py
    • freqディレクトリ
      • (アルゴリズム1)
      • (アルゴリズム2)
      • (アルゴリズム3)

関数

  • operation.flat
    • 引数: 入力パス, ターム数, しきい値
    • 返り値: 連想配列(文中のすべての異なる要素を多重度と共に示す)
    • 例: { "help me": {"count":5 } }
  • operation.hierarchical
    • 引数: 入力パス, ターム数, しきい値
    • 返り値: 連想配列(文中のすべての異なる要素を多重度,含まれていたelement名と共に示す)
    • 例: { "help me": {"count":5, "element":"introduction" } }
  • extract.extract
    • 引数: ファイルの名前
    • 返り値: 1次元のリスト(1文を要素とする)
  • extract.element
    • 引数: ファイルの名前
    • 返り値: 1次元のリスト( [ element名, 1文 ] という2要素の配列を要素とする)
    • メモ
      • xml.etree.ElementTree.tag
      • element.text
  • extract.make_phrase
    • 引数:
      • sentense - 1文を表す文字列
      • n - フレーズとして切り出す語数
    • 返り値: nタームからなるフレーズすべてのリスト
  • extract.hierarchical_phrase
    • 引数:
      • 1次元のリスト( [ element名, 1文 ] という2要素の配列を要素とする) (extract.element の返り値)
      • n (タームの単位とする文字数, optional)
    • 返り値: 1次元のリスト( [ element名, nタームからなるフレーズ ] という2要素の配列を要素とする)
  • freq.tally
    • 引数: 1次元のリスト
    • 返り値:連想配列(文中のすべての異なる要素を多重度と共に示す)

第2段階

機能要件

  • 入力はディレクトリパスとフレーズ
  • 出力はフレーズを含んだ頻出表現(略)のリスト

参照

Clone this wiki locally