This repository has been archived by the owner on Dec 19, 2022. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 3
Home
kouamano edited this page Jul 11, 2012
·
31 revisions
大量の論文から頻出フレーズを抽出するツールを開発する。
- ユーザーインターフェースはコマンドライン
- 入力はディレクトリパス
- ディレクトリ配下のXMLファイルをすべて読み込む
- 出力は頻出表現(出現回数、ファイル名、XML階層付き)のリスト
- <title タグ : コンテンツ>の抽出
- <p タグ : コンテンツ>の抽出
- baumディレクトリ
- cmd.py (実行ファイル)
- 引数: -i <入力パス> -o <出力ファイル> -n <ターム数> -t <しきい値> {-F|-H}
- 説明: -F : operation.py の flat を指定. -H : operation.py の hierarchical を指定
- operation.py
- flat.py
- hierarchical.py
- extract.py
- freqディレクトリ
- (アルゴリズム1)
- (アルゴリズム2)
- (アルゴリズム3)
- cmd.py (実行ファイル)
- operation.flat
- 引数: 入力パス, ターム数, しきい値
- 返り値: 連想配列(文中のすべての異なる要素を多重度と共に示す)
- 例: { "help me": {"count":5 } }
- operation.hierarchical
- 引数: 入力パス, ターム数, しきい値
- 返り値: 連想配列(文中のすべての異なる要素を多重度,含まれていたelement名と共に示す)
- 例: { "help me": {"count":5, "element":"introduction" } }
- extract.extract
- 引数: ファイルの名前
- 返り値: 1次元のリスト(1文を要素とする)
- extract.element
- 引数: ファイルの名前
- 返り値: 1次元のリスト( [ element名, 1文 ] という2要素の配列を要素とする)
- メモ
- xml.etree.ElementTree.tag
- element.text
- extract.make_phrase
- 引数:
- sentense - 1文を表す文字列
- n - フレーズとして切り出す語数
- 返り値: nタームからなるフレーズすべてのリスト
- 引数:
- extract.hierarchical_phrase
- 引数:
- 1次元のリスト( [ element名, 1文 ] という2要素の配列を要素とする) (extract.element の返り値)
- n (タームの単位とする文字数, optional)
- 返り値: 1次元のリスト( [ element名, nタームからなるフレーズ ] という2要素の配列を要素とする)
- 引数:
- freq.tally
- 引数: 1次元のリスト
- 返り値:連想配列(文中のすべての異なる要素を多重度と共に示す)
- 入力はディレクトリパスとフレーズ
- 出力はフレーズを含んだ頻出表現(略)のリスト