Home

このプロジェクトは何か

大量の論文から頻出フレーズを抽出するツールを開発する。

operation.flat
- 引数: 入力パス, ターム数, しきい値
- 返り値: 連想配列(文中のすべての異なる要素を多重度と共に示す)
- 例: { "help me": {"count":5 } }
operation.hierarchical
- 引数: 入力パス, ターム数, しきい値
- 返り値: 連想配列(文中のすべての異なる要素を多重度,含まれていたelement名と共に示す)
- 例: { "help me": {"count":5, "element":"introduction" } }
extract.extract
- 引数: ファイルの名前
- 返り値: 1次元のリスト(1文を要素とする)
extract.element
- 引数: ファイルの名前
- 返り値: 1次元のリスト( [ element名, 1文 ] という2要素の配列を要素とする)
- メモ
  - xml.etree.ElementTree.tag
  - element.text
extract.make_phrase
- 引数:
  - sentense - 1文を表す文字列
  - n - フレーズとして切り出す語数
- 返り値: nタームからなるフレーズすべてのリスト
extract.hierarchical_phrase
- 引数:
  - 1次元のリスト( [ element名, 1文 ] という2要素の配列を要素とする) (extract.element の返り値)
  - n (タームの単位とする文字数, optional)
- 返り値: 1次元のリスト( [ element名, nタームからなるフレーズ ] という2要素の配列を要素とする)
freq.tally
- 引数: 1次元のリスト
- 返り値:連想配列(文中のすべての異なる要素を多重度と共に示す)