Paddle Python API demo [Basically Done] #1005

reyoung · 2016-12-23T06:16:36Z

Blocking Issue #971

Add a Runner abstract for mnist demo
Add jupyter demo for mnist.
See https://github.com/reyoung/mnist_notebook/blob/master/mnist.ipynb
Add comments

* Extract NewGradientMachine, ParamUpdater, DataProvider.

…er_api

* BasicTrainerDataProvider * BasicDataProviderOps, * BasicGradientMachineTrainOps * Counter * BatchEvaluate * BasicTestDataProvider * TestOnPassEnd

…m_cost_in_args

…er_api

…to feature/jupyter_docker

jacquesqiao · 2016-12-28T02:56:42Z

demo/mnist/api_train.py



 def main():
-    api.initPaddle("-use_gpu=false", "-trainer_count=4")  # use 4 cpu cores


没有看到initPaddle的地方？

在这里了 https://github.com/PaddlePaddle/Paddle/pull/1005/files#diff-ed4a9a57af56fa9b94fd891bdc87f629R101

似乎github会把一些大文件给隐藏掉。。所以，这个文件在files里面默认没显示，得加上load diff

* Extract Network helpers from trainer * Remove always passed context param. * Adding comments

reyoung · 2017-01-05T15:00:39Z

Paddle Python API

整理需求
目前Paddle的Trainer
可能的一种抽象方式
其他

需求单机线下训练

需求
- 配置一个模型
- 设置训练算法 (Optimizer)
- 设置训练数据
- 每隔一个周期存下来训练模型
- 设置测试数据
- 强类型的cost, 错误率, pass_id, batch_id
不足
- 没有强类型的cost，错误率等等

需求单机多目标训练

需求
- 配置一个神经网络模型后
  - 针对不同的输入数据，训练神经网络的不同部分。
  - 或者，更新神经网络的不同参数。例如数据1更新左半边，数据2更新右半边。
示例
- GAN
不足
- 目前的Paddle不支持，不过如果暴露了PythonAPI，支持起来比较容易

需求多网络训练

需求
- 配置多份网络。网络直接可以share一些参数。
- 多个网络分别训练，或者串行训练，一个网络的输出是另一个网络的输入等等。
不足
- 目前不支持

需求 OnlineLearning

需求
- 数据由网络传入。并且，网络操作来控制Paddle的训练进程。启停，模型存储等
不足
- 虽然Paddle支持数据网络传入，但是不太支持控制启停。

目前Paddle的Trainer逻辑

def train_logic(network_graph, optimize_settings):
	gradient_machine = create_gradient_machine(network_graph)
	parameter_updater = create_parameter_updater(optimize_settings)
	parameter_updater.init(gradient_machine.getParams())
	gradient_machine.start()
	
	for pass_id in range(num_passes):
			gradient_machine.start_pass()
			parameter_updater.start_pass()
			train_data.reset()
			
			for each_batch in train_data():
				gradient_machine.start_batch()
				parameter_updater.start_batch()
				
				gradient_machine.forward_backward(each_batch)
				for each_param in gradient_machine.parameters():
					parameter_updater.update(each_param)
				
				parameter_updater.finish_batch()
				gradient_machine.finish_batch()
			
			
			test_data.reset()
			parameter_updater.catch_up()
			
			for each_batch in test_data():
				gradient_machine.forward(each_batch)
				print gradient_machine.evaluate
			
			parameter_updater.finish_pass()
			gradient_machine.finish_pass()
	gradient_machine.finish()

可见一些操作是成对出现的，比如 gradient_machine.start_pass/finish_pass。并且训练过程是分阶段的。分的阶段包括

initialize
finalize
on_pass_start
on_pass_end
on_batch_start
on_batch_end

比如，对于ParameterUpdater的操作，可以分为

阶段	操作
initialize	parameter_updater.init(gradient_machine)
on_pass_start	parameter_updater.start_pass()
on_pass_end	parameter_updater.finish_pass()
on_batch_start	parameter_updater.start_batch()
on_batch_end	parameter_updater.end_batch()

而这些操作GradientMachine也有，测试逻辑也有，DataProvider也有。并且，这些逻辑可以任意组合形成一种特殊的Trainer

比如，默认情况下，每个Pass都会做测试。如果改成每隔是个Pass做一个预测呢？那么我们就可以换一个TesterItem。或者，没训练100个Pass做一次预测呢？

可能的一种抽象方式 Runner+RunnerItem

其实这种抽象方式，重点利用的是构件组合的思路，将训练过程中每个阶段不同对象的不同操作分离出来，然后任意组合，形成新的行为。类似的东西类似于golang的中间件或者nodejs的中间件(koa)。

整体抽象如上图所示。我们将一个对象的操作变成一个洋葱圈(RunnerItem)，整个洋葱便是(Runner)。这个抽象的意义就是将上面繁杂多变的训练逻辑剥离成有意义的子项目。

同时，这个洋葱还可以互相嵌套。比如，训练逻辑是一个洋葱，而测试逻辑是另一个洋葱。测试可能在训练的任何情况下进行。比如，可能的测试周期是训练200个batch之后进行一次测试。那么就写一个训练Runner的RunnerItem，在on_batch_end的时候，调用测试洋葱的全部流程即可。

同时，训练洋葱只要去掉一部分，就可以变成模型预测(inference)的洋葱。

* use list() instead of tokenize * use list() instead of tokenize in taskflow * add max_seq_length in readme * add dynamic predict in text_correction task * fix windows predict bug

Use Chain to refactor trainer.

aba84aa

jacquesqiao self-requested a review December 23, 2016 13:32

jacquesqiao assigned reyoung Dec 23, 2016

Add network decorator for network defines.

446fccf

* Extract NewGradientMachine, ParamUpdater, DataProvider.

reyoung force-pushed the feature/python_trainer_api branch from 23ea25b to 446fccf Compare December 26, 2016 05:47

reyoung added 11 commits December 26, 2016 13:49

Merge branch 'feature/mnist_train_api' into feature/python_trainer_api

2192d23

Doing GradientMachine Ops

ffefb42

Add sum cost to Arguments

e3d4da2

Merge branch 'feature/fix_bugs_in_math' into feature/python_trainer_api

6459d12

Merge branch 'feature/add_sum_cost_in_args' into feature/python_train…

758856d

…er_api

add Trainer Chain Items

3e1bb0f

* BasicTrainerDataProvider * BasicDataProviderOps, * BasicGradientMachineTrainOps * Counter * BatchEvaluate * BasicTestDataProvider * TestOnPassEnd

Merge branch 'develop' of github.com:baidu/Paddle into feature/add_su…

9601c2f

…m_cost_in_args

Add load/save method for Parameter

8b833d5

Merge branch 'feature/add_sum_cost_in_args' into feature/python_train…

22f4ced

…er_api

Remove MonoChainItem

20a9caa

init

81c238f

This was referenced Dec 27, 2016

Add some functions to PaddleAPI.h #1013

Merged

[Done] Feature/mnist train api #971

Merged

reyoung and others added 8 commits December 27, 2016 13:20

Refine dockerfile

febdc08

Sync Dockerfile => Dockerfile.gpu

6d62819

Merge branch 'feature/jupyter_docker' of github.com:reyoung/Paddle in…

da5b375

…to feature/jupyter_docker

Sync Dockerfile => Dockerfile.gpu

7701908

Merge branch 'develop' into feature/python_trainer_api

14fc57c

Merge branch 'feature/jupyter_docker' into feature/python_trainer_api

50434cb

Faster DataProvider Converter

9acfc21

Add Runner Builder

704ed1e

reyoung force-pushed the feature/python_trainer_api branch from 1c85a72 to 704ed1e Compare December 27, 2016 07:21

reyoung added 2 commits December 27, 2016 15:49

Move trainer to py_paddle.trainer

e522266

Extract base.py

1f4820d

reyoung changed the title ~~Paddle Python API demo [developing]~~ Paddle Python API demo [Basically Done] Dec 27, 2016

reyoung added 2 commits December 27, 2016 17:43

Fix unittest

3e16601

Merge branch 'feature/jupyter_docker' into feature/python_trainer_api

b9f4648

jacquesqiao requested changes Dec 28, 2016

View reviewed changes

Clean & comment code

3ceee61

* Extract Network helpers from trainer * Remove always passed context param. * Adding comments

reyoung force-pushed the feature/python_trainer_api branch from 605b1aa to 3ceee61 Compare December 29, 2016 07:14

Add introduction ipynb

2fdadf5

reyoung force-pushed the feature/python_trainer_api branch from 2642791 to 2fdadf5 Compare December 29, 2016 08:48

reyoung added 2 commits January 3, 2017 10:22

Support Local Sparse Train.

3242cb6

Add Paddle Trainer API Usage docs

3b1d08b

reyoung force-pushed the feature/python_trainer_api branch from 8e86c49 to 3b1d08b Compare January 5, 2017 03:12

jacquesqiao mentioned this pull request Jan 5, 2017

Paddle Python API 设计文档(初稿) #1069

Closed

jacquesqiao added the need be discussed label Jan 10, 2017

reyoung closed this Jun 27, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Paddle Python API demo [Basically Done] #1005

Paddle Python API demo [Basically Done] #1005

reyoung commented Dec 23, 2016 •

edited

Loading

jacquesqiao Dec 28, 2016 •

edited

Loading

reyoung Dec 28, 2016

reyoung commented Jan 5, 2017 •

edited

Loading



		def main():
		api.initPaddle("-use_gpu=false", "-trainer_count=4") # use 4 cpu cores

Paddle Python API demo [Basically Done] #1005

Paddle Python API demo [Basically Done] #1005

Conversation

reyoung commented Dec 23, 2016 • edited Loading

jacquesqiao Dec 28, 2016 • edited Loading

Choose a reason for hiding this comment

reyoung Dec 28, 2016

Choose a reason for hiding this comment

reyoung commented Jan 5, 2017 • edited Loading

Paddle Python API

需求 单机线下训练

需求 单机多目标训练

需求 多网络训练

需求 OnlineLearning

目前Paddle的Trainer逻辑

可能的一种抽象方式 Runner+RunnerItem

reyoung commented Dec 23, 2016 •

edited

Loading

jacquesqiao Dec 28, 2016 •

edited

Loading

reyoung commented Jan 5, 2017 •

edited

Loading

需求单机线下训练

需求单机多目标训练

需求多网络训练