diff --git a/docs/2023.html b/docs/2023.html
index 08341e9f06..e57f0f587b 100644
--- a/docs/2023.html
+++ b/docs/2023.html
@@ -35,6 +35,11 @@ <h1>Simd Library Release Notes (2023).</h1>
 <hr/>
 <h3 id="R132">December X, 2023 (version X.X.132)</h3>
 <h4>Algorithms</h4>
+<h5>New features</h5>
+<ul>
+ <li>Support of RGBA-32 input image format in base implementation, SSE4.1, AVX2 optimizations of function SynetSetInput.</li>
+</ul>
+
 <h5>Bug fixing</h5>
 <ul>
  <li>Wrong order of SIMD_DEPRECATED macro.</li>
diff --git a/docs/help/group__python.html b/docs/help/group__python.html
index ee987f13e4..d2d5bb762d 100644
--- a/docs/help/group__python.html
+++ b/docs/help/group__python.html
@@ -93,6 +93,9 @@ <h1>Simd Library Documentation.</h1>
 <tr class="memitem:ga0b59b5f4b053026f23dc0054bc92cf58"><td class="memItemLeft" align="right" valign="top"><a class="el" href="class_simd_1_1_image.html">Simd.Image</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__python.html#ga0b59b5f4b053026f23dc0054bc92cf58">Resized</a> (<a class="el" href="class_simd_1_1_image.html">Image</a> src, int width, int height, method=<a class="el" href="class_simd_1_1_resize_method.html#a4ca04a83471ed28470ccc779c907efdb">Simd.ResizeMethod.Bilinear</a>)</td></tr>
 <tr class="memdesc:ga0b59b5f4b053026f23dc0054bc92cf58"><td class="mdescLeft">&#160;</td><td class="mdescRight">The function gets resized image.  <a href="group__python.html#ga0b59b5f4b053026f23dc0054bc92cf58">More...</a><br /></td></tr>
 <tr class="separator:ga0b59b5f4b053026f23dc0054bc92cf58"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gad2c828a2b2693a10ff8c447fe083a995"><td class="memItemLeft" align="right" valign="top">def&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__python.html#gad2c828a2b2693a10ff8c447fe083a995">SynetSetInput</a> (<a class="el" href="class_simd_1_1_image.html">Image</a> src, lower, upper, ctypes.c_void_p dst, int channels, <a class="el" href="class_simd_1_1_tensor_format.html">Simd.TensorFormat</a> format)</td></tr>
+<tr class="memdesc:gad2c828a2b2693a10ff8c447fe083a995"><td class="mdescLeft">&#160;</td><td class="mdescRight">Sets image to the input of neural network of <a href="http://github.com/ermig1979/Synet">Synet Framework</a>.  <a href="group__python.html#gad2c828a2b2693a10ff8c447fe083a995">More...</a><br /></td></tr>
+<tr class="separator:gad2c828a2b2693a10ff8c447fe083a995"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <p >Python Wrapper of Simd Library. </p>
@@ -191,6 +194,71 @@ <h2 class="memtitle"><span class="permalink"><a href="#ga0b59b5f4b053026f23dc005
 </dl>
 <dl class="section return"><dt>Returns</dt><dd>- resized output image. </dd></dl>
 
+</div>
+</div>
+<a id="gad2c828a2b2693a10ff8c447fe083a995" name="gad2c828a2b2693a10ff8c447fe083a995"></a>
+<h2 class="memtitle"><span class="permalink"><a href="#gad2c828a2b2693a10ff8c447fe083a995">&#9670;&nbsp;</a></span>SynetSetInput()</h2>
+
+<div class="memitem">
+<div class="memproto">
+      <table class="memname">
+        <tr>
+          <td class="memname">def SynetSetInput </td>
+          <td>(</td>
+          <td class="paramtype"><a class="el" href="class_simd_1_1_image.html">Image</a>&#160;</td>
+          <td class="paramname"><em>src</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&#160;</td>
+          <td class="paramname"><em>lower</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">&#160;</td>
+          <td class="paramname"><em>upper</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">ctypes.c_void_p&#160;</td>
+          <td class="paramname"><em>dst</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype">int&#160;</td>
+          <td class="paramname"><em>channels</em>, </td>
+        </tr>
+        <tr>
+          <td class="paramkey"></td>
+          <td></td>
+          <td class="paramtype"><a class="el" href="class_simd_1_1_tensor_format.html">Simd.TensorFormat</a>&#160;</td>
+          <td class="paramname"><em>format</em>&#160;</td>
+        </tr>
+        <tr>
+          <td></td>
+          <td>)</td>
+          <td></td><td></td>
+        </tr>
+      </table>
+</div><div class="memdoc">
+
+<p>Sets image to the input of neural network of <a href="http://github.com/ermig1979/Synet">Synet Framework</a>. </p>
+<dl class="params"><dt>Parameters</dt><dd>
+  <table class="params">
+    <tr><td class="paramname">src</td><td>- an input image. There are following supported pixel format: aSimd.PixelFormat.Gray8, <a class="el" href="class_simd_1_1_pixel_format.html#a0b1b1a17224566f43dd3427347bdb0dc" title="A 24-bit (3 8-bit channels) BGR (Blue, Green, Red) pixel format.">Simd.PixelFormat.Bgr24</a>, <a class="el" href="class_simd_1_1_pixel_format.html#ab1b15f83aaa223e4e6b2075aefe522be" title="A 32-bit (4 8-bit channels) BGRA (Blue, Green, Red, Alpha) pixel format.">Simd.PixelFormat.Bgra32</a>, <a class="el" href="class_simd_1_1_pixel_format.html#a86f519c808ef15faed67904830427970" title="A 24-bit (3 8-bit channels) RGB (Red, Green, Blue) pixel format.">Simd.PixelFormat.Rgb24</a>. </td></tr>
+    <tr><td class="paramname">lower</td><td>- an array with lower bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor. </td></tr>
+    <tr><td class="paramname">upper</td><td>- an array with upper bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor. </td></tr>
+    <tr><td class="paramname">dst</td><td>- a pointer to the output 32-bit float image tensor. </td></tr>
+    <tr><td class="paramname">channels</td><td>- a number of channels in the output image tensor. It can be 1 or 3. </td></tr>
+    <tr><td class="paramname">format</td><td>- a format of output image tensor. There are supported following tensor formats: <a class="el" href="class_simd_1_1_tensor_format.html#a0d6eadaeb9b76db3d65a4a0d23546348" title="NCHW (N - batch, C - channels, H - height, W - width) 4D-tensor format of (input/output) image.">Simd.TensorFormat.Nchw</a>, <a class="el" href="class_simd_1_1_tensor_format.html#aff67f159c248dc607e683100ca718db3" title="NHWC (N - batch, H - height, W - width, C - channels) 4D-tensor format of (input/output) image.">Simd.TensorFormat.Nhwc</a>. </td></tr>
+  </table>
+  </dd>
+</dl>
+
 </div>
 </div>
 </div><!-- contents -->
diff --git a/docs/help/namespace_simd.html b/docs/help/namespace_simd.html
index d43c3ff5cb..dfd0975912 100644
--- a/docs/help/namespace_simd.html
+++ b/docs/help/namespace_simd.html
@@ -1191,6 +1191,9 @@ <h1>Simd Library Documentation.</h1>
 <tr class="memitem:ga0b59b5f4b053026f23dc0054bc92cf58"><td class="memItemLeft" align="right" valign="top"><a class="el" href="class_simd_1_1_image.html">Simd.Image</a>&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__python.html#ga0b59b5f4b053026f23dc0054bc92cf58">Resized</a> (<a class="el" href="class_simd_1_1_image.html">Image</a> src, int width, int height, method=<a class="el" href="class_simd_1_1_resize_method.html#a4ca04a83471ed28470ccc779c907efdb">Simd.ResizeMethod.Bilinear</a>)</td></tr>
 <tr class="memdesc:ga0b59b5f4b053026f23dc0054bc92cf58"><td class="mdescLeft">&#160;</td><td class="mdescRight">The function gets resized image.  <a href="group__python.html#ga0b59b5f4b053026f23dc0054bc92cf58">More...</a><br /></td></tr>
 <tr class="separator:ga0b59b5f4b053026f23dc0054bc92cf58"><td class="memSeparator" colspan="2">&#160;</td></tr>
+<tr class="memitem:gad2c828a2b2693a10ff8c447fe083a995"><td class="memItemLeft" align="right" valign="top">def&#160;</td><td class="memItemRight" valign="bottom"><a class="el" href="group__python.html#gad2c828a2b2693a10ff8c447fe083a995">SynetSetInput</a> (<a class="el" href="class_simd_1_1_image.html">Image</a> src, lower, upper, ctypes.c_void_p dst, int channels, <a class="el" href="class_simd_1_1_tensor_format.html">Simd.TensorFormat</a> format)</td></tr>
+<tr class="memdesc:gad2c828a2b2693a10ff8c447fe083a995"><td class="mdescLeft">&#160;</td><td class="mdescRight">Sets image to the input of neural network of <a href="http://github.com/ermig1979/Synet">Synet Framework</a>.  <a href="group__python.html#gad2c828a2b2693a10ff8c447fe083a995">More...</a><br /></td></tr>
+<tr class="separator:gad2c828a2b2693a10ff8c447fe083a995"><td class="memSeparator" colspan="2">&#160;</td></tr>
 </table>
 <a name="details" id="details"></a><h2 class="groupheader">Detailed Description</h2>
 <div class="textblock"><p ><a class="el" href="namespace_simd.html">Simd</a> API C++ wrappers. </p>
diff --git a/docs/help/namespacemembers_func_s.html b/docs/help/namespacemembers_func_s.html
index 4acddcfd1a..4c66a60401 100644
--- a/docs/help/namespacemembers_func_s.html
+++ b/docs/help/namespacemembers_func_s.html
@@ -62,7 +62,7 @@ <h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
 <li>SquaredDistance()&#160;:&#160;<a class="el" href="group__cpp__point__functions.html#ga578419458433bde89a7c1bfa55e39c7d">Simd</a></li>
 <li>SquareSum()&#160;:&#160;<a class="el" href="group__other__statistic.html#ga5cffade3d22d35969426ea9e766c2fde">Simd</a></li>
 <li>StretchGray2x2()&#160;:&#160;<a class="el" href="group__resizing.html#gafc8d7f38e2911f7db847c01bb1d14982">Simd</a></li>
-<li>SynetSetInput()&#160;:&#160;<a class="el" href="group__synet__conversion.html#ga5bc210e89b6190c85c9cbcc75d8a1205">Simd</a></li>
+<li>SynetSetInput()&#160;:&#160;<a class="el" href="group__python.html#gad2c828a2b2693a10ff8c447fe083a995">Simd</a></li>
 </ul>
 </div><!-- contents -->
 <div id="nav-path" class="navpath">
diff --git a/docs/help/namespacemembers_s.html b/docs/help/namespacemembers_s.html
index 988d569ae6..d825ca00d7 100644
--- a/docs/help/namespacemembers_s.html
+++ b/docs/help/namespacemembers_s.html
@@ -64,7 +64,7 @@ <h3><a id="index_s" name="index_s"></a>- s -</h3><ul>
 <li>SquareSum()&#160;:&#160;<a class="el" href="group__other__statistic.html#ga5cffade3d22d35969426ea9e766c2fde">Simd</a></li>
 <li>StretchGray2x2()&#160;:&#160;<a class="el" href="group__resizing.html#gafc8d7f38e2911f7db847c01bb1d14982">Simd</a></li>
 <li>String&#160;:&#160;<a class="el" href="namespace_simd_1_1_motion.html#afbeda3fd1bdc8c37d01bdf9f5c8274ff">Simd::Motion</a></li>
-<li>SynetSetInput()&#160;:&#160;<a class="el" href="group__synet__conversion.html#ga5bc210e89b6190c85c9cbcc75d8a1205">Simd</a></li>
+<li>SynetSetInput()&#160;:&#160;<a class="el" href="group__python.html#gad2c828a2b2693a10ff8c447fe083a995">Simd</a></li>
 </ul>
 </div><!-- contents -->
 <div id="nav-path" class="navpath">
diff --git a/py/SimdPy/Simd.py b/py/SimdPy/Simd.py
index ec2fa755d4..dad41b959a 100644
--- a/py/SimdPy/Simd.py
+++ b/py/SimdPy/Simd.py
@@ -759,15 +759,12 @@ def Resized(src : Image, width :int, height: int, method = Simd.ResizeMethod.Bil
 
 ##  @ingroup python
 # Sets image to the input of neural network of <a href="http://github.com/ermig1979/Synet">Synet Framework</a>.
-# @param src - an original input image.
-# @param dst - a resized output image.
-# @param method - a resizing method. By default it is equal to Simd.ResizeMethod.Bilinear.
-	# @param src - an input image. There are following supported pixel format: aSimd.PixelFormat.Gray8, Simd.PixelFormat.Bgr24, Simd.PixelFormat.Bgra32, Simd.PixelFormat.Rgb24.
-	# @param lower - an array with lower bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor.
-	# @param upper - an array with upper bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor.
-	# @param dst - a pointer to the output 32-bit float image tensor.
-	# @param channels - a number of channels in the output image tensor. It can be 1 or 3.
-	# @param format - a format of output image tensor. There are supported following tensor formats: Simd.TensorFormat.Nchw, Simd.TensorFormat.Nhwc.
+# @param src - an input image. There are following supported pixel format: aSimd.PixelFormat.Gray8, Simd.PixelFormat.Bgr24, Simd.PixelFormat.Bgra32, Simd.PixelFormat.Rgb24.
+# @param lower - an array with lower bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor.
+# @param upper - an array with upper bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor.
+# @param dst - a pointer to the output 32-bit float image tensor.
+# @param channels - a number of channels in the output image tensor. It can be 1 or 3.
+# @param format - a format of output image tensor. There are supported following tensor formats: Simd.TensorFormat.Nchw, Simd.TensorFormat.Nhwc.
 def SynetSetInput(src : Image, lower, upper, dst : ctypes.c_void_p, channels : int, format : Simd.TensorFormat) :
 	if src.Format() != PixelFormat.Gray8 and src.Format() != PixelFormat.Bgr24 and src.Format() != PixelFormat.Bgra32 and src.Format() != PixelFormat.Rgb24 :
 		raise Exception("Incompatible image pixel format: {0}!".format(src.Format()))
diff --git a/src/Simd/SimdAvx2SynetConversion.cpp b/src/Simd/SimdAvx2SynetConversion.cpp
index 7170a0a052..eeb29e361f 100644
--- a/src/Simd/SimdAvx2SynetConversion.cpp
+++ b/src/Simd/SimdAvx2SynetConversion.cpp
@@ -355,6 +355,16 @@ namespace Simd
             return _mm256_srli_epi32(_mm256_add_epi32(weightedSum, K32_ROUND_TERM), Base::BGR_TO_GRAY_AVERAGING_SHIFT);
         }
 
+        const __m256i K16_RED_BLUE = SIMD_MM256_SET2_EPI16(Base::RED_TO_GRAY_WEIGHT, Base::BLUE_TO_GRAY_WEIGHT);
+
+        SIMD_INLINE __m256i RgbaToGray32(__m256i rgba)
+        {
+            const __m256i g0a0 = _mm256_and_si256(_mm256_srli_si256(rgba, 1), K16_00FF);
+            const __m256i r0b0 = _mm256_and_si256(rgba, K16_00FF);
+            const __m256i weightedSum = _mm256_add_epi32(_mm256_madd_epi16(g0a0, K16_GREEN_0000), _mm256_madd_epi16(r0b0, K16_RED_BLUE));
+            return _mm256_srli_epi32(_mm256_add_epi32(weightedSum, K32_ROUND_TERM), Base::BGR_TO_GRAY_AVERAGING_SHIFT);
+        }
+
         template<SimdPixelFormatType format> SIMD_INLINE void SynetSetInput1(const uint8_t * src, __m256 scale, __m256 shift, float * dst);
 
         SIMD_INLINE void SynetSetInput1Gray8(__m128i gray8, __m256 scale, __m256 shift, float * dst)
@@ -399,6 +409,14 @@ namespace Simd
             StoreScaled<false>(dst + 3 * F, BgraToGray32(RgbToBgra<true>(Load<false>((__m256i*)(src + 64)), K32_01000000)), scale, shift);
         }
 
+        template<> SIMD_INLINE void SynetSetInput1<SimdPixelFormatRgba32>(const uint8_t* src, __m256 scale, __m256 shift, float* dst)
+        {
+            StoreScaled<false>(dst + 0 * F, RgbaToGray32(Load<false>((__m256i*)src + 0)), scale, shift);
+            StoreScaled<false>(dst + 1 * F, RgbaToGray32(Load<false>((__m256i*)src + 1)), scale, shift);
+            StoreScaled<false>(dst + 2 * F, RgbaToGray32(Load<false>((__m256i*)src + 2)), scale, shift);
+            StoreScaled<false>(dst + 3 * F, RgbaToGray32(Load<false>((__m256i*)src + 3)), scale, shift);
+        }
+
         template<SimdPixelFormatType format, size_t step> void SynetSetInput1(const uint8_t * src, size_t width, size_t height, size_t stride, const float * scale, const float * shift, float * dst)
         {
             __m256 _scale = _mm256_set1_ps(scale[0]);
@@ -479,6 +497,22 @@ namespace Simd
             SynetSetInput1Gray8(BgrToBlue(_rgb), scale[2], shift[2], dst + 2 * channel);
         }
 
+        SIMD_INLINE void SynetSetInputNchw3Rgba32(const uint8_t* src, const __m256* scale, const __m256* shift, float* dst, size_t channel)
+        {
+            __m256i rgba = Load<false>((__m256i*)src);
+            StoreScaled<false>(dst + 0 * channel, _mm256_and_si256(_mm256_srli_si256(rgba, 2), K32_000000FF), scale[0], shift[0]);
+            StoreScaled<false>(dst + 1 * channel, _mm256_and_si256(_mm256_srli_si256(rgba, 1), K32_000000FF), scale[1], shift[1]);
+            StoreScaled<false>(dst + 2 * channel, _mm256_and_si256(_mm256_srli_si256(rgba, 0), K32_000000FF), scale[2], shift[2]);
+        }
+
+        template<> SIMD_INLINE void SynetSetInputNchw3<SimdPixelFormatRgba32>(const uint8_t* src, const __m256* scale, const __m256* shift, float* dst, size_t channel)
+        {
+            SynetSetInputNchw3Rgba32(src + 0 * A, scale, shift, dst + 0 * F, channel);
+            SynetSetInputNchw3Rgba32(src + 1 * A, scale, shift, dst + 1 * F, channel);
+            SynetSetInputNchw3Rgba32(src + 2 * A, scale, shift, dst + 2 * F, channel);
+            SynetSetInputNchw3Rgba32(src + 3 * A, scale, shift, dst + 3 * F, channel);
+        }
+
         template<SimdPixelFormatType format, size_t step> void SynetSetInputNchw3(const uint8_t * src, size_t width, size_t height, size_t stride, const float * scale, const float * shift, float * dst)
         {
             size_t aligned = AlignLo(width, A), channel = width * height;
@@ -587,6 +621,26 @@ namespace Simd
             StoreScaled<false>(dst + 0xB * F, _mm256_cvtepi16_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 80)), K8_RGB_UNPACK_2)), scale[2], shift[2]);
         }
 
+        const __m128i K8_RGBA_TO_BGR_0 = SIMD_MM_SETR_EPI8(0x2, 0x1, 0x0, 0x6, 0x5, 0x4, 0xA, 0x9, -1, -1, -1, -1, -1, -1, -1, -1);
+        const __m128i K8_RGBA_TO_BGR_1 = SIMD_MM_SETR_EPI8(0x0, 0x6, 0x5, 0x4, 0xA, 0x9, 0x8, 0xE, -1, -1, -1, -1, -1, -1, -1, -1);
+        const __m128i K8_RGBA_TO_BGR_2 = SIMD_MM_SETR_EPI8(0x5, 0x4, 0xA, 0x9, 0x8, 0xE, 0xD, 0xC, -1, -1, -1, -1, -1, -1, -1, -1);
+
+        template<> SIMD_INLINE void SynetSetInputNhwc3<SimdPixelFormatRgba32>(const uint8_t* src, const __m256* scale, const __m256* shift, float* dst)
+        {
+            StoreScaled<false>(dst + 0x0 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 0)), K8_RGBA_TO_BGR_0)), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x1 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 8)), K8_RGBA_TO_BGR_1)), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x2 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 16)), K8_RGBA_TO_BGR_2)), scale[2], shift[2]);
+            StoreScaled<false>(dst + 0x3 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 32)), K8_RGBA_TO_BGR_0)), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x4 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 40)), K8_RGBA_TO_BGR_1)), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x5 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 48)), K8_RGBA_TO_BGR_2)), scale[2], shift[2]);
+            StoreScaled<false>(dst + 0x6 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 64)), K8_RGBA_TO_BGR_0)), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x7 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 72)), K8_RGBA_TO_BGR_1)), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x8 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 80)), K8_RGBA_TO_BGR_2)), scale[2], shift[2]);
+            StoreScaled<false>(dst + 0x9 * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 96)), K8_RGBA_TO_BGR_0)), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0xA * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 104)), K8_RGBA_TO_BGR_1)), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0xB * F, _mm256_cvtepu8_epi32(_mm_shuffle_epi8(Sse41::Load<false>((__m128i*)(src + 112)), K8_RGBA_TO_BGR_2)), scale[2], shift[2]);
+        }
+
         template<SimdPixelFormatType format, size_t step> void SynetSetInputNhwc3(const uint8_t * src, size_t width, size_t height, size_t stride, const float * scale, const float * shift, float * dst)
         {
             size_t aligned = AlignLo(width, A);
@@ -625,6 +679,7 @@ namespace Simd
                 case SimdPixelFormatBgr24: SynetSetInput1<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                 case SimdPixelFormatBgra32: SynetSetInput1<SimdPixelFormatBgra32, 4>(src, width, height, stride, scale, lower, dst); return;
                 case SimdPixelFormatRgb24: SynetSetInput1<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                case SimdPixelFormatRgba32: SynetSetInput1<SimdPixelFormatRgba32, 4>(src, width, height, stride, scale, lower, dst); return;
                 default: assert(0);
                 }
                 break;
@@ -638,6 +693,7 @@ namespace Simd
                     case SimdPixelFormatBgr24: SynetSetInputNchw3<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatBgra32: SynetSetInputNchw3<SimdPixelFormatBgra32, 4>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatRgb24: SynetSetInputNchw3<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                    case SimdPixelFormatRgba32: SynetSetInputNchw3<SimdPixelFormatRgba32, 4>(src, width, height, stride, scale, lower, dst); return;
                     default: assert(0);
                     }
                     break;
@@ -648,6 +704,7 @@ namespace Simd
                     case SimdPixelFormatBgr24: SynetSetInputNhwc3<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatBgra32: SynetSetInputNhwc3<SimdPixelFormatBgra32, 4>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatRgb24: SynetSetInputNhwc3<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                    case SimdPixelFormatRgba32: SynetSetInputNhwc3<SimdPixelFormatRgba32, 4>(src, width, height, stride, scale, lower, dst); return;
                     default: assert(0);
                     }
                     break;
diff --git a/src/Simd/SimdBaseSynetConversion.cpp b/src/Simd/SimdBaseSynetConversion.cpp
index 302226bc06..29359a7168 100644
--- a/src/Simd/SimdBaseSynetConversion.cpp
+++ b/src/Simd/SimdBaseSynetConversion.cpp
@@ -199,6 +199,7 @@ namespace Simd
                 case SimdPixelFormatBgr24: SynetSetInput1<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                 case SimdPixelFormatBgra32: SynetSetInput1<SimdPixelFormatBgr24, 4>(src, width, height, stride, scale, lower, dst); return;
                 case SimdPixelFormatRgb24: SynetSetInput1<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                case SimdPixelFormatRgba32: SynetSetInput1<SimdPixelFormatRgb24, 4>(src, width, height, stride, scale, lower, dst); return;
                 default: assert(0);
                 }
                 break;
@@ -212,6 +213,7 @@ namespace Simd
                     case SimdPixelFormatBgr24: SynetSetInputNchw3<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatBgra32: SynetSetInputNchw3<SimdPixelFormatBgr24, 4>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatRgb24: SynetSetInputNchw3<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                    case SimdPixelFormatRgba32: SynetSetInputNchw3<SimdPixelFormatRgb24, 4>(src, width, height, stride, scale, lower, dst); return;
                     default: assert(0);
                     }
                     break;
@@ -222,6 +224,7 @@ namespace Simd
                     case SimdPixelFormatBgr24: SynetSetInputNhwc3<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatBgra32: SynetSetInputNhwc3<SimdPixelFormatBgr24, 4>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatRgb24: SynetSetInputNhwc3<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                    case SimdPixelFormatRgba32: SynetSetInputNhwc3<SimdPixelFormatRgb24, 4>(src, width, height, stride, scale, lower, dst); return;
                     default: assert(0);
                     }
                     break;
diff --git a/src/Simd/SimdSse41SynetConversion.cpp b/src/Simd/SimdSse41SynetConversion.cpp
index b9adf74f71..1b48c94f80 100644
--- a/src/Simd/SimdSse41SynetConversion.cpp
+++ b/src/Simd/SimdSse41SynetConversion.cpp
@@ -275,7 +275,8 @@ namespace Simd
         //-------------------------------------------------------------------------------------------------
 
         const __m128i K16_BLUE_RED = SIMD_MM_SET2_EPI16(Base::BLUE_TO_GRAY_WEIGHT, Base::RED_TO_GRAY_WEIGHT);
-        const __m128i K16_GREEN_ROUND = SIMD_MM_SET2_EPI16(Base::GREEN_TO_GRAY_WEIGHT, Base::BGR_TO_GRAY_ROUND_TERM);
+        const __m128i K16_GREEN_0 = SIMD_MM_SET2_EPI16(Base::GREEN_TO_GRAY_WEIGHT, 0);
+        const __m128i K32_ROUND_TERM = SIMD_MM_SET1_EPI32(Base::BGR_TO_GRAY_ROUND_TERM);
         const __m128i K8_BGR_TO_BGRA = SIMD_MM_SETR_EPI8(0x0, 0x1, 0x2, -1, 0x3, 0x4, 0x5, -1, 0x6, 0x7, 0x8, -1, 0x9, 0xA, 0xB, -1);
         const __m128i K8_RGB_TO_BGRA = SIMD_MM_SETR_EPI8(0x2, 0x1, 0x0, -1, 0x5, 0x4, 0x3, -1, 0x8, 0x7, 0x6, -1, 0xB, 0xA, 0x9, -1);
 
@@ -288,8 +289,18 @@ namespace Simd
         {
             const __m128i g0a0 = _mm_and_si128(_mm_srli_si128(bgra, 1), K16_00FF);
             const __m128i b0r0 = _mm_and_si128(bgra, K16_00FF);
-            const __m128i weightedSum = _mm_add_epi32(_mm_madd_epi16(g0a0, K16_GREEN_ROUND), _mm_madd_epi16(b0r0, K16_BLUE_RED));
-            return _mm_srli_epi32(weightedSum, Base::BGR_TO_GRAY_AVERAGING_SHIFT);
+            const __m128i weightedSum = _mm_add_epi32(_mm_madd_epi16(g0a0, K16_GREEN_0), _mm_madd_epi16(b0r0, K16_BLUE_RED));
+            return _mm_srli_epi32(_mm_add_epi32(weightedSum, K32_ROUND_TERM), Base::BGR_TO_GRAY_AVERAGING_SHIFT);
+        }
+
+        const __m128i K16_RED_BLUE = SIMD_MM_SET2_EPI16(Base::RED_TO_GRAY_WEIGHT, Base::BLUE_TO_GRAY_WEIGHT);
+
+        SIMD_INLINE __m128i RgbaToGray32(__m128i rgba)
+        {
+            const __m128i g0a0 = _mm_and_si128(_mm_srli_si128(rgba, 1), K16_00FF);
+            const __m128i r0b0 = _mm_and_si128(rgba, K16_00FF);
+            const __m128i weightedSum = _mm_add_epi32(_mm_madd_epi16(g0a0, K16_GREEN_0), _mm_madd_epi16(r0b0, K16_RED_BLUE));
+            return _mm_srli_epi32(_mm_add_epi32(weightedSum, K32_ROUND_TERM), Base::BGR_TO_GRAY_AVERAGING_SHIFT);
         }
 
         template<SimdPixelFormatType format> SIMD_INLINE void SynetSetInput1(const uint8_t * src, __m128 scale, __m128 shift, float * dst);
@@ -309,26 +320,34 @@ namespace Simd
 
         template<> SIMD_INLINE void SynetSetInput1<SimdPixelFormatBgr24>(const uint8_t * src, __m128 scale, __m128 shift, float * dst)
         {
-            StoreScaled<false>(dst + 0 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(Load<false>((__m128i*)(src + 0)), K8_BGR_TO_BGRA))), scale, shift);
-            StoreScaled<false>(dst + 1 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(Load<false>((__m128i*)(src + 12)), K8_BGR_TO_BGRA))), scale, shift);
-            StoreScaled<false>(dst + 2 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(Load<false>((__m128i*)(src + 24)), K8_BGR_TO_BGRA))), scale, shift);
-            StoreScaled<false>(dst + 3 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(_mm_srli_si128(Load<false>((__m128i*)(src + 32)), 4), K8_BGR_TO_BGRA))), scale, shift);
+            StoreScaled<false>(dst + 0 * F, BgraToGray32(_mm_shuffle_epi8(Load<false>((__m128i*)(src + 0)), K8_BGR_TO_BGRA)), scale, shift);
+            StoreScaled<false>(dst + 1 * F, BgraToGray32(_mm_shuffle_epi8(Load<false>((__m128i*)(src + 12)), K8_BGR_TO_BGRA)), scale, shift);
+            StoreScaled<false>(dst + 2 * F, BgraToGray32(_mm_shuffle_epi8(Load<false>((__m128i*)(src + 24)), K8_BGR_TO_BGRA)), scale, shift);
+            StoreScaled<false>(dst + 3 * F, BgraToGray32(_mm_shuffle_epi8(_mm_srli_si128(Load<false>((__m128i*)(src + 32)), 4), K8_BGR_TO_BGRA)), scale, shift);
         }
 
         template<> SIMD_INLINE void SynetSetInput1<SimdPixelFormatBgra32>(const uint8_t * src, __m128 scale, __m128 shift, float * dst)
         {
-            StoreScaled<false>(dst + 0 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_and_si128(K32_00FFFFFF, Load<false>((__m128i*)src + 0)))), scale, shift);
-            StoreScaled<false>(dst + 1 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_and_si128(K32_00FFFFFF, Load<false>((__m128i*)src + 1)))), scale, shift);
-            StoreScaled<false>(dst + 2 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_and_si128(K32_00FFFFFF, Load<false>((__m128i*)src + 2)))), scale, shift);
-            StoreScaled<false>(dst + 3 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_and_si128(K32_00FFFFFF, Load<false>((__m128i*)src + 3)))), scale, shift);
+            StoreScaled<false>(dst + 0 * F, BgraToGray32(Load<false>((__m128i*)src + 0)), scale, shift);
+            StoreScaled<false>(dst + 1 * F, BgraToGray32(Load<false>((__m128i*)src + 1)), scale, shift);
+            StoreScaled<false>(dst + 2 * F, BgraToGray32(Load<false>((__m128i*)src + 2)), scale, shift);
+            StoreScaled<false>(dst + 3 * F, BgraToGray32(Load<false>((__m128i*)src + 3)), scale, shift);
         }
 
         template<> SIMD_INLINE void SynetSetInput1<SimdPixelFormatRgb24>(const uint8_t * src, __m128 scale, __m128 shift, float * dst)
         {
-            StoreScaled<false>(dst + 0 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(Load<false>((__m128i*)(src + 0)), K8_RGB_TO_BGRA))), scale, shift);
-            StoreScaled<false>(dst + 1 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(Load<false>((__m128i*)(src + 12)), K8_RGB_TO_BGRA))), scale, shift);
-            StoreScaled<false>(dst + 2 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(Load<false>((__m128i*)(src + 24)), K8_RGB_TO_BGRA))), scale, shift);
-            StoreScaled<false>(dst + 3 * F, BgraToGray32(_mm_or_si128(K32_01000000, _mm_shuffle_epi8(_mm_srli_si128(Load<false>((__m128i*)(src + 32)), 4), K8_RGB_TO_BGRA))), scale, shift);
+            StoreScaled<false>(dst + 0 * F, BgraToGray32(_mm_shuffle_epi8(Load<false>((__m128i*)(src + 0)), K8_RGB_TO_BGRA)), scale, shift);
+            StoreScaled<false>(dst + 1 * F, BgraToGray32(_mm_shuffle_epi8(Load<false>((__m128i*)(src + 12)), K8_RGB_TO_BGRA)), scale, shift);
+            StoreScaled<false>(dst + 2 * F, BgraToGray32(_mm_shuffle_epi8(Load<false>((__m128i*)(src + 24)), K8_RGB_TO_BGRA)), scale, shift);
+            StoreScaled<false>(dst + 3 * F, BgraToGray32(_mm_shuffle_epi8(_mm_srli_si128(Load<false>((__m128i*)(src + 32)), 4), K8_RGB_TO_BGRA)), scale, shift);
+        }
+
+        template<> SIMD_INLINE void SynetSetInput1<SimdPixelFormatRgba32>(const uint8_t* src, __m128 scale, __m128 shift, float* dst)
+        {
+            StoreScaled<false>(dst + 0 * F, RgbaToGray32(Load<false>((__m128i*)src + 0)), scale, shift);
+            StoreScaled<false>(dst + 1 * F, RgbaToGray32(Load<false>((__m128i*)src + 1)), scale, shift);
+            StoreScaled<false>(dst + 2 * F, RgbaToGray32(Load<false>((__m128i*)src + 2)), scale, shift);
+            StoreScaled<false>(dst + 3 * F, RgbaToGray32(Load<false>((__m128i*)src + 3)), scale, shift);
         }
 
         template<SimdPixelFormatType format, size_t step> void SynetSetInput1(const uint8_t * src, size_t width, size_t height, size_t stride, const float * scale, const float * shift, float * dst)
@@ -410,6 +429,22 @@ namespace Simd
             SynetSetInput1Gray8(BgrToBlue(_rgb), scale[2], shift[2], dst + 2 * channel);
         }
 
+        SIMD_INLINE void SynetSetInputNchw3Rgba32(const uint8_t* src, const __m128* scale, const __m128* shift, float* dst, size_t channel)
+        {
+            __m128i rgba = Load<false>((__m128i*)src);
+            StoreScaled<false>(dst + 0 * channel, _mm_and_si128(_mm_srli_si128(rgba, 2), K32_000000FF), scale[0], shift[0]);
+            StoreScaled<false>(dst + 1 * channel, _mm_and_si128(_mm_srli_si128(rgba, 1), K32_000000FF), scale[1], shift[1]);
+            StoreScaled<false>(dst + 2 * channel, _mm_and_si128(_mm_srli_si128(rgba, 0), K32_000000FF), scale[2], shift[2]);
+        }
+
+        template<> SIMD_INLINE void SynetSetInputNchw3<SimdPixelFormatRgba32>(const uint8_t* src, const __m128* scale, const __m128* shift, float* dst, size_t channel)
+        {
+            SynetSetInputNchw3Rgba32(src + 0 * A, scale, shift, dst + 0 * F, channel);
+            SynetSetInputNchw3Rgba32(src + 1 * A, scale, shift, dst + 1 * F, channel);
+            SynetSetInputNchw3Rgba32(src + 2 * A, scale, shift, dst + 2 * F, channel);
+            SynetSetInputNchw3Rgba32(src + 3 * A, scale, shift, dst + 3 * F, channel);
+        }
+
         template<SimdPixelFormatType format, size_t step> void SynetSetInputNchw3(const uint8_t * src, size_t width, size_t height, size_t stride, const float * scale, const float * shift, float * dst)
         {
             size_t aligned = AlignLo(width, A), channel = width * height;
@@ -471,34 +506,28 @@ namespace Simd
             StoreScaled<false>(dst + 0xB * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr2, 0xC)), scale[2], shift[2]);
         }
 
-        const __m128i K8_BGRA_TO_BGR_00 = SIMD_MM_SETR_EPI8(0x0, 0x1, 0x2, 0x4, 0x5, 0x6, 0x8, 0x9, 0xA, 0xC, 0xD, 0xE, -1, -1, -1, -1);
-        const __m128i K8_BGRA_TO_BGR_01 = SIMD_MM_SETR_EPI8(-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 0x0, 0x1, 0x2, 0x4);
-        const __m128i K8_BGRA_TO_BGR_10 = SIMD_MM_SETR_EPI8(0x5, 0x6, 0x8, 0x9, 0xA, 0xC, 0xD, 0xE, -1, -1, -1, -1, -1, -1, -1, -1);
-        const __m128i K8_BGRA_TO_BGR_11 = SIMD_MM_SETR_EPI8(-1, -1, -1, -1, -1, -1, -1, -1, 0x0, 0x1, 0x2, 0x4, 0x5, 0x6, 0x8, 0x9);
-        const __m128i K8_BGRA_TO_BGR_20 = SIMD_MM_SETR_EPI8(0xA, 0xC, 0xD, 0xE, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1);
-        const __m128i K8_BGRA_TO_BGR_21 = SIMD_MM_SETR_EPI8(-1, -1, -1, -1, 0x0, 0x1, 0x2, 0x4, 0x5, 0x6, 0x8, 0x9, 0xA, 0xC, 0xD, 0xE);
+        const __m128i K8_BGRA_UNPACK_0 = SIMD_MM_SETR_EPI8(0x0, -1, -1, -1, 0x1, -1, -1, -1, 0x2, -1, -1, -1, 0x4, -1, -1, -1);
+        const __m128i K8_BGRA_UNPACK_1 = SIMD_MM_SETR_EPI8(0x5, -1, -1, -1, 0x6, -1, -1, -1, 0x8, -1, -1, -1, 0x9, -1, -1, -1);
+        const __m128i K8_BGRA_UNPACK_2 = SIMD_MM_SETR_EPI8(0xA, -1, -1, -1, 0xC, -1, -1, -1, 0xD, -1, -1, -1, 0xE, -1, -1, -1);
 
         template<> SIMD_INLINE void SynetSetInputNhwc3<SimdPixelFormatBgra32>(const uint8_t * src, const __m128 * scale, const __m128 * shift, float * dst)
         {
             __m128i bgra0 = Load<false>((__m128i*)src + 0);
+            StoreScaled<false>(dst + 0x0 * F, _mm_shuffle_epi8(bgra0, K8_BGRA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x1 * F, _mm_shuffle_epi8(bgra0, K8_BGRA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x2 * F, _mm_shuffle_epi8(bgra0, K8_BGRA_UNPACK_2), scale[2], shift[2]);
             __m128i bgra1 = Load<false>((__m128i*)src + 1);
+            StoreScaled<false>(dst + 0x3 * F, _mm_shuffle_epi8(bgra1, K8_BGRA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x4 * F, _mm_shuffle_epi8(bgra1, K8_BGRA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x5 * F, _mm_shuffle_epi8(bgra1, K8_BGRA_UNPACK_2), scale[2], shift[2]);
             __m128i bgra2 = Load<false>((__m128i*)src + 2);
+            StoreScaled<false>(dst + 0x6 * F, _mm_shuffle_epi8(bgra2, K8_BGRA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x7 * F, _mm_shuffle_epi8(bgra2, K8_BGRA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x8 * F, _mm_shuffle_epi8(bgra2, K8_BGRA_UNPACK_2), scale[2], shift[2]);
             __m128i bgra3 = Load<false>((__m128i*)src + 3);
-            __m128i bgr0 = _mm_or_si128(_mm_shuffle_epi8(bgra0, K8_BGRA_TO_BGR_00), _mm_shuffle_epi8(bgra1, K8_BGRA_TO_BGR_01));
-            StoreScaled<false>(dst + 0x0 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr0, 0x0)), scale[0], shift[0]);
-            StoreScaled<false>(dst + 0x1 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr0, 0x4)), scale[1], shift[1]);
-            StoreScaled<false>(dst + 0x2 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr0, 0x8)), scale[2], shift[2]);
-            StoreScaled<false>(dst + 0x3 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr0, 0xC)), scale[0], shift[0]);
-            __m128i bgr1 = _mm_or_si128(_mm_shuffle_epi8(bgra1, K8_BGRA_TO_BGR_10), _mm_shuffle_epi8(bgra2, K8_BGRA_TO_BGR_11));
-            StoreScaled<false>(dst + 0x4 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr1, 0x0)), scale[1], shift[1]);
-            StoreScaled<false>(dst + 0x5 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr1, 0x4)), scale[2], shift[2]);
-            StoreScaled<false>(dst + 0x6 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr1, 0x8)), scale[0], shift[0]);
-            StoreScaled<false>(dst + 0x7 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr1, 0xC)), scale[1], shift[1]);
-            __m128i bgr2 = _mm_or_si128(_mm_shuffle_epi8(bgra2, K8_BGRA_TO_BGR_20), _mm_shuffle_epi8(bgra3, K8_BGRA_TO_BGR_21));
-            StoreScaled<false>(dst + 0x8 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr2, 0x0)), scale[2], shift[2]);
-            StoreScaled<false>(dst + 0x9 * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr2, 0x4)), scale[0], shift[0]);
-            StoreScaled<false>(dst + 0xA * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr2, 0x8)), scale[1], shift[1]);
-            StoreScaled<false>(dst + 0xB * F, _mm_cvtepu8_epi32(_mm_srli_si128(bgr2, 0xC)), scale[2], shift[2]);
+            StoreScaled<false>(dst + 0x9 * F, _mm_shuffle_epi8(bgra3, K8_BGRA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0xA * F, _mm_shuffle_epi8(bgra3, K8_BGRA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0xB * F, _mm_shuffle_epi8(bgra3, K8_BGRA_UNPACK_2), scale[2], shift[2]);
         }
 
         const __m128i K8_RGB_UNPACK_0 = SIMD_MM_SETR_EPI8(0x2, -1, -1, -1, 0x1, -1, -1, -1, 0x0, -1, -1, -1, 0x5, -1, -1, -1);
@@ -525,6 +554,30 @@ namespace Simd
             StoreScaled<false>(dst + 0xB * F, _mm_shuffle_epi8(bgr3, K8_RGB_UNPACK_2), scale[2], shift[2]);
         }
 
+        const __m128i K8_RGBA_UNPACK_0 = SIMD_MM_SETR_EPI8(0x2, -1, -1, -1, 0x1, -1, -1, -1, 0x0, -1, -1, -1, 0x6, -1, -1, -1);
+        const __m128i K8_RGBA_UNPACK_1 = SIMD_MM_SETR_EPI8(0x5, -1, -1, -1, 0x4, -1, -1, -1, 0xA, -1, -1, -1, 0x9, -1, -1, -1);
+        const __m128i K8_RGBA_UNPACK_2 = SIMD_MM_SETR_EPI8(0x8, -1, -1, -1, 0xE, -1, -1, -1, 0xD, -1, -1, -1, 0xC, -1, -1, -1);
+
+        template<> SIMD_INLINE void SynetSetInputNhwc3<SimdPixelFormatRgba32>(const uint8_t* src, const __m128* scale, const __m128* shift, float* dst)
+        {
+            __m128i rgba0 = Load<false>((__m128i*)src + 0);
+            StoreScaled<false>(dst + 0x0 * F, _mm_shuffle_epi8(rgba0, K8_RGBA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x1 * F, _mm_shuffle_epi8(rgba0, K8_RGBA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x2 * F, _mm_shuffle_epi8(rgba0, K8_RGBA_UNPACK_2), scale[2], shift[2]);
+            __m128i rgba1 = Load<false>((__m128i*)src + 1);
+            StoreScaled<false>(dst + 0x3 * F, _mm_shuffle_epi8(rgba1, K8_RGBA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x4 * F, _mm_shuffle_epi8(rgba1, K8_RGBA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x5 * F, _mm_shuffle_epi8(rgba1, K8_RGBA_UNPACK_2), scale[2], shift[2]);
+            __m128i rgba2 = Load<false>((__m128i*)src + 2);
+            StoreScaled<false>(dst + 0x6 * F, _mm_shuffle_epi8(rgba2, K8_RGBA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0x7 * F, _mm_shuffle_epi8(rgba2, K8_RGBA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0x8 * F, _mm_shuffle_epi8(rgba2, K8_RGBA_UNPACK_2), scale[2], shift[2]);
+            __m128i rgba3 = Load<false>((__m128i*)src + 3);
+            StoreScaled<false>(dst + 0x9 * F, _mm_shuffle_epi8(rgba3, K8_RGBA_UNPACK_0), scale[0], shift[0]);
+            StoreScaled<false>(dst + 0xA * F, _mm_shuffle_epi8(rgba3, K8_RGBA_UNPACK_1), scale[1], shift[1]);
+            StoreScaled<false>(dst + 0xB * F, _mm_shuffle_epi8(rgba3, K8_RGBA_UNPACK_2), scale[2], shift[2]);
+        }
+
         template<SimdPixelFormatType format, size_t step> void SynetSetInputNhwc3(const uint8_t * src, size_t width, size_t height, size_t stride, const float * scale, const float * shift, float * dst)
         {
             size_t aligned = AlignLo(width, A);
@@ -563,6 +616,7 @@ namespace Simd
                 case SimdPixelFormatBgr24: SynetSetInput1<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                 case SimdPixelFormatBgra32: SynetSetInput1<SimdPixelFormatBgra32, 4>(src, width, height, stride, scale, lower, dst); return;
                 case SimdPixelFormatRgb24: SynetSetInput1<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                case SimdPixelFormatRgba32: SynetSetInput1<SimdPixelFormatRgba32, 4>(src, width, height, stride, scale, lower, dst); return;
                 default: assert(0);
                 }
                 break;
@@ -576,6 +630,7 @@ namespace Simd
                     case SimdPixelFormatBgr24: SynetSetInputNchw3<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatBgra32: SynetSetInputNchw3<SimdPixelFormatBgra32, 4>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatRgb24: SynetSetInputNchw3<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                    case SimdPixelFormatRgba32: SynetSetInputNchw3<SimdPixelFormatRgba32, 4>(src, width, height, stride, scale, lower, dst); return;
                     default: assert(0);
                     }
                     break;
@@ -583,9 +638,10 @@ namespace Simd
                     switch (srcFormat)
                     {
                     case SimdPixelFormatGray8: SynetSetInputNhwc3<SimdPixelFormatGray8, 1>(src, width, height, stride, scale, lower, dst); return;
-                    case SimdPixelFormatBgr24: SynetSetInputNhwc3<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); break;
+                    case SimdPixelFormatBgr24: SynetSetInputNhwc3<SimdPixelFormatBgr24, 3>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatBgra32: SynetSetInputNhwc3<SimdPixelFormatBgra32, 4>(src, width, height, stride, scale, lower, dst); return;
                     case SimdPixelFormatRgb24: SynetSetInputNhwc3<SimdPixelFormatRgb24, 3>(src, width, height, stride, scale, lower, dst); return;
+                    case SimdPixelFormatRgba32: SynetSetInputNhwc3<SimdPixelFormatRgba32, 4>(src, width, height, stride, scale, lower, dst); return;
                     default: assert(0);
                     }
                     break;
diff --git a/src/Test/TestSynetConversion.cpp b/src/Test/TestSynetConversion.cpp
index 7ae2b2a7a2..09a81eaff8 100644
--- a/src/Test/TestSynetConversion.cpp
+++ b/src/Test/TestSynetConversion.cpp
@@ -283,7 +283,7 @@ namespace Test
     {
         bool result = true;
 
-        View::Format srcFormat[4] = { View::Gray8, View::Bgr24, View::Bgra32, View::Rgb24 };
+        View::Format srcFormat[5] = { View::Gray8, View::Bgr24, View::Bgra32, View::Rgb24, View::Rgba32 };
         size_t channels[2] = { 1, 3 };
         SimdTensorFormatType dstFormat[2] = { SimdTensorFormatNchw, SimdTensorFormatNhwc };
 

def SynetSetInput	(	Image	src,
			lower,
			upper,
		ctypes.c_void_p	dst,
		int	channels,
		Simd.TensorFormat	format
	)
src	- an input image. There are following supported pixel format: aSimd.PixelFormat.Gray8, Simd.PixelFormat.Bgr24, Simd.PixelFormat.Bgra32, Simd.PixelFormat.Rgb24.
lower	- an array with lower bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor.
upper	- an array with upper bound of values of the output tensor. The size of the array have to correspond number of channels in the output image tensor.
dst	- a pointer to the output 32-bit float image tensor.
channels	- a number of channels in the output image tensor. It can be 1 or 3.
format	- a format of output image tensor. There are supported following tensor formats: Simd.TensorFormat.Nchw, Simd.TensorFormat.Nhwc.