COSMETICS: tabs --> spaces, some prettyprinting

Originally committed as revision 4764 to svn://svn.ffmpeg.org/ffmpeg/trunk
author: Diego Biurrun <diego@biurrun.de> 2005-12-22 01:10:11 +0000
committer: Diego Biurrun <diego@biurrun.de> 2005-12-22 01:10:11 +0000
commit: bb270c0896b39e1ae9277355e3c120ed3feb64a3 (patch)
tree: fc2fc2b1216d19acb3879abb6ea5a3b400f43fe4 /libavcodec/i386
parent: 50827fcf44f34521df4708cdb633809b56fb9df3 (diff)
13 files changed, 4428 insertions, 4428 deletions
diff --git a/libavcodec/i386/cputest.c b/libavcodec/i386/cputest.c
index f02c63d449..64656c65a5 100644
--- a/libavcodec/i386/cputest.c
+++ b/libavcodec/i386/cputest.c
@@ -15,7 +15,7 @@
 /* ebx saving is necessary for PIC. gcc seems unable to see it alone */
 #define cpuid(index,eax,ebx,ecx,edx)\
     __asm __volatile\
-	("mov %%"REG_b", %%"REG_S"\n\t"\
+        ("mov %%"REG_b", %%"REG_S"\n\t"\
          "cpuid\n\t"\
          "xchg %%"REG_b", %%"REG_S\
          : "=a" (eax), "=S" (ebx),\
@@ -89,8 +89,8 @@ int mm_support(void)
                edx == 0x48727561 &&
                ecx == 0x736c7561) {  /*  "CentaurHauls" */
         /* VIA C3 */
-	if(ext_caps & (1<<24))
-	  rval |= MM_MMXEXT;
+        if(ext_caps & (1<<24))
+          rval |= MM_MMXEXT;
     } else if (ebx == 0x69727943 &&
                edx == 0x736e4978 &&
                ecx == 0x64616574) {
diff --git a/libavcodec/i386/dsputil_mmx.c b/libavcodec/i386/dsputil_mmx.c
index 7566b5d16a..ffdeafde72 100644
--- a/libavcodec/i386/dsputil_mmx.c
+++ b/libavcodec/i386/dsputil_mmx.c
@@ -89,56 +89,56 @@ static const uint64_t ff_pb_FC attribute_used __attribute__ ((aligned(8))) = 0xF
 // first argument is unmodifed and second is trashed
 // regfe is supposed to contain 0xfefefefefefefefe
 #define PAVGB_MMX_NO_RND(rega, regb, regr, regfe) \
-    "movq " #rega ", " #regr "	\n\t"\
-    "pand " #regb ", " #regr "	\n\t"\
-    "pxor " #rega ", " #regb "	\n\t"\
-    "pand " #regfe "," #regb "	\n\t"\
-    "psrlq $1, " #regb " 	\n\t"\
-    "paddb " #regb ", " #regr "	\n\t"
+    "movq " #rega ", " #regr "  \n\t"\
+    "pand " #regb ", " #regr "  \n\t"\
+    "pxor " #rega ", " #regb "  \n\t"\
+    "pand " #regfe "," #regb "  \n\t"\
+    "psrlq $1, " #regb "        \n\t"\
+    "paddb " #regb ", " #regr " \n\t"
 
 #define PAVGB_MMX(rega, regb, regr, regfe) \
-    "movq " #rega ", " #regr "	\n\t"\
-    "por  " #regb ", " #regr "	\n\t"\
-    "pxor " #rega ", " #regb "	\n\t"\
-    "pand " #regfe "," #regb "	\n\t"\
-    "psrlq $1, " #regb "	\n\t"\
-    "psubb " #regb ", " #regr "	\n\t"
+    "movq " #rega ", " #regr "  \n\t"\
+    "por  " #regb ", " #regr "  \n\t"\
+    "pxor " #rega ", " #regb "  \n\t"\
+    "pand " #regfe "," #regb "  \n\t"\
+    "psrlq $1, " #regb "        \n\t"\
+    "psubb " #regb ", " #regr " \n\t"
 
 // mm6 is supposed to contain 0xfefefefefefefefe
 #define PAVGBP_MMX_NO_RND(rega, regb, regr,  regc, regd, regp) \
-    "movq " #rega ", " #regr "	\n\t"\
-    "movq " #regc ", " #regp "	\n\t"\
-    "pand " #regb ", " #regr "	\n\t"\
-    "pand " #regd ", " #regp "	\n\t"\
-    "pxor " #rega ", " #regb "	\n\t"\
-    "pxor " #regc ", " #regd "	\n\t"\
-    "pand %%mm6, " #regb "	\n\t"\
-    "pand %%mm6, " #regd "	\n\t"\
-    "psrlq $1, " #regb " 	\n\t"\
-    "psrlq $1, " #regd " 	\n\t"\
-    "paddb " #regb ", " #regr "	\n\t"\
-    "paddb " #regd ", " #regp "	\n\t"
+    "movq " #rega ", " #regr "  \n\t"\
+    "movq " #regc ", " #regp "  \n\t"\
+    "pand " #regb ", " #regr "  \n\t"\
+    "pand " #regd ", " #regp "  \n\t"\
+    "pxor " #rega ", " #regb "  \n\t"\
+    "pxor " #regc ", " #regd "  \n\t"\
+    "pand %%mm6, " #regb "      \n\t"\
+    "pand %%mm6, " #regd "      \n\t"\
+    "psrlq $1, " #regb "        \n\t"\
+    "psrlq $1, " #regd "        \n\t"\
+    "paddb " #regb ", " #regr " \n\t"\
+    "paddb " #regd ", " #regp " \n\t"
 
 #define PAVGBP_MMX(rega, regb, regr, regc, regd, regp) \
-    "movq " #rega ", " #regr "	\n\t"\
-    "movq " #regc ", " #regp "	\n\t"\
-    "por  " #regb ", " #regr "	\n\t"\
-    "por  " #regd ", " #regp "	\n\t"\
-    "pxor " #rega ", " #regb "	\n\t"\
-    "pxor " #regc ", " #regd "	\n\t"\
-    "pand %%mm6, " #regb "     	\n\t"\
-    "pand %%mm6, " #regd "     	\n\t"\
-    "psrlq $1, " #regd "	\n\t"\
-    "psrlq $1, " #regb "	\n\t"\
-    "psubb " #regb ", " #regr "	\n\t"\
-    "psubb " #regd ", " #regp "	\n\t"
+    "movq " #rega ", " #regr "  \n\t"\
+    "movq " #regc ", " #regp "  \n\t"\
+    "por  " #regb ", " #regr "  \n\t"\
+    "por  " #regd ", " #regp "  \n\t"\
+    "pxor " #rega ", " #regb "  \n\t"\
+    "pxor " #regc ", " #regd "  \n\t"\
+    "pand %%mm6, " #regb "      \n\t"\
+    "pand %%mm6, " #regd "      \n\t"\
+    "psrlq $1, " #regd "        \n\t"\
+    "psrlq $1, " #regb "        \n\t"\
+    "psubb " #regb ", " #regr " \n\t"\
+    "psubb " #regd ", " #regp " \n\t"
 
 /***********************************/
 /* MMX no rounding */
 #define DEF(x, y) x ## _no_rnd_ ## y ##_mmx
 #define SET_RND  MOVQ_WONE
-#define PAVGBP(a, b, c, d, e, f)	PAVGBP_MMX_NO_RND(a, b, c, d, e, f)
-#define PAVGB(a, b, c, e)		PAVGB_MMX_NO_RND(a, b, c, e)
+#define PAVGBP(a, b, c, d, e, f)        PAVGBP_MMX_NO_RND(a, b, c, d, e, f)
+#define PAVGB(a, b, c, e)               PAVGB_MMX_NO_RND(a, b, c, e)
 
 #include "dsputil_mmx_rnd.h"
 
@@ -151,8 +151,8 @@ static const uint64_t ff_pb_FC attribute_used __attribute__ ((aligned(8))) = 0xF
 
 #define DEF(x, y) x ## _ ## y ##_mmx
 #define SET_RND  MOVQ_WTWO
-#define PAVGBP(a, b, c, d, e, f)	PAVGBP_MMX(a, b, c, d, e, f)
-#define PAVGB(a, b, c, e)		PAVGB_MMX(a, b, c, e)
+#define PAVGBP(a, b, c, d, e, f)        PAVGBP_MMX(a, b, c, d, e, f)
+#define PAVGB(a, b, c, e)               PAVGB_MMX(a, b, c, e)
 
 #include "dsputil_mmx_rnd.h"
 
@@ -193,25 +193,25 @@ static const uint64_t ff_pb_FC attribute_used __attribute__ ((aligned(8))) = 0xF
 static void get_pixels_mmx(DCTELEM *block, const uint8_t *pixels, int line_size)
 {
     asm volatile(
-        "mov $-128, %%"REG_a"	\n\t"
-        "pxor %%mm7, %%mm7	\n\t"
-        ".balign 16		\n\t"
-        "1:			\n\t"
-        "movq (%0), %%mm0	\n\t"
-        "movq (%0, %2), %%mm2	\n\t"
-        "movq %%mm0, %%mm1	\n\t"
-        "movq %%mm2, %%mm3	\n\t"
-        "punpcklbw %%mm7, %%mm0	\n\t"
-        "punpckhbw %%mm7, %%mm1	\n\t"
-        "punpcklbw %%mm7, %%mm2	\n\t"
-        "punpckhbw %%mm7, %%mm3	\n\t"
-        "movq %%mm0, (%1, %%"REG_a")\n\t"
-        "movq %%mm1, 8(%1, %%"REG_a")\n\t"
-        "movq %%mm2, 16(%1, %%"REG_a")\n\t"
-        "movq %%mm3, 24(%1, %%"REG_a")\n\t"
-        "add %3, %0		\n\t"
-        "add $32, %%"REG_a"	\n\t"
-        "js 1b			\n\t"
+        "mov $-128, %%"REG_a"           \n\t"
+        "pxor %%mm7, %%mm7              \n\t"
+        ".balign 16                     \n\t"
+        "1:                             \n\t"
+        "movq (%0), %%mm0               \n\t"
+        "movq (%0, %2), %%mm2           \n\t"
+        "movq %%mm0, %%mm1              \n\t"
+        "movq %%mm2, %%mm3              \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "punpcklbw %%mm7, %%mm2         \n\t"
+        "punpckhbw %%mm7, %%mm3         \n\t"
+        "movq %%mm0, (%1, %%"REG_a")    \n\t"
+        "movq %%mm1, 8(%1, %%"REG_a")   \n\t"
+        "movq %%mm2, 16(%1, %%"REG_a")  \n\t"
+        "movq %%mm3, 24(%1, %%"REG_a")  \n\t"
+        "add %3, %0                     \n\t"
+        "add $32, %%"REG_a"             \n\t"
+        "js 1b                          \n\t"
         : "+r" (pixels)
         : "r" (block+64), "r" ((long)line_size), "r" ((long)line_size*2)
         : "%"REG_a
@@ -221,26 +221,26 @@ static void get_pixels_mmx(DCTELEM *block, const uint8_t *pixels, int line_size)
 static inline void diff_pixels_mmx(DCTELEM *block, const uint8_t *s1, const uint8_t *s2, int stride)
 {
     asm volatile(
-        "pxor %%mm7, %%mm7	\n\t"
-        "mov $-128, %%"REG_a"	\n\t"
-        ".balign 16		\n\t"
-        "1:			\n\t"
-        "movq (%0), %%mm0	\n\t"
-        "movq (%1), %%mm2	\n\t"
-        "movq %%mm0, %%mm1	\n\t"
-        "movq %%mm2, %%mm3	\n\t"
-        "punpcklbw %%mm7, %%mm0	\n\t"
-        "punpckhbw %%mm7, %%mm1	\n\t"
-        "punpcklbw %%mm7, %%mm2	\n\t"
-        "punpckhbw %%mm7, %%mm3	\n\t"
-        "psubw %%mm2, %%mm0	\n\t"
-        "psubw %%mm3, %%mm1	\n\t"
-        "movq %%mm0, (%2, %%"REG_a")\n\t"
-        "movq %%mm1, 8(%2, %%"REG_a")\n\t"
-        "add %3, %0		\n\t"
-        "add %3, %1		\n\t"
-        "add $16, %%"REG_a"	\n\t"
-        "jnz 1b			\n\t"
+        "pxor %%mm7, %%mm7              \n\t"
+        "mov $-128, %%"REG_a"           \n\t"
+        ".balign 16                     \n\t"
+        "1:                             \n\t"
+        "movq (%0), %%mm0               \n\t"
+        "movq (%1), %%mm2               \n\t"
+        "movq %%mm0, %%mm1              \n\t"
+        "movq %%mm2, %%mm3              \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "punpcklbw %%mm7, %%mm2         \n\t"
+        "punpckhbw %%mm7, %%mm3         \n\t"
+        "psubw %%mm2, %%mm0             \n\t"
+        "psubw %%mm3, %%mm1             \n\t"
+        "movq %%mm0, (%2, %%"REG_a")    \n\t"
+        "movq %%mm1, 8(%2, %%"REG_a")   \n\t"
+        "add %3, %0                     \n\t"
+        "add %3, %1                     \n\t"
+        "add $16, %%"REG_a"             \n\t"
+        "jnz 1b                         \n\t"
         : "+r" (s1), "+r" (s2)
         : "r" (block+64), "r" ((long)stride)
         : "%"REG_a
@@ -257,25 +257,25 @@ void put_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels, int line_size
     p = block;
     pix = pixels;
     /* unrolled loop */
-	__asm __volatile(
-		"movq	%3, %%mm0\n\t"
-		"movq	8%3, %%mm1\n\t"
-		"movq	16%3, %%mm2\n\t"
-		"movq	24%3, %%mm3\n\t"
-		"movq	32%3, %%mm4\n\t"
-		"movq	40%3, %%mm5\n\t"
-		"movq	48%3, %%mm6\n\t"
-		"movq	56%3, %%mm7\n\t"
-		"packuswb %%mm1, %%mm0\n\t"
-		"packuswb %%mm3, %%mm2\n\t"
-		"packuswb %%mm5, %%mm4\n\t"
-		"packuswb %%mm7, %%mm6\n\t"
-		"movq	%%mm0, (%0)\n\t"
-		"movq	%%mm2, (%0, %1)\n\t"
-		"movq	%%mm4, (%0, %1, 2)\n\t"
-		"movq	%%mm6, (%0, %2)\n\t"
-		::"r" (pix), "r" ((long)line_size), "r" ((long)line_size*3), "m"(*p)
-		:"memory");
+        __asm __volatile(
+                "movq   %3, %%mm0               \n\t"
+                "movq   8%3, %%mm1              \n\t"
+                "movq   16%3, %%mm2             \n\t"
+                "movq   24%3, %%mm3             \n\t"
+                "movq   32%3, %%mm4             \n\t"
+                "movq   40%3, %%mm5             \n\t"
+                "movq   48%3, %%mm6             \n\t"
+                "movq   56%3, %%mm7             \n\t"
+                "packuswb %%mm1, %%mm0          \n\t"
+                "packuswb %%mm3, %%mm2          \n\t"
+                "packuswb %%mm5, %%mm4          \n\t"
+                "packuswb %%mm7, %%mm6          \n\t"
+                "movq   %%mm0, (%0)             \n\t"
+                "movq   %%mm2, (%0, %1)         \n\t"
+                "movq   %%mm4, (%0, %1, 2)      \n\t"
+                "movq   %%mm6, (%0, %2)         \n\t"
+                ::"r" (pix), "r" ((long)line_size), "r" ((long)line_size*3), "m"(*p)
+                :"memory");
         pix += line_size*4;
         p += 32;
 
@@ -283,24 +283,24 @@ void put_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels, int line_size
     // compiler would generate some very strange code
     // thus using "r"
     __asm __volatile(
-	    "movq	(%3), %%mm0\n\t"
-	    "movq	8(%3), %%mm1\n\t"
-	    "movq	16(%3), %%mm2\n\t"
-	    "movq	24(%3), %%mm3\n\t"
-	    "movq	32(%3), %%mm4\n\t"
-	    "movq	40(%3), %%mm5\n\t"
-	    "movq	48(%3), %%mm6\n\t"
-	    "movq	56(%3), %%mm7\n\t"
-	    "packuswb %%mm1, %%mm0\n\t"
-	    "packuswb %%mm3, %%mm2\n\t"
-	    "packuswb %%mm5, %%mm4\n\t"
-	    "packuswb %%mm7, %%mm6\n\t"
-	    "movq	%%mm0, (%0)\n\t"
-	    "movq	%%mm2, (%0, %1)\n\t"
-	    "movq	%%mm4, (%0, %1, 2)\n\t"
-	    "movq	%%mm6, (%0, %2)\n\t"
-	    ::"r" (pix), "r" ((long)line_size), "r" ((long)line_size*3), "r"(p)
-	    :"memory");
+            "movq       (%3), %%mm0             \n\t"
+            "movq       8(%3), %%mm1            \n\t"
+            "movq       16(%3), %%mm2           \n\t"
+            "movq       24(%3), %%mm3           \n\t"
+            "movq       32(%3), %%mm4           \n\t"
+            "movq       40(%3), %%mm5           \n\t"
+            "movq       48(%3), %%mm6           \n\t"
+            "movq       56(%3), %%mm7           \n\t"
+            "packuswb %%mm1, %%mm0              \n\t"
+            "packuswb %%mm3, %%mm2              \n\t"
+            "packuswb %%mm5, %%mm4              \n\t"
+            "packuswb %%mm7, %%mm6              \n\t"
+            "movq       %%mm0, (%0)             \n\t"
+            "movq       %%mm2, (%0, %1)         \n\t"
+            "movq       %%mm4, (%0, %1, 2)      \n\t"
+            "movq       %%mm6, (%0, %2)         \n\t"
+            ::"r" (pix), "r" ((long)line_size), "r" ((long)line_size*3), "r"(p)
+            :"memory");
 }
 
 static const unsigned char __align8 vector128[8] =
@@ -333,30 +333,30 @@ void add_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels, int line_size
     MOVQ_ZERO(mm7);
     i = 4;
     do {
-	__asm __volatile(
-		"movq	(%2), %%mm0\n\t"
-		"movq	8(%2), %%mm1\n\t"
-		"movq	16(%2), %%mm2\n\t"
-		"movq	24(%2), %%mm3\n\t"
-		"movq	%0, %%mm4\n\t"
-		"movq	%1, %%mm6\n\t"
-		"movq	%%mm4, %%mm5\n\t"
-		"punpcklbw %%mm7, %%mm4\n\t"
-		"punpckhbw %%mm7, %%mm5\n\t"
-		"paddsw	%%mm4, %%mm0\n\t"
-		"paddsw	%%mm5, %%mm1\n\t"
-		"movq	%%mm6, %%mm5\n\t"
-		"punpcklbw %%mm7, %%mm6\n\t"
-		"punpckhbw %%mm7, %%mm5\n\t"
-		"paddsw	%%mm6, %%mm2\n\t"
-		"paddsw	%%mm5, %%mm3\n\t"
-		"packuswb %%mm1, %%mm0\n\t"
-		"packuswb %%mm3, %%mm2\n\t"
-		"movq	%%mm0, %0\n\t"
-		"movq	%%mm2, %1\n\t"
-		:"+m"(*pix), "+m"(*(pix+line_size))
-		:"r"(p)
-		:"memory");
+        __asm __volatile(
+                "movq   (%2), %%mm0     \n\t"
+                "movq   8(%2), %%mm1    \n\t"
+                "movq   16(%2), %%mm2   \n\t"
+                "movq   24(%2), %%mm3   \n\t"
+                "movq   %0, %%mm4       \n\t"
+                "movq   %1, %%mm6       \n\t"
+                "movq   %%mm4, %%mm5    \n\t"
+                "punpcklbw %%mm7, %%mm4 \n\t"
+                "punpckhbw %%mm7, %%mm5 \n\t"
+                "paddsw %%mm4, %%mm0    \n\t"
+                "paddsw %%mm5, %%mm1    \n\t"
+                "movq   %%mm6, %%mm5    \n\t"
+                "punpcklbw %%mm7, %%mm6 \n\t"
+                "punpckhbw %%mm7, %%mm5 \n\t"
+                "paddsw %%mm6, %%mm2    \n\t"
+                "paddsw %%mm5, %%mm3    \n\t"
+                "packuswb %%mm1, %%mm0  \n\t"
+                "packuswb %%mm3, %%mm2  \n\t"
+                "movq   %%mm0, %0       \n\t"
+                "movq   %%mm2, %1       \n\t"
+                :"+m"(*pix), "+m"(*(pix+line_size))
+                :"r"(p)
+                :"memory");
         pix += line_size*2;
         p += 16;
     } while (--i);
@@ -365,101 +365,101 @@ void add_pixels_clamped_mmx(const DCTELEM *block, uint8_t *pixels, int line_size
 static void put_pixels4_mmx(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	 "lea (%3, %3), %%"REG_a"	\n\t"
-	 ".balign 8			\n\t"
-	 "1:				\n\t"
-	 "movd (%1), %%mm0		\n\t"
-	 "movd (%1, %3), %%mm1		\n\t"
-	 "movd %%mm0, (%2)		\n\t"
-	 "movd %%mm1, (%2, %3)		\n\t"
-	 "add %%"REG_a", %1		\n\t"
-	 "add %%"REG_a", %2		\n\t"
-	 "movd (%1), %%mm0		\n\t"
-	 "movd (%1, %3), %%mm1		\n\t"
-	 "movd %%mm0, (%2)		\n\t"
-	 "movd %%mm1, (%2, %3)		\n\t"
-	 "add %%"REG_a", %1		\n\t"
-	 "add %%"REG_a", %2		\n\t"
-	 "subl $4, %0			\n\t"
-	 "jnz 1b			\n\t"
-	 : "+g"(h), "+r" (pixels),  "+r" (block)
-	 : "r"((long)line_size)
-	 : "%"REG_a, "memory"
-	);
+         "lea (%3, %3), %%"REG_a"       \n\t"
+         ".balign 8                     \n\t"
+         "1:                            \n\t"
+         "movd (%1), %%mm0              \n\t"
+         "movd (%1, %3), %%mm1          \n\t"
+         "movd %%mm0, (%2)              \n\t"
+         "movd %%mm1, (%2, %3)          \n\t"
+         "add %%"REG_a", %1             \n\t"
+         "add %%"REG_a", %2             \n\t"
+         "movd (%1), %%mm0              \n\t"
+         "movd (%1, %3), %%mm1          \n\t"
+         "movd %%mm0, (%2)              \n\t"
+         "movd %%mm1, (%2, %3)          \n\t"
+         "add %%"REG_a", %1             \n\t"
+         "add %%"REG_a", %2             \n\t"
+         "subl $4, %0                   \n\t"
+         "jnz 1b                        \n\t"
+         : "+g"(h), "+r" (pixels),  "+r" (block)
+         : "r"((long)line_size)
+         : "%"REG_a, "memory"
+        );
 }
 
 static void put_pixels8_mmx(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	 "lea (%3, %3), %%"REG_a"	\n\t"
-	 ".balign 8			\n\t"
-	 "1:				\n\t"
-	 "movq (%1), %%mm0		\n\t"
-	 "movq (%1, %3), %%mm1		\n\t"
-     	 "movq %%mm0, (%2)		\n\t"
-	 "movq %%mm1, (%2, %3)		\n\t"
-	 "add %%"REG_a", %1		\n\t"
-	 "add %%"REG_a", %2		\n\t"
-	 "movq (%1), %%mm0		\n\t"
-	 "movq (%1, %3), %%mm1		\n\t"
-	 "movq %%mm0, (%2)		\n\t"
-	 "movq %%mm1, (%2, %3)		\n\t"
-	 "add %%"REG_a", %1		\n\t"
-	 "add %%"REG_a", %2		\n\t"
-	 "subl $4, %0			\n\t"
-	 "jnz 1b			\n\t"
-	 : "+g"(h), "+r" (pixels),  "+r" (block)
-	 : "r"((long)line_size)
-	 : "%"REG_a, "memory"
-	);
+         "lea (%3, %3), %%"REG_a"       \n\t"
+         ".balign 8                     \n\t"
+         "1:                            \n\t"
+         "movq (%1), %%mm0              \n\t"
+         "movq (%1, %3), %%mm1          \n\t"
+         "movq %%mm0, (%2)              \n\t"
+         "movq %%mm1, (%2, %3)          \n\t"
+         "add %%"REG_a", %1             \n\t"
+         "add %%"REG_a", %2             \n\t"
+         "movq (%1), %%mm0              \n\t"
+         "movq (%1, %3), %%mm1          \n\t"
+         "movq %%mm0, (%2)              \n\t"
+         "movq %%mm1, (%2, %3)          \n\t"
+         "add %%"REG_a", %1             \n\t"
+         "add %%"REG_a", %2             \n\t"
+         "subl $4, %0                   \n\t"
+         "jnz 1b                        \n\t"
+         : "+g"(h), "+r" (pixels),  "+r" (block)
+         : "r"((long)line_size)
+         : "%"REG_a, "memory"
+        );
 }
 
 static void put_pixels16_mmx(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	 "lea (%3, %3), %%"REG_a"	\n\t"
-	 ".balign 8			\n\t"
-	 "1:				\n\t"
-	 "movq (%1), %%mm0		\n\t"
-	 "movq 8(%1), %%mm4		\n\t"
-	 "movq (%1, %3), %%mm1		\n\t"
-	 "movq 8(%1, %3), %%mm5		\n\t"
-     	 "movq %%mm0, (%2)		\n\t"
-     	 "movq %%mm4, 8(%2)		\n\t"
-	 "movq %%mm1, (%2, %3)		\n\t"
-	 "movq %%mm5, 8(%2, %3)		\n\t"
-	 "add %%"REG_a", %1		\n\t"
-	 "add %%"REG_a", %2       	\n\t"
-	 "movq (%1), %%mm0		\n\t"
-	 "movq 8(%1), %%mm4		\n\t"
-	 "movq (%1, %3), %%mm1		\n\t"
-	 "movq 8(%1, %3), %%mm5		\n\t"
-	 "movq %%mm0, (%2)		\n\t"
-	 "movq %%mm4, 8(%2)		\n\t"
-	 "movq %%mm1, (%2, %3)		\n\t"
-	 "movq %%mm5, 8(%2, %3)		\n\t"
-	 "add %%"REG_a", %1		\n\t"
-	 "add %%"REG_a", %2       	\n\t"
-	 "subl $4, %0			\n\t"
-	 "jnz 1b			\n\t"
-	 : "+g"(h), "+r" (pixels),  "+r" (block)
-	 : "r"((long)line_size)
-	 : "%"REG_a, "memory"
-	);
+         "lea (%3, %3), %%"REG_a"       \n\t"
+         ".balign 8                     \n\t"
+         "1:                            \n\t"
+         "movq (%1), %%mm0              \n\t"
+         "movq 8(%1), %%mm4             \n\t"
+         "movq (%1, %3), %%mm1          \n\t"
+         "movq 8(%1, %3), %%mm5         \n\t"
+         "movq %%mm0, (%2)              \n\t"
+         "movq %%mm4, 8(%2)             \n\t"
+         "movq %%mm1, (%2, %3)          \n\t"
+         "movq %%mm5, 8(%2, %3)         \n\t"
+         "add %%"REG_a", %1             \n\t"
+         "add %%"REG_a", %2             \n\t"
+         "movq (%1), %%mm0              \n\t"
+         "movq 8(%1), %%mm4             \n\t"
+         "movq (%1, %3), %%mm1          \n\t"
+         "movq 8(%1, %3), %%mm5         \n\t"
+         "movq %%mm0, (%2)              \n\t"
+         "movq %%mm4, 8(%2)             \n\t"
+         "movq %%mm1, (%2, %3)          \n\t"
+         "movq %%mm5, 8(%2, %3)         \n\t"
+         "add %%"REG_a", %1             \n\t"
+         "add %%"REG_a", %2             \n\t"
+         "subl $4, %0                   \n\t"
+         "jnz 1b                        \n\t"
+         : "+g"(h), "+r" (pixels),  "+r" (block)
+         : "r"((long)line_size)
+         : "%"REG_a, "memory"
+        );
 }
 
 static void clear_blocks_mmx(DCTELEM *blocks)
 {
     __asm __volatile(
-                "pxor %%mm7, %%mm7		\n\t"
-                "mov $-128*6, %%"REG_a"	\n\t"
-                "1:				\n\t"
-                "movq %%mm7, (%0, %%"REG_a")	\n\t"
-                "movq %%mm7, 8(%0, %%"REG_a")	\n\t"
-                "movq %%mm7, 16(%0, %%"REG_a")	\n\t"
-                "movq %%mm7, 24(%0, %%"REG_a")	\n\t"
-                "add $32, %%"REG_a"		\n\t"
-                " js 1b				\n\t"
+                "pxor %%mm7, %%mm7              \n\t"
+                "mov $-128*6, %%"REG_a"         \n\t"
+                "1:                             \n\t"
+                "movq %%mm7, (%0, %%"REG_a")    \n\t"
+                "movq %%mm7, 8(%0, %%"REG_a")   \n\t"
+                "movq %%mm7, 16(%0, %%"REG_a")  \n\t"
+                "movq %%mm7, 24(%0, %%"REG_a")  \n\t"
+                "add $32, %%"REG_a"             \n\t"
+                " js 1b                         \n\t"
                 : : "r" (((uint8_t *)blocks)+128*6)
                 : "%"REG_a
         );
@@ -472,31 +472,31 @@ static int pix_sum16_mmx(uint8_t * pix, int line_size){
     long index= -line_size*h;
 
     __asm __volatile(
-                "pxor %%mm7, %%mm7		\n\t"
-                "pxor %%mm6, %%mm6		\n\t"
-                "1:				\n\t"
-                "movq (%2, %1), %%mm0		\n\t"
-                "movq (%2, %1), %%mm1		\n\t"
-                "movq 8(%2, %1), %%mm2		\n\t"
-                "movq 8(%2, %1), %%mm3		\n\t"
-                "punpcklbw %%mm7, %%mm0		\n\t"
-                "punpckhbw %%mm7, %%mm1		\n\t"
-                "punpcklbw %%mm7, %%mm2		\n\t"
-                "punpckhbw %%mm7, %%mm3		\n\t"
-                "paddw %%mm0, %%mm1		\n\t"
-                "paddw %%mm2, %%mm3		\n\t"
-                "paddw %%mm1, %%mm3		\n\t"
-                "paddw %%mm3, %%mm6		\n\t"
-                "add %3, %1			\n\t"
-                " js 1b				\n\t"
-                "movq %%mm6, %%mm5		\n\t"
-                "psrlq $32, %%mm6		\n\t"
-                "paddw %%mm5, %%mm6		\n\t"
-                "movq %%mm6, %%mm5		\n\t"
-                "psrlq $16, %%mm6		\n\t"
-                "paddw %%mm5, %%mm6		\n\t"
-                "movd %%mm6, %0			\n\t"
-                "andl $0xFFFF, %0		\n\t"
+                "pxor %%mm7, %%mm7              \n\t"
+                "pxor %%mm6, %%mm6              \n\t"
+                "1:                             \n\t"
+                "movq (%2, %1), %%mm0           \n\t"
+                "movq (%2, %1), %%mm1           \n\t"
+                "movq 8(%2, %1), %%mm2          \n\t"
+                "movq 8(%2, %1), %%mm3          \n\t"
+                "punpcklbw %%mm7, %%mm0         \n\t"
+                "punpckhbw %%mm7, %%mm1         \n\t"
+                "punpcklbw %%mm7, %%mm2         \n\t"
+                "punpckhbw %%mm7, %%mm3         \n\t"
+                "paddw %%mm0, %%mm1             \n\t"
+                "paddw %%mm2, %%mm3             \n\t"
+                "paddw %%mm1, %%mm3             \n\t"
+                "paddw %%mm3, %%mm6             \n\t"
+                "add %3, %1                     \n\t"
+                " js 1b                         \n\t"
+                "movq %%mm6, %%mm5              \n\t"
+                "psrlq $32, %%mm6               \n\t"
+                "paddw %%mm5, %%mm6             \n\t"
+                "movq %%mm6, %%mm5              \n\t"
+                "psrlq $16, %%mm6               \n\t"
+                "paddw %%mm5, %%mm6             \n\t"
+                "movd %%mm6, %0                 \n\t"
+                "andl $0xFFFF, %0               \n\t"
                 : "=&r" (sum), "+r" (index)
                 : "r" (pix - index), "r" ((long)line_size)
         );
@@ -508,18 +508,18 @@ static int pix_sum16_mmx(uint8_t * pix, int line_size){
 static void add_bytes_mmx(uint8_t *dst, uint8_t *src, int w){
     long i=0;
     asm volatile(
-        "1:				\n\t"
-        "movq  (%1, %0), %%mm0		\n\t"
-        "movq  (%2, %0), %%mm1		\n\t"
-        "paddb %%mm0, %%mm1		\n\t"
-        "movq %%mm1, (%2, %0)		\n\t"
-        "movq 8(%1, %0), %%mm0		\n\t"
-        "movq 8(%2, %0), %%mm1		\n\t"
-        "paddb %%mm0, %%mm1		\n\t"
-        "movq %%mm1, 8(%2, %0)		\n\t"
-        "add $16, %0			\n\t"
-        "cmp %3, %0			\n\t"
-        " jb 1b				\n\t"
+        "1:                             \n\t"
+        "movq  (%1, %0), %%mm0          \n\t"
+        "movq  (%2, %0), %%mm1          \n\t"
+        "paddb %%mm0, %%mm1             \n\t"
+        "movq %%mm1, (%2, %0)           \n\t"
+        "movq 8(%1, %0), %%mm0          \n\t"
+        "movq 8(%2, %0), %%mm1          \n\t"
+        "paddb %%mm0, %%mm1             \n\t"
+        "movq %%mm1, 8(%2, %0)          \n\t"
+        "add $16, %0                    \n\t"
+        "cmp %3, %0                     \n\t"
+        " jb 1b                         \n\t"
         : "+r" (i)
         : "r"(src), "r"(dst), "r"((long)w-15)
     );
@@ -528,75 +528,75 @@ static void add_bytes_mmx(uint8_t *dst, uint8_t *src, int w){
 }
 
 #define H263_LOOP_FILTER \
-        "pxor %%mm7, %%mm7		\n\t"\
-        "movq  %0, %%mm0		\n\t"\
-        "movq  %0, %%mm1		\n\t"\
-        "movq  %3, %%mm2		\n\t"\
-        "movq  %3, %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "punpckhbw %%mm7, %%mm1		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpckhbw %%mm7, %%mm3		\n\t"\
-        "psubw %%mm2, %%mm0		\n\t"\
-        "psubw %%mm3, %%mm1		\n\t"\
-        "movq  %1, %%mm2		\n\t"\
-        "movq  %1, %%mm3		\n\t"\
-        "movq  %2, %%mm4		\n\t"\
-        "movq  %2, %%mm5		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpckhbw %%mm7, %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm4		\n\t"\
-        "punpckhbw %%mm7, %%mm5		\n\t"\
-        "psubw %%mm2, %%mm4		\n\t"\
-        "psubw %%mm3, %%mm5		\n\t"\
-        "psllw $2, %%mm4		\n\t"\
-        "psllw $2, %%mm5		\n\t"\
-        "paddw %%mm0, %%mm4		\n\t"\
-        "paddw %%mm1, %%mm5		\n\t"\
-        "pxor %%mm6, %%mm6		\n\t"\
-        "pcmpgtw %%mm4, %%mm6		\n\t"\
-        "pcmpgtw %%mm5, %%mm7		\n\t"\
-        "pxor %%mm6, %%mm4		\n\t"\
-        "pxor %%mm7, %%mm5		\n\t"\
-        "psubw %%mm6, %%mm4		\n\t"\
-        "psubw %%mm7, %%mm5		\n\t"\
-        "psrlw $3, %%mm4		\n\t"\
-        "psrlw $3, %%mm5		\n\t"\
-        "packuswb %%mm5, %%mm4		\n\t"\
-        "packsswb %%mm7, %%mm6		\n\t"\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "movd %4, %%mm2			\n\t"\
-        "punpcklbw %%mm2, %%mm2		\n\t"\
-        "punpcklbw %%mm2, %%mm2		\n\t"\
-        "punpcklbw %%mm2, %%mm2		\n\t"\
-        "psubusb %%mm4, %%mm2		\n\t"\
-        "movq %%mm2, %%mm3		\n\t"\
-        "psubusb %%mm4, %%mm3		\n\t"\
-        "psubb %%mm3, %%mm2		\n\t"\
-        "movq %1, %%mm3			\n\t"\
-        "movq %2, %%mm4			\n\t"\
-        "pxor %%mm6, %%mm3		\n\t"\
-        "pxor %%mm6, %%mm4		\n\t"\
-        "paddusb %%mm2, %%mm3		\n\t"\
-        "psubusb %%mm2, %%mm4		\n\t"\
-        "pxor %%mm6, %%mm3		\n\t"\
-        "pxor %%mm6, %%mm4		\n\t"\
-        "paddusb %%mm2, %%mm2		\n\t"\
-        "packsswb %%mm1, %%mm0		\n\t"\
-        "pcmpgtb %%mm0, %%mm7		\n\t"\
-        "pxor %%mm7, %%mm0		\n\t"\
-        "psubb %%mm7, %%mm0		\n\t"\
-        "movq %%mm0, %%mm1		\n\t"\
-        "psubusb %%mm2, %%mm0		\n\t"\
-        "psubb %%mm0, %%mm1		\n\t"\
-        "pand %5, %%mm1			\n\t"\
-        "psrlw $2, %%mm1		\n\t"\
-        "pxor %%mm7, %%mm1		\n\t"\
-        "psubb %%mm7, %%mm1		\n\t"\
-        "movq %0, %%mm5			\n\t"\
-        "movq %3, %%mm6			\n\t"\
-        "psubb %%mm1, %%mm5		\n\t"\
-        "paddb %%mm1, %%mm6		\n\t"
+        "pxor %%mm7, %%mm7              \n\t"\
+        "movq  %0, %%mm0                \n\t"\
+        "movq  %0, %%mm1                \n\t"\
+        "movq  %3, %%mm2                \n\t"\
+        "movq  %3, %%mm3                \n\t"\
+        "punpcklbw %%mm7, %%mm0         \n\t"\
+        "punpckhbw %%mm7, %%mm1         \n\t"\
+        "punpcklbw %%mm7, %%mm2         \n\t"\
+        "punpckhbw %%mm7, %%mm3         \n\t"\
+        "psubw %%mm2, %%mm0             \n\t"\
+        "psubw %%mm3, %%mm1             \n\t"\
+        "movq  %1, %%mm2                \n\t"\
+        "movq  %1, %%mm3                \n\t"\
+        "movq  %2, %%mm4                \n\t"\
+        "movq  %2, %%mm5                \n\t"\
+        "punpcklbw %%mm7, %%mm2         \n\t"\
+        "punpckhbw %%mm7, %%mm3         \n\t"\
+        "punpcklbw %%mm7, %%mm4         \n\t"\
+        "punpckhbw %%mm7, %%mm5         \n\t"\
+        "psubw %%mm2, %%mm4             \n\t"\
+        "psubw %%mm3, %%mm5             \n\t"\
+        "psllw $2, %%mm4                \n\t"\
+        "psllw $2, %%mm5                \n\t"\
+        "paddw %%mm0, %%mm4             \n\t"\
+        "paddw %%mm1, %%mm5             \n\t"\
+        "pxor %%mm6, %%mm6              \n\t"\
+        "pcmpgtw %%mm4, %%mm6           \n\t"\
+        "pcmpgtw %%mm5, %%mm7           \n\t"\
+        "pxor %%mm6, %%mm4              \n\t"\
+        "pxor %%mm7, %%mm5              \n\t"\
+        "psubw %%mm6, %%mm4             \n\t"\
+        "psubw %%mm7, %%mm5             \n\t"\
+        "psrlw $3, %%mm4                \n\t"\
+        "psrlw $3, %%mm5                \n\t"\
+        "packuswb %%mm5, %%mm4          \n\t"\
+        "packsswb %%mm7, %%mm6          \n\t"\
+        "pxor %%mm7, %%mm7              \n\t"\
+        "movd %4, %%mm2                 \n\t"\
+        "punpcklbw %%mm2, %%mm2         \n\t"\
+        "punpcklbw %%mm2, %%mm2         \n\t"\
+        "punpcklbw %%mm2, %%mm2         \n\t"\
+        "psubusb %%mm4, %%mm2           \n\t"\
+        "movq %%mm2, %%mm3              \n\t"\
+        "psubusb %%mm4, %%mm3           \n\t"\
+        "psubb %%mm3, %%mm2             \n\t"\
+        "movq %1, %%mm3                 \n\t"\
+        "movq %2, %%mm4                 \n\t"\
+        "pxor %%mm6, %%mm3              \n\t"\
+        "pxor %%mm6, %%mm4              \n\t"\
+        "paddusb %%mm2, %%mm3           \n\t"\
+        "psubusb %%mm2, %%mm4           \n\t"\
+        "pxor %%mm6, %%mm3              \n\t"\
+        "pxor %%mm6, %%mm4              \n\t"\
+        "paddusb %%mm2, %%mm2           \n\t"\
+        "packsswb %%mm1, %%mm0          \n\t"\
+        "pcmpgtb %%mm0, %%mm7           \n\t"\
+        "pxor %%mm7, %%mm0              \n\t"\
+        "psubb %%mm7, %%mm0             \n\t"\
+        "movq %%mm0, %%mm1              \n\t"\
+        "psubusb %%mm2, %%mm0           \n\t"\
+        "psubb %%mm0, %%mm1             \n\t"\
+        "pand %5, %%mm1                 \n\t"\
+        "psrlw $2, %%mm1                \n\t"\
+        "pxor %%mm7, %%mm1              \n\t"\
+        "psubb %%mm7, %%mm1             \n\t"\
+        "movq %0, %%mm5                 \n\t"\
+        "movq %3, %%mm6                 \n\t"\
+        "psubb %%mm1, %%mm5             \n\t"\
+        "paddb %%mm1, %%mm6             \n\t"
 
 static void h263_v_loop_filter_mmx(uint8_t *src, int stride, int qscale){
     const int strength= ff_h263_loop_filter_strength[qscale];
@@ -605,10 +605,10 @@ static void h263_v_loop_filter_mmx(uint8_t *src, int stride, int qscale){
 
         H263_LOOP_FILTER
 
-        "movq %%mm3, %1			\n\t"
-        "movq %%mm4, %2			\n\t"
-        "movq %%mm5, %0			\n\t"
-        "movq %%mm6, %3			\n\t"
+        "movq %%mm3, %1                 \n\t"
+        "movq %%mm4, %2                 \n\t"
+        "movq %%mm5, %0                 \n\t"
+        "movq %%mm6, %3                 \n\t"
         : "+m" (*(uint64_t*)(src - 2*stride)),
           "+m" (*(uint64_t*)(src - 1*stride)),
           "+m" (*(uint64_t*)(src + 0*stride)),
@@ -619,21 +619,21 @@ static void h263_v_loop_filter_mmx(uint8_t *src, int stride, int qscale){
 
 static inline void transpose4x4(uint8_t *dst, uint8_t *src, int dst_stride, int src_stride){
     asm volatile( //FIXME could save 1 instruction if done as 8x4 ...
-        "movd  %4, %%mm0		\n\t"
-        "movd  %5, %%mm1		\n\t"
-        "movd  %6, %%mm2		\n\t"
-        "movd  %7, %%mm3		\n\t"
-        "punpcklbw %%mm1, %%mm0		\n\t"
-        "punpcklbw %%mm3, %%mm2		\n\t"
-        "movq %%mm0, %%mm1		\n\t"
-        "punpcklwd %%mm2, %%mm0		\n\t"
-        "punpckhwd %%mm2, %%mm1		\n\t"
-        "movd  %%mm0, %0		\n\t"
-        "punpckhdq %%mm0, %%mm0		\n\t"
-        "movd  %%mm0, %1		\n\t"
-        "movd  %%mm1, %2		\n\t"
-        "punpckhdq %%mm1, %%mm1		\n\t"
-        "movd  %%mm1, %3		\n\t"
+        "movd  %4, %%mm0                \n\t"
+        "movd  %5, %%mm1                \n\t"
+        "movd  %6, %%mm2                \n\t"
+        "movd  %7, %%mm3                \n\t"
+        "punpcklbw %%mm1, %%mm0         \n\t"
+        "punpcklbw %%mm3, %%mm2         \n\t"
+        "movq %%mm0, %%mm1              \n\t"
+        "punpcklwd %%mm2, %%mm0         \n\t"
+        "punpckhwd %%mm2, %%mm1         \n\t"
+        "movd  %%mm0, %0                \n\t"
+        "punpckhdq %%mm0, %%mm0         \n\t"
+        "movd  %%mm0, %1                \n\t"
+        "movd  %%mm1, %2                \n\t"
+        "punpckhdq %%mm1, %%mm1         \n\t"
+        "movd  %%mm1, %3                \n\t"
 
         : "=m" (*(uint32_t*)(dst + 0*dst_stride)),
           "=m" (*(uint32_t*)(dst + 1*dst_stride)),
@@ -666,30 +666,30 @@ static void h263_h_loop_filter_mmx(uint8_t *src, int stride, int qscale){
     );
 
     asm volatile(
-        "movq %%mm5, %%mm1		\n\t"
-        "movq %%mm4, %%mm0		\n\t"
-        "punpcklbw %%mm3, %%mm5		\n\t"
-        "punpcklbw %%mm6, %%mm4		\n\t"
-        "punpckhbw %%mm3, %%mm1		\n\t"
-        "punpckhbw %%mm6, %%mm0		\n\t"
-        "movq %%mm5, %%mm3		\n\t"
-        "movq %%mm1, %%mm6		\n\t"
-        "punpcklwd %%mm4, %%mm5		\n\t"
-        "punpcklwd %%mm0, %%mm1		\n\t"
-        "punpckhwd %%mm4, %%mm3		\n\t"
-        "punpckhwd %%mm0, %%mm6		\n\t"
-        "movd %%mm5, (%0)		\n\t"
-        "punpckhdq %%mm5, %%mm5		\n\t"
-        "movd %%mm5, (%0,%2)		\n\t"
-        "movd %%mm3, (%0,%2,2)		\n\t"
-        "punpckhdq %%mm3, %%mm3		\n\t"
-        "movd %%mm3, (%0,%3)		\n\t"
-        "movd %%mm1, (%1)		\n\t"
-        "punpckhdq %%mm1, %%mm1		\n\t"
-        "movd %%mm1, (%1,%2)		\n\t"
-        "movd %%mm6, (%1,%2,2)		\n\t"
-        "punpckhdq %%mm6, %%mm6		\n\t"
-        "movd %%mm6, (%1,%3)		\n\t"
+        "movq %%mm5, %%mm1              \n\t"
+        "movq %%mm4, %%mm0              \n\t"
+        "punpcklbw %%mm3, %%mm5         \n\t"
+        "punpcklbw %%mm6, %%mm4         \n\t"
+        "punpckhbw %%mm3, %%mm1         \n\t"
+        "punpckhbw %%mm6, %%mm0         \n\t"
+        "movq %%mm5, %%mm3              \n\t"
+        "movq %%mm1, %%mm6              \n\t"
+        "punpcklwd %%mm4, %%mm5         \n\t"
+        "punpcklwd %%mm0, %%mm1         \n\t"
+        "punpckhwd %%mm4, %%mm3         \n\t"
+        "punpckhwd %%mm0, %%mm6         \n\t"
+        "movd %%mm5, (%0)               \n\t"
+        "punpckhdq %%mm5, %%mm5         \n\t"
+        "movd %%mm5, (%0,%2)            \n\t"
+        "movd %%mm3, (%0,%2,2)          \n\t"
+        "punpckhdq %%mm3, %%mm3         \n\t"
+        "movd %%mm3, (%0,%3)            \n\t"
+        "movd %%mm1, (%1)               \n\t"
+        "punpckhdq %%mm1, %%mm1         \n\t"
+        "movd %%mm1, (%1,%2)            \n\t"
+        "movd %%mm6, (%1,%2,2)          \n\t"
+        "punpckhdq %%mm6, %%mm6         \n\t"
+        "movd %%mm6, (%1,%3)            \n\t"
         :: "r" (src),
            "r" (src + 4*stride),
            "r" ((long)   stride ),
@@ -705,26 +705,26 @@ static int pix_norm1_mmx(uint8_t *pix, int line_size) {
       "pxor %%mm0,%%mm0\n"
       "pxor %%mm7,%%mm7\n"
       "1:\n"
-      "movq (%0),%%mm2\n"	/* mm2 = pix[0-7] */
-      "movq 8(%0),%%mm3\n"	/* mm3 = pix[8-15] */
+      "movq (%0),%%mm2\n"       /* mm2 = pix[0-7] */
+      "movq 8(%0),%%mm3\n"      /* mm3 = pix[8-15] */
 
-      "movq %%mm2,%%mm1\n"	/* mm1 = mm2 = pix[0-7] */
+      "movq %%mm2,%%mm1\n"      /* mm1 = mm2 = pix[0-7] */
 
-      "punpckhbw %%mm0,%%mm1\n"	/* mm1 = [pix4-7] */
-      "punpcklbw %%mm0,%%mm2\n"	/* mm2 = [pix0-3] */
+      "punpckhbw %%mm0,%%mm1\n" /* mm1 = [pix4-7] */
+      "punpcklbw %%mm0,%%mm2\n" /* mm2 = [pix0-3] */
 
-      "movq %%mm3,%%mm4\n"	/* mm4 = mm3 = pix[8-15] */
-      "punpckhbw %%mm0,%%mm3\n"	/* mm3 = [pix12-15] */
-      "punpcklbw %%mm0,%%mm4\n"	/* mm4 = [pix8-11] */
+      "movq %%mm3,%%mm4\n"      /* mm4 = mm3 = pix[8-15] */
+      "punpckhbw %%mm0,%%mm3\n" /* mm3 = [pix12-15] */
+      "punpcklbw %%mm0,%%mm4\n" /* mm4 = [pix8-11] */
 
-      "pmaddwd %%mm1,%%mm1\n"	/* mm1 = (pix0^2+pix1^2,pix2^2+pix3^2) */
-      "pmaddwd %%mm2,%%mm2\n"	/* mm2 = (pix4^2+pix5^2,pix6^2+pix7^2) */
+      "pmaddwd %%mm1,%%mm1\n"   /* mm1 = (pix0^2+pix1^2,pix2^2+pix3^2) */
+      "pmaddwd %%mm2,%%mm2\n"   /* mm2 = (pix4^2+pix5^2,pix6^2+pix7^2) */
 
       "pmaddwd %%mm3,%%mm3\n"
       "pmaddwd %%mm4,%%mm4\n"
 
-      "paddd %%mm1,%%mm2\n"	/* mm2 = (pix0^2+pix1^2+pix4^2+pix5^2,
-					  pix2^2+pix3^2+pix6^2+pix7^2) */
+      "paddd %%mm1,%%mm2\n"     /* mm2 = (pix0^2+pix1^2+pix4^2+pix5^2,
+                                          pix2^2+pix3^2+pix6^2+pix7^2) */
       "paddd %%mm3,%%mm4\n"
       "paddd %%mm2,%%mm7\n"
 
@@ -734,7 +734,7 @@ static int pix_norm1_mmx(uint8_t *pix, int line_size) {
       "jnz 1b\n"
 
       "movq %%mm7,%%mm1\n"
-      "psrlq $32, %%mm7\n"	/* shift hi dword to lo */
+      "psrlq $32, %%mm7\n"      /* shift hi dword to lo */
       "paddd %%mm7,%%mm1\n"
       "movd %%mm1,%1\n"
       : "+r" (pix), "=r"(tmp) : "r" ((long)line_size) : "%ecx" );
@@ -746,13 +746,13 @@ static int sse8_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int
   asm volatile (
       "movl %4,%%ecx\n"
       "shr $1,%%ecx\n"
-      "pxor %%mm0,%%mm0\n"	/* mm0 = 0 */
-      "pxor %%mm7,%%mm7\n"	/* mm7 holds the sum */
+      "pxor %%mm0,%%mm0\n"      /* mm0 = 0 */
+      "pxor %%mm7,%%mm7\n"      /* mm7 holds the sum */
       "1:\n"
-      "movq (%0),%%mm1\n"	/* mm1 = pix1[0][0-7] */
-      "movq (%1),%%mm2\n"	/* mm2 = pix2[0][0-7] */
-      "movq (%0,%3),%%mm3\n"	/* mm3 = pix1[1][0-7] */
-      "movq (%1,%3),%%mm4\n"	/* mm4 = pix2[1][0-7] */
+      "movq (%0),%%mm1\n"       /* mm1 = pix1[0][0-7] */
+      "movq (%1),%%mm2\n"       /* mm2 = pix2[0][0-7] */
+      "movq (%0,%3),%%mm3\n"    /* mm3 = pix1[1][0-7] */
+      "movq (%1,%3),%%mm4\n"    /* mm4 = pix2[1][0-7] */
 
       /* todo: mm1-mm2, mm3-mm4 */
       /* algo: substract mm1 from mm2 with saturation and vice versa */
@@ -773,16 +773,16 @@ static int sse8_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int
 
       "punpckhbw %%mm0,%%mm2\n"
       "punpckhbw %%mm0,%%mm4\n"
-      "punpcklbw %%mm0,%%mm1\n"	/* mm1 now spread over (mm1,mm2) */
-      "punpcklbw %%mm0,%%mm3\n"	/* mm4 now spread over (mm3,mm4) */
+      "punpcklbw %%mm0,%%mm1\n" /* mm1 now spread over (mm1,mm2) */
+      "punpcklbw %%mm0,%%mm3\n" /* mm4 now spread over (mm3,mm4) */
 
       "pmaddwd %%mm2,%%mm2\n"
       "pmaddwd %%mm4,%%mm4\n"
       "pmaddwd %%mm1,%%mm1\n"
       "pmaddwd %%mm3,%%mm3\n"
 
-      "lea (%0,%3,2), %0\n"	/* pix1 += 2*line_size */
-      "lea (%1,%3,2), %1\n"	/* pix2 += 2*line_size */
+      "lea (%0,%3,2), %0\n"     /* pix1 += 2*line_size */
+      "lea (%1,%3,2), %1\n"     /* pix2 += 2*line_size */
 
       "paddd %%mm2,%%mm1\n"
       "paddd %%mm4,%%mm3\n"
@@ -793,7 +793,7 @@ static int sse8_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int
       "jnz 1b\n"
 
       "movq %%mm7,%%mm1\n"
-      "psrlq $32, %%mm7\n"	/* shift hi dword to lo */
+      "psrlq $32, %%mm7\n"      /* shift hi dword to lo */
       "paddd %%mm7,%%mm1\n"
       "movd %%mm1,%2\n"
       : "+r" (pix1), "+r" (pix2), "=r"(tmp)
@@ -806,13 +806,13 @@ static int sse16_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int
     int tmp;
   asm volatile (
       "movl %4,%%ecx\n"
-      "pxor %%mm0,%%mm0\n"	/* mm0 = 0 */
-      "pxor %%mm7,%%mm7\n"	/* mm7 holds the sum */
+      "pxor %%mm0,%%mm0\n"      /* mm0 = 0 */
+      "pxor %%mm7,%%mm7\n"      /* mm7 holds the sum */
       "1:\n"
-      "movq (%0),%%mm1\n"	/* mm1 = pix1[0-7] */
-      "movq (%1),%%mm2\n"	/* mm2 = pix2[0-7] */
-      "movq 8(%0),%%mm3\n"	/* mm3 = pix1[8-15] */
-      "movq 8(%1),%%mm4\n"	/* mm4 = pix2[8-15] */
+      "movq (%0),%%mm1\n"       /* mm1 = pix1[0-7] */
+      "movq (%1),%%mm2\n"       /* mm2 = pix2[0-7] */
+      "movq 8(%0),%%mm3\n"      /* mm3 = pix1[8-15] */
+      "movq 8(%1),%%mm4\n"      /* mm4 = pix2[8-15] */
 
       /* todo: mm1-mm2, mm3-mm4 */
       /* algo: substract mm1 from mm2 with saturation and vice versa */
@@ -833,8 +833,8 @@ static int sse16_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int
 
       "punpckhbw %%mm0,%%mm2\n"
       "punpckhbw %%mm0,%%mm4\n"
-      "punpcklbw %%mm0,%%mm1\n"	/* mm1 now spread over (mm1,mm2) */
-      "punpcklbw %%mm0,%%mm3\n"	/* mm4 now spread over (mm3,mm4) */
+      "punpcklbw %%mm0,%%mm1\n" /* mm1 now spread over (mm1,mm2) */
+      "punpcklbw %%mm0,%%mm3\n" /* mm4 now spread over (mm3,mm4) */
 
       "pmaddwd %%mm2,%%mm2\n"
       "pmaddwd %%mm4,%%mm4\n"
@@ -853,7 +853,7 @@ static int sse16_mmx(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, int
       "jnz 1b\n"
 
       "movq %%mm7,%%mm1\n"
-      "psrlq $32, %%mm7\n"	/* shift hi dword to lo */
+      "psrlq $32, %%mm7\n"      /* shift hi dword to lo */
       "paddd %%mm7,%%mm1\n"
       "movd %%mm1,%2\n"
       : "+r" (pix1), "+r" (pix2), "=r"(tmp)
@@ -866,13 +866,13 @@ static int sse16_sse2(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, in
     int tmp;
   asm volatile (
       "shr $1,%2\n"
-      "pxor %%xmm0,%%xmm0\n"	/* mm0 = 0 */
-      "pxor %%xmm7,%%xmm7\n"	/* mm7 holds the sum */
+      "pxor %%xmm0,%%xmm0\n"    /* mm0 = 0 */
+      "pxor %%xmm7,%%xmm7\n"    /* mm7 holds the sum */
       "1:\n"
-      "movdqu (%0),%%xmm1\n"	/* mm1 = pix1[0][0-15] */
-      "movdqu (%1),%%xmm2\n"	/* mm2 = pix2[0][0-15] */
-      "movdqu (%0,%4),%%xmm3\n"	/* mm3 = pix1[1][0-15] */
-      "movdqu (%1,%4),%%xmm4\n"	/* mm4 = pix2[1][0-15] */
+      "movdqu (%0),%%xmm1\n"    /* mm1 = pix1[0][0-15] */
+      "movdqu (%1),%%xmm2\n"    /* mm2 = pix2[0][0-15] */
+      "movdqu (%0,%4),%%xmm3\n" /* mm3 = pix1[1][0-15] */
+      "movdqu (%1,%4),%%xmm4\n" /* mm4 = pix2[1][0-15] */
 
       /* todo: mm1-mm2, mm3-mm4 */
       /* algo: substract mm1 from mm2 with saturation and vice versa */
@@ -893,16 +893,16 @@ static int sse16_sse2(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, in
 
       "punpckhbw %%xmm0,%%xmm2\n"
       "punpckhbw %%xmm0,%%xmm4\n"
-      "punpcklbw %%xmm0,%%xmm1\n"	/* mm1 now spread over (mm1,mm2) */
-      "punpcklbw %%xmm0,%%xmm3\n"	/* mm4 now spread over (mm3,mm4) */
+      "punpcklbw %%xmm0,%%xmm1\n"  /* mm1 now spread over (mm1,mm2) */
+      "punpcklbw %%xmm0,%%xmm3\n"  /* mm4 now spread over (mm3,mm4) */
 
       "pmaddwd %%xmm2,%%xmm2\n"
       "pmaddwd %%xmm4,%%xmm4\n"
       "pmaddwd %%xmm1,%%xmm1\n"
       "pmaddwd %%xmm3,%%xmm3\n"
 
-      "lea (%0,%4,2), %0\n"	/* pix1 += 2*line_size */
-      "lea (%1,%4,2), %1\n"	/* pix2 += 2*line_size */
+      "lea (%0,%4,2), %0\n"        /* pix1 += 2*line_size */
+      "lea (%1,%4,2), %1\n"        /* pix2 += 2*line_size */
 
       "paddd %%xmm2,%%xmm1\n"
       "paddd %%xmm4,%%xmm3\n"
@@ -913,10 +913,10 @@ static int sse16_sse2(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, in
       "jnz 1b\n"
 
       "movdqa %%xmm7,%%xmm1\n"
-      "psrldq $8, %%xmm7\n"	/* shift hi qword to lo */
+      "psrldq $8, %%xmm7\n"        /* shift hi qword to lo */
       "paddd %%xmm1,%%xmm7\n"
       "movdqa %%xmm7,%%xmm1\n"
-      "psrldq $4, %%xmm7\n"	/* shift hi dword to lo */
+      "psrldq $4, %%xmm7\n"        /* shift hi dword to lo */
       "paddd %%xmm1,%%xmm7\n"
       "movd %%xmm7,%3\n"
       : "+r" (pix1), "+r" (pix2), "+r"(h), "=r"(tmp)
@@ -1427,18 +1427,18 @@ static int vsad16_mmx2(void *v, uint8_t * pix1, uint8_t * pix2, int line_size, i
 static void diff_bytes_mmx(uint8_t *dst, uint8_t *src1, uint8_t *src2, int w){
     long i=0;
     asm volatile(
-        "1:				\n\t"
-        "movq  (%2, %0), %%mm0		\n\t"
-        "movq  (%1, %0), %%mm1		\n\t"
-        "psubb %%mm0, %%mm1		\n\t"
-        "movq %%mm1, (%3, %0)		\n\t"
-        "movq 8(%2, %0), %%mm0		\n\t"
-        "movq 8(%1, %0), %%mm1		\n\t"
-        "psubb %%mm0, %%mm1		\n\t"
-        "movq %%mm1, 8(%3, %0)		\n\t"
-        "add $16, %0			\n\t"
-        "cmp %4, %0			\n\t"
-        " jb 1b				\n\t"
+        "1:                             \n\t"
+        "movq  (%2, %0), %%mm0          \n\t"
+        "movq  (%1, %0), %%mm1          \n\t"
+        "psubb %%mm0, %%mm1             \n\t"
+        "movq %%mm1, (%3, %0)           \n\t"
+        "movq 8(%2, %0), %%mm0          \n\t"
+        "movq 8(%1, %0), %%mm1          \n\t"
+        "psubb %%mm0, %%mm1             \n\t"
+        "movq %%mm1, 8(%3, %0)          \n\t"
+        "add $16, %0                    \n\t"
+        "cmp %4, %0                     \n\t"
+        " jb 1b                         \n\t"
         : "+r" (i)
         : "r"(src1), "r"(src2), "r"(dst), "r"((long)w-15)
     );
@@ -1451,24 +1451,24 @@ static void sub_hfyu_median_prediction_mmx2(uint8_t *dst, uint8_t *src1, uint8_t
     uint8_t l, lt;
 
     asm volatile(
-        "1:				\n\t"
-        "movq  -1(%1, %0), %%mm0	\n\t" // LT
-        "movq  (%1, %0), %%mm1		\n\t" // T
-        "movq  -1(%2, %0), %%mm2	\n\t" // L
-        "movq  (%2, %0), %%mm3		\n\t" // X
-        "movq %%mm2, %%mm4		\n\t" // L
-        "psubb %%mm0, %%mm2		\n\t"
-        "paddb %%mm1, %%mm2		\n\t" // L + T - LT
-        "movq %%mm4, %%mm5		\n\t" // L
-        "pmaxub %%mm1, %%mm4		\n\t" // max(T, L)
-        "pminub %%mm5, %%mm1		\n\t" // min(T, L)
-        "pminub %%mm2, %%mm4		\n\t"
-        "pmaxub %%mm1, %%mm4		\n\t"
-        "psubb %%mm4, %%mm3		\n\t" // dst - pred
-        "movq %%mm3, (%3, %0)		\n\t"
-        "add $8, %0			\n\t"
-        "cmp %4, %0			\n\t"
-        " jb 1b				\n\t"
+        "1:                             \n\t"
+        "movq  -1(%1, %0), %%mm0        \n\t" // LT
+        "movq  (%1, %0), %%mm1          \n\t" // T
+        "movq  -1(%2, %0), %%mm2        \n\t" // L
+        "movq  (%2, %0), %%mm3          \n\t" // X
+        "movq %%mm2, %%mm4              \n\t" // L
+        "psubb %%mm0, %%mm2             \n\t"
+        "paddb %%mm1, %%mm2             \n\t" // L + T - LT
+        "movq %%mm4, %%mm5              \n\t" // L
+        "pmaxub %%mm1, %%mm4            \n\t" // max(T, L)
+        "pminub %%mm5, %%mm1            \n\t" // min(T, L)
+        "pminub %%mm2, %%mm4            \n\t"
+        "pmaxub %%mm1, %%mm4            \n\t"
+        "psubb %%mm4, %%mm3             \n\t" // dst - pred
+        "movq %%mm3, (%3, %0)           \n\t"
+        "add $8, %0                     \n\t"
+        "cmp %4, %0                     \n\t"
+        " jb 1b                         \n\t"
         : "+r" (i)
         : "r"(src1), "r"(src2), "r"(dst), "r"((long)w)
     );
@@ -1483,12 +1483,12 @@ static void sub_hfyu_median_prediction_mmx2(uint8_t *dst, uint8_t *src1, uint8_t
 }
 
 #define LBUTTERFLY2(a1,b1,a2,b2)\
-    "paddw " #b1 ", " #a1 "		\n\t"\
-    "paddw " #b2 ", " #a2 "		\n\t"\
-    "paddw " #b1 ", " #b1 "		\n\t"\
-    "paddw " #b2 ", " #b2 "		\n\t"\
-    "psubw " #a1 ", " #b1 "		\n\t"\
-    "psubw " #a2 ", " #b2 "		\n\t"
+    "paddw " #b1 ", " #a1 "           \n\t"\
+    "paddw " #b2 ", " #a2 "           \n\t"\
+    "paddw " #b1 ", " #b1 "           \n\t"\
+    "paddw " #b2 ", " #b2 "           \n\t"\
+    "psubw " #a1 ", " #b1 "           \n\t"\
+    "psubw " #a2 ", " #b2 "           \n\t"
 
 #define HADAMARD48\
         LBUTTERFLY2(%%mm0, %%mm1, %%mm2, %%mm3)\
@@ -1499,33 +1499,33 @@ static void sub_hfyu_median_prediction_mmx2(uint8_t *dst, uint8_t *src1, uint8_t
         LBUTTERFLY2(%%mm2, %%mm6, %%mm3, %%mm7)\
 
 #define MMABS(a,z)\
-    "pxor " #z ", " #z "		\n\t"\
-    "pcmpgtw " #a ", " #z "		\n\t"\
-    "pxor " #z ", " #a "		\n\t"\
-    "psubw " #z ", " #a "		\n\t"
+    "pxor " #z ", " #z "              \n\t"\
+    "pcmpgtw " #a ", " #z "           \n\t"\
+    "pxor " #z ", " #a "              \n\t"\
+    "psubw " #z ", " #a "             \n\t"
 
 #define MMABS_SUM(a,z, sum)\
-    "pxor " #z ", " #z "		\n\t"\
-    "pcmpgtw " #a ", " #z "		\n\t"\
-    "pxor " #z ", " #a "		\n\t"\
-    "psubw " #z ", " #a "		\n\t"\
-    "paddusw " #a ", " #sum "		\n\t"
+    "pxor " #z ", " #z "              \n\t"\
+    "pcmpgtw " #a ", " #z "           \n\t"\
+    "pxor " #z ", " #a "              \n\t"\
+    "psubw " #z ", " #a "             \n\t"\
+    "paddusw " #a ", " #sum "         \n\t"
 
 #define MMABS_MMX2(a,z)\
-    "pxor " #z ", " #z "		\n\t"\
-    "psubw " #a ", " #z "		\n\t"\
-    "pmaxsw " #z ", " #a "		\n\t"
+    "pxor " #z ", " #z "              \n\t"\
+    "psubw " #a ", " #z "             \n\t"\
+    "pmaxsw " #z ", " #a "            \n\t"
 
 #define MMABS_SUM_MMX2(a,z, sum)\
-    "pxor " #z ", " #z "		\n\t"\
-    "psubw " #a ", " #z "		\n\t"\
-    "pmaxsw " #z ", " #a "		\n\t"\
-    "paddusw " #a ", " #sum "		\n\t"
+    "pxor " #z ", " #z "              \n\t"\
+    "psubw " #a ", " #z "             \n\t"\
+    "pmaxsw " #z ", " #a "            \n\t"\
+    "paddusw " #a ", " #sum "         \n\t"
 
 #define SBUTTERFLY(a,b,t,n)\
-    "movq " #a ", " #t "		\n\t" /* abcd */\
-    "punpckl" #n " " #b ", " #a "	\n\t" /* aebf */\
-    "punpckh" #n " " #b ", " #t "	\n\t" /* cgdh */\
+    "movq " #a ", " #t "              \n\t" /* abcd */\
+    "punpckl" #n " " #b ", " #a "     \n\t" /* aebf */\
+    "punpckh" #n " " #b ", " #t "     \n\t" /* cgdh */\
 
 #define TRANSPOSE4(a,b,c,d,t)\
     SBUTTERFLY(a,b,t,wd) /* a=aebf t=cgdh */\
@@ -1534,16 +1534,16 @@ static void sub_hfyu_median_prediction_mmx2(uint8_t *dst, uint8_t *src1, uint8_t
     SBUTTERFLY(t,b,c,dq) /* t=cgko c=dhlp */
 
 #define LOAD4(o, a, b, c, d)\
-        "movq "#o"(%1), " #a "		\n\t"\
-        "movq "#o"+16(%1), " #b "	\n\t"\
-        "movq "#o"+32(%1), " #c "	\n\t"\
-        "movq "#o"+48(%1), " #d "	\n\t"
+        "movq "#o"(%1), " #a "        \n\t"\
+        "movq "#o"+16(%1), " #b "     \n\t"\
+        "movq "#o"+32(%1), " #c "     \n\t"\
+        "movq "#o"+48(%1), " #d "     \n\t"
 
 #define STORE4(o, a, b, c, d)\
-        "movq "#a", "#o"(%1)		\n\t"\
-        "movq "#b", "#o"+16(%1)		\n\t"\
-        "movq "#c", "#o"+32(%1)		\n\t"\
-        "movq "#d", "#o"+48(%1)		\n\t"\
+        "movq "#a", "#o"(%1)          \n\t"\
+        "movq "#b", "#o"+16(%1)       \n\t"\
+        "movq "#c", "#o"+32(%1)       \n\t"\
+        "movq "#d", "#o"+48(%1)       \n\t"\
 
 static int hadamard8_diff_mmx(void *s, uint8_t *src1, uint8_t *src2, int stride, int h){
     uint64_t temp[16] __align8;
@@ -1559,12 +1559,12 @@ static int hadamard8_diff_mmx(void *s, uint8_t *src1, uint8_t *src2, int stride,
 
         HADAMARD48
 
-        "movq %%mm7, 112(%1)		\n\t"
+        "movq %%mm7, 112(%1)            \n\t"
 
         TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
         STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)
 
-        "movq 112(%1), %%mm7 		\n\t"
+        "movq 112(%1), %%mm7            \n\t"
         TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
         STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)
 
@@ -1573,23 +1573,23 @@ static int hadamard8_diff_mmx(void *s, uint8_t *src1, uint8_t *src2, int stride,
 
         HADAMARD48
 
-        "movq %%mm7, 120(%1)		\n\t"
+        "movq %%mm7, 120(%1)            \n\t"
 
         TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
         STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)
 
-        "movq 120(%1), %%mm7 		\n\t"
+        "movq 120(%1), %%mm7            \n\t"
         TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
-        "movq %%mm7, %%mm5		\n\t"//FIXME remove
-        "movq %%mm6, %%mm7		\n\t"
-        "movq %%mm0, %%mm6		\n\t"
+        "movq %%mm7, %%mm5              \n\t"//FIXME remove
+        "movq %%mm6, %%mm7              \n\t"
+        "movq %%mm0, %%mm6              \n\t"
 //        STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove
 
         LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)
 //        LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)
 
         HADAMARD48
-        "movq %%mm7, 64(%1)		\n\t"
+        "movq %%mm7, 64(%1)             \n\t"
         MMABS(%%mm0, %%mm7)
         MMABS_SUM(%%mm1, %%mm7, %%mm0)
         MMABS_SUM(%%mm2, %%mm7, %%mm0)
@@ -1597,15 +1597,15 @@ static int hadamard8_diff_mmx(void *s, uint8_t *src1, uint8_t *src2, int stride,
         MMABS_SUM(%%mm4, %%mm7, %%mm0)
         MMABS_SUM(%%mm5, %%mm7, %%mm0)
         MMABS_SUM(%%mm6, %%mm7, %%mm0)
-        "movq 64(%1), %%mm1		\n\t"
+        "movq 64(%1), %%mm1             \n\t"
         MMABS_SUM(%%mm1, %%mm7, %%mm0)
-        "movq %%mm0, 64(%1)		\n\t"
+        "movq %%mm0, 64(%1)             \n\t"
 
         LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)
         LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)
 
         HADAMARD48
-        "movq %%mm7, (%1)		\n\t"
+        "movq %%mm7, (%1)               \n\t"
         MMABS(%%mm0, %%mm7)
         MMABS_SUM(%%mm1, %%mm7, %%mm0)
         MMABS_SUM(%%mm2, %%mm7, %%mm0)
@@ -1613,18 +1613,18 @@ static int hadamard8_diff_mmx(void *s, uint8_t *src1, uint8_t *src2, int stride,
         MMABS_SUM(%%mm4, %%mm7, %%mm0)
         MMABS_SUM(%%mm5, %%mm7, %%mm0)
         MMABS_SUM(%%mm6, %%mm7, %%mm0)
-        "movq (%1), %%mm1		\n\t"
+        "movq (%1), %%mm1               \n\t"
         MMABS_SUM(%%mm1, %%mm7, %%mm0)
-        "movq 64(%1), %%mm1		\n\t"
+        "movq 64(%1), %%mm1             \n\t"
         MMABS_SUM(%%mm1, %%mm7, %%mm0)
 
-        "movq %%mm0, %%mm1		\n\t"
-        "psrlq $32, %%mm0		\n\t"
-        "paddusw %%mm1, %%mm0		\n\t"
-        "movq %%mm0, %%mm1		\n\t"
-        "psrlq $16, %%mm0		\n\t"
-        "paddusw %%mm1, %%mm0		\n\t"
-        "movd %%mm0, %0			\n\t"
+        "movq %%mm0, %%mm1              \n\t"
+        "psrlq $32, %%mm0               \n\t"
+        "paddusw %%mm1, %%mm0           \n\t"
+        "movq %%mm0, %%mm1              \n\t"
+        "psrlq $16, %%mm0               \n\t"
+        "paddusw %%mm1, %%mm0           \n\t"
+        "movd %%mm0, %0                 \n\t"
 
         : "=r" (sum)
         : "r"(temp)
@@ -1646,12 +1646,12 @@ static int hadamard8_diff_mmx2(void *s, uint8_t *src1, uint8_t *src2, int stride
 
         HADAMARD48
 
-        "movq %%mm7, 112(%1)		\n\t"
+        "movq %%mm7, 112(%1)            \n\t"
 
         TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
         STORE4(0 , %%mm0, %%mm3, %%mm7, %%mm2)
 
-        "movq 112(%1), %%mm7 		\n\t"
+        "movq 112(%1), %%mm7            \n\t"
         TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
         STORE4(64, %%mm4, %%mm7, %%mm0, %%mm6)
 
@@ -1660,23 +1660,23 @@ static int hadamard8_diff_mmx2(void *s, uint8_t *src1, uint8_t *src2, int stride
 
         HADAMARD48
 
-        "movq %%mm7, 120(%1)		\n\t"
+        "movq %%mm7, 120(%1)            \n\t"
 
         TRANSPOSE4(%%mm0, %%mm1, %%mm2, %%mm3, %%mm7)
         STORE4(8 , %%mm0, %%mm3, %%mm7, %%mm2)
 
-        "movq 120(%1), %%mm7 		\n\t"
+        "movq 120(%1), %%mm7            \n\t"
         TRANSPOSE4(%%mm4, %%mm5, %%mm6, %%mm7, %%mm0)
-        "movq %%mm7, %%mm5		\n\t"//FIXME remove
-        "movq %%mm6, %%mm7		\n\t"
-        "movq %%mm0, %%mm6		\n\t"
+        "movq %%mm7, %%mm5              \n\t"//FIXME remove
+        "movq %%mm6, %%mm7              \n\t"
+        "movq %%mm0, %%mm6              \n\t"
 //        STORE4(72, %%mm4, %%mm7, %%mm0, %%mm6) //FIXME remove
 
         LOAD4(64, %%mm0, %%mm1, %%mm2, %%mm3)
 //        LOAD4(72, %%mm4, %%mm5, %%mm6, %%mm7)
 
         HADAMARD48
-        "movq %%mm7, 64(%1)		\n\t"
+        "movq %%mm7, 64(%1)             \n\t"
         MMABS_MMX2(%%mm0, %%mm7)
         MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
         MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)
@@ -1684,15 +1684,15 @@ static int hadamard8_diff_mmx2(void *s, uint8_t *src1, uint8_t *src2, int stride
         MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)
         MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)
         MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)
-        "movq 64(%1), %%mm1		\n\t"
+        "movq 64(%1), %%mm1             \n\t"
         MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
-        "movq %%mm0, 64(%1)		\n\t"
+        "movq %%mm0, 64(%1)             \n\t"
 
         LOAD4(0 , %%mm0, %%mm1, %%mm2, %%mm3)
         LOAD4(8 , %%mm4, %%mm5, %%mm6, %%mm7)
 
         HADAMARD48
-        "movq %%mm7, (%1)		\n\t"
+        "movq %%mm7, (%1)               \n\t"
         MMABS_MMX2(%%mm0, %%mm7)
         MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
         MMABS_SUM_MMX2(%%mm2, %%mm7, %%mm0)
@@ -1700,16 +1700,16 @@ static int hadamard8_diff_mmx2(void *s, uint8_t *src1, uint8_t *src2, int stride
         MMABS_SUM_MMX2(%%mm4, %%mm7, %%mm0)
         MMABS_SUM_MMX2(%%mm5, %%mm7, %%mm0)
         MMABS_SUM_MMX2(%%mm6, %%mm7, %%mm0)
-        "movq (%1), %%mm1		\n\t"
+        "movq (%1), %%mm1               \n\t"
         MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
-        "movq 64(%1), %%mm1		\n\t"
+        "movq 64(%1), %%mm1             \n\t"
         MMABS_SUM_MMX2(%%mm1, %%mm7, %%mm0)
 
         "pshufw $0x0E, %%mm0, %%mm1     \n\t"
-        "paddusw %%mm1, %%mm0		\n\t"
+        "paddusw %%mm1, %%mm0           \n\t"
         "pshufw $0x01, %%mm0, %%mm1     \n\t"
-        "paddusw %%mm1, %%mm0		\n\t"
-        "movd %%mm0, %0			\n\t"
+        "paddusw %%mm1, %%mm0           \n\t"
+        "movd %%mm0, %0                 \n\t"
 
         : "=r" (sum)
         : "r"(temp)
@@ -1726,24 +1726,24 @@ WARPER8_16_SQ(hadamard8_diff_mmx2, hadamard8_diff16_mmx2)
 #define put_no_rnd_pixels16_mmx(a,b,c,d) put_pixels16_mmx(a,b,c,d)
 
 #define QPEL_V_LOW(m3,m4,m5,m6, pw_20, pw_3, rnd, in0, in1, in2, in7, out, OP)\
-        "paddw " #m4 ", " #m3 "		\n\t" /* x1 */\
-        "movq "MANGLE(ff_pw_20)", %%mm4		\n\t" /* 20 */\
-        "pmullw " #m3 ", %%mm4		\n\t" /* 20x1 */\
-        "movq "#in7", " #m3 "		\n\t" /* d */\
-        "movq "#in0", %%mm5		\n\t" /* D */\
-        "paddw " #m3 ", %%mm5		\n\t" /* x4 */\
-        "psubw %%mm5, %%mm4		\n\t" /* 20x1 - x4 */\
-        "movq "#in1", %%mm5		\n\t" /* C */\
-        "movq "#in2", %%mm6		\n\t" /* B */\
-        "paddw " #m6 ", %%mm5		\n\t" /* x3 */\
-        "paddw " #m5 ", %%mm6		\n\t" /* x2 */\
-        "paddw %%mm6, %%mm6		\n\t" /* 2x2 */\
-        "psubw %%mm6, %%mm5		\n\t" /* -2x2 + x3 */\
-        "pmullw "MANGLE(ff_pw_3)", %%mm5	\n\t" /* -6x2 + 3x3 */\
-        "paddw " #rnd ", %%mm4		\n\t" /* x2 */\
-        "paddw %%mm4, %%mm5		\n\t" /* 20x1 - 6x2 + 3x3 - x4 */\
-        "psraw $5, %%mm5		\n\t"\
-        "packuswb %%mm5, %%mm5		\n\t"\
+        "paddw " #m4 ", " #m3 "           \n\t" /* x1 */\
+        "movq "MANGLE(ff_pw_20)", %%mm4   \n\t" /* 20 */\
+        "pmullw " #m3 ", %%mm4            \n\t" /* 20x1 */\
+        "movq "#in7", " #m3 "             \n\t" /* d */\
+        "movq "#in0", %%mm5               \n\t" /* D */\
+        "paddw " #m3 ", %%mm5             \n\t" /* x4 */\
+        "psubw %%mm5, %%mm4               \n\t" /* 20x1 - x4 */\
+        "movq "#in1", %%mm5               \n\t" /* C */\
+        "movq "#in2", %%mm6               \n\t" /* B */\
+        "paddw " #m6 ", %%mm5             \n\t" /* x3 */\
+        "paddw " #m5 ", %%mm6             \n\t" /* x2 */\
+        "paddw %%mm6, %%mm6               \n\t" /* 2x2 */\
+        "psubw %%mm6, %%mm5               \n\t" /* -2x2 + x3 */\
+        "pmullw "MANGLE(ff_pw_3)", %%mm5  \n\t" /* -6x2 + 3x3 */\
+        "paddw " #rnd ", %%mm4            \n\t" /* x2 */\
+        "paddw %%mm4, %%mm5               \n\t" /* 20x1 - 6x2 + 3x3 - x4 */\
+        "psraw $5, %%mm5                  \n\t"\
+        "packuswb %%mm5, %%mm5            \n\t"\
         OP(%%mm5, out, %%mm7, d)
 
 #define QPEL_BASE(OPNAME, ROUNDER, RND, OP_MMX2, OP_3DNOW)\
@@ -1751,116 +1751,116 @@ static void OPNAME ## mpeg4_qpel16_h_lowpass_mmx2(uint8_t *dst, uint8_t *src, in
     uint64_t temp;\
 \
     asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "1:				\n\t"\
-        "movq  (%0), %%mm0		\n\t" /* ABCDEFGH */\
-        "movq %%mm0, %%mm1		\n\t" /* ABCDEFGH */\
-        "movq %%mm0, %%mm2		\n\t" /* ABCDEFGH */\
-        "punpcklbw %%mm7, %%mm0		\n\t" /* 0A0B0C0D */\
-        "punpckhbw %%mm7, %%mm1		\n\t" /* 0E0F0G0H */\
-        "pshufw $0x90, %%mm0, %%mm5	\n\t" /* 0A0A0B0C */\
-        "pshufw $0x41, %%mm0, %%mm6	\n\t" /* 0B0A0A0B */\
-        "movq %%mm2, %%mm3		\n\t" /* ABCDEFGH */\
-        "movq %%mm2, %%mm4		\n\t" /* ABCDEFGH */\
-        "psllq $8, %%mm2		\n\t" /* 0ABCDEFG */\
-        "psllq $16, %%mm3		\n\t" /* 00ABCDEF */\
-        "psllq $24, %%mm4		\n\t" /* 000ABCDE */\
-        "punpckhbw %%mm7, %%mm2		\n\t" /* 0D0E0F0G */\
-        "punpckhbw %%mm7, %%mm3		\n\t" /* 0C0D0E0F */\
-        "punpckhbw %%mm7, %%mm4		\n\t" /* 0B0C0D0E */\
-        "paddw %%mm3, %%mm5		\n\t" /* b */\
-        "paddw %%mm2, %%mm6		\n\t" /* c */\
-        "paddw %%mm5, %%mm5		\n\t" /* 2b */\
-        "psubw %%mm5, %%mm6		\n\t" /* c - 2b */\
-        "pshufw $0x06, %%mm0, %%mm5	\n\t" /* 0C0B0A0A */\
-        "pmullw "MANGLE(ff_pw_3)", %%mm6		\n\t" /* 3c - 6b */\
-        "paddw %%mm4, %%mm0		\n\t" /* a */\
-        "paddw %%mm1, %%mm5		\n\t" /* d */\
-        "pmullw "MANGLE(ff_pw_20)", %%mm0		\n\t" /* 20a */\
-        "psubw %%mm5, %%mm0		\n\t" /* 20a - d */\
-        "paddw %6, %%mm6		\n\t"\
-        "paddw %%mm6, %%mm0		\n\t" /* 20a - 6b + 3c - d */\
-        "psraw $5, %%mm0		\n\t"\
-        "movq %%mm0, %5			\n\t"\
+        "pxor %%mm7, %%mm7                \n\t"\
+        "1:                               \n\t"\
+        "movq  (%0), %%mm0                \n\t" /* ABCDEFGH */\
+        "movq %%mm0, %%mm1                \n\t" /* ABCDEFGH */\
+        "movq %%mm0, %%mm2                \n\t" /* ABCDEFGH */\
+        "punpcklbw %%mm7, %%mm0           \n\t" /* 0A0B0C0D */\
+        "punpckhbw %%mm7, %%mm1           \n\t" /* 0E0F0G0H */\
+        "pshufw $0x90, %%mm0, %%mm5       \n\t" /* 0A0A0B0C */\
+        "pshufw $0x41, %%mm0, %%mm6       \n\t" /* 0B0A0A0B */\
+        "movq %%mm2, %%mm3                \n\t" /* ABCDEFGH */\
+        "movq %%mm2, %%mm4                \n\t" /* ABCDEFGH */\
+        "psllq $8, %%mm2                  \n\t" /* 0ABCDEFG */\
+        "psllq $16, %%mm3                 \n\t" /* 00ABCDEF */\
+        "psllq $24, %%mm4                 \n\t" /* 000ABCDE */\
+        "punpckhbw %%mm7, %%mm2           \n\t" /* 0D0E0F0G */\
+        "punpckhbw %%mm7, %%mm3           \n\t" /* 0C0D0E0F */\
+        "punpckhbw %%mm7, %%mm4           \n\t" /* 0B0C0D0E */\
+        "paddw %%mm3, %%mm5               \n\t" /* b */\
+        "paddw %%mm2, %%mm6               \n\t" /* c */\
+        "paddw %%mm5, %%mm5               \n\t" /* 2b */\
+        "psubw %%mm5, %%mm6               \n\t" /* c - 2b */\
+        "pshufw $0x06, %%mm0, %%mm5       \n\t" /* 0C0B0A0A */\
+        "pmullw "MANGLE(ff_pw_3)", %%mm6  \n\t" /* 3c - 6b */\
+        "paddw %%mm4, %%mm0               \n\t" /* a */\
+        "paddw %%mm1, %%mm5               \n\t" /* d */\
+        "pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\
+        "psubw %%mm5, %%mm0               \n\t" /* 20a - d */\
+        "paddw %6, %%mm6                  \n\t"\
+        "paddw %%mm6, %%mm0               \n\t" /* 20a - 6b + 3c - d */\
+        "psraw $5, %%mm0                  \n\t"\
+        "movq %%mm0, %5                   \n\t"\
         /* mm1=EFGH, mm2=DEFG, mm3=CDEF, mm4=BCDE, mm7=0 */\
         \
-        "movq 5(%0), %%mm0		\n\t" /* FGHIJKLM */\
-        "movq %%mm0, %%mm5		\n\t" /* FGHIJKLM */\
-        "movq %%mm0, %%mm6		\n\t" /* FGHIJKLM */\
-        "psrlq $8, %%mm0		\n\t" /* GHIJKLM0 */\
-        "psrlq $16, %%mm5		\n\t" /* HIJKLM00 */\
-        "punpcklbw %%mm7, %%mm0		\n\t" /* 0G0H0I0J */\
-        "punpcklbw %%mm7, %%mm5		\n\t" /* 0H0I0J0K */\
-        "paddw %%mm0, %%mm2		\n\t" /* b */\
-        "paddw %%mm5, %%mm3		\n\t" /* c */\
-        "paddw %%mm2, %%mm2		\n\t" /* 2b */\
-        "psubw %%mm2, %%mm3		\n\t" /* c - 2b */\
-        "movq %%mm6, %%mm2		\n\t" /* FGHIJKLM */\
-        "psrlq $24, %%mm6		\n\t" /* IJKLM000 */\
-        "punpcklbw %%mm7, %%mm2		\n\t" /* 0F0G0H0I */\
-        "punpcklbw %%mm7, %%mm6		\n\t" /* 0I0J0K0L */\
-        "pmullw "MANGLE(ff_pw_3)", %%mm3		\n\t" /* 3c - 6b */\
-        "paddw %%mm2, %%mm1		\n\t" /* a */\
-        "paddw %%mm6, %%mm4		\n\t" /* d */\
-        "pmullw "MANGLE(ff_pw_20)", %%mm1		\n\t" /* 20a */\
-        "psubw %%mm4, %%mm3		\n\t" /* - 6b +3c - d */\
-        "paddw %6, %%mm1		\n\t"\
-        "paddw %%mm1, %%mm3		\n\t" /* 20a - 6b +3c - d */\
-        "psraw $5, %%mm3		\n\t"\
-        "movq %5, %%mm1			\n\t"\
-        "packuswb %%mm3, %%mm1		\n\t"\
+        "movq 5(%0), %%mm0                \n\t" /* FGHIJKLM */\
+        "movq %%mm0, %%mm5                \n\t" /* FGHIJKLM */\
+        "movq %%mm0, %%mm6                \n\t" /* FGHIJKLM */\
+        "psrlq $8, %%mm0                  \n\t" /* GHIJKLM0 */\
+        "psrlq $16, %%mm5                 \n\t" /* HIJKLM00 */\
+        "punpcklbw %%mm7, %%mm0           \n\t" /* 0G0H0I0J */\
+        "punpcklbw %%mm7, %%mm5           \n\t" /* 0H0I0J0K */\
+        "paddw %%mm0, %%mm2               \n\t" /* b */\
+        "paddw %%mm5, %%mm3               \n\t" /* c */\
+        "paddw %%mm2, %%mm2               \n\t" /* 2b */\
+        "psubw %%mm2, %%mm3               \n\t" /* c - 2b */\
+        "movq %%mm6, %%mm2                \n\t" /* FGHIJKLM */\
+        "psrlq $24, %%mm6                 \n\t" /* IJKLM000 */\
+        "punpcklbw %%mm7, %%mm2           \n\t" /* 0F0G0H0I */\
+        "punpcklbw %%mm7, %%mm6           \n\t" /* 0I0J0K0L */\
+        "pmullw "MANGLE(ff_pw_3)", %%mm3  \n\t" /* 3c - 6b */\
+        "paddw %%mm2, %%mm1               \n\t" /* a */\
+        "paddw %%mm6, %%mm4               \n\t" /* d */\
+        "pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\
+        "psubw %%mm4, %%mm3               \n\t" /* - 6b +3c - d */\
+        "paddw %6, %%mm1                  \n\t"\
+        "paddw %%mm1, %%mm3               \n\t" /* 20a - 6b +3c - d */\
+        "psraw $5, %%mm3                  \n\t"\
+        "movq %5, %%mm1                   \n\t"\
+        "packuswb %%mm3, %%mm1            \n\t"\
         OP_MMX2(%%mm1, (%1),%%mm4, q)\
         /* mm0= GHIJ, mm2=FGHI, mm5=HIJK, mm6=IJKL, mm7=0 */\
         \
-        "movq 9(%0), %%mm1		\n\t" /* JKLMNOPQ */\
-        "movq %%mm1, %%mm4		\n\t" /* JKLMNOPQ */\
-        "movq %%mm1, %%mm3		\n\t" /* JKLMNOPQ */\
-        "psrlq $8, %%mm1		\n\t" /* KLMNOPQ0 */\
-        "psrlq $16, %%mm4		\n\t" /* LMNOPQ00 */\
-        "punpcklbw %%mm7, %%mm1		\n\t" /* 0K0L0M0N */\
-        "punpcklbw %%mm7, %%mm4		\n\t" /* 0L0M0N0O */\
-        "paddw %%mm1, %%mm5		\n\t" /* b */\
-        "paddw %%mm4, %%mm0		\n\t" /* c */\
-        "paddw %%mm5, %%mm5		\n\t" /* 2b */\
-        "psubw %%mm5, %%mm0		\n\t" /* c - 2b */\
-        "movq %%mm3, %%mm5		\n\t" /* JKLMNOPQ */\
-        "psrlq $24, %%mm3		\n\t" /* MNOPQ000 */\
-        "pmullw "MANGLE(ff_pw_3)", %%mm0		\n\t" /* 3c - 6b */\
-        "punpcklbw %%mm7, %%mm3		\n\t" /* 0M0N0O0P */\
-        "paddw %%mm3, %%mm2		\n\t" /* d */\
-        "psubw %%mm2, %%mm0		\n\t" /* -6b + 3c - d */\
-        "movq %%mm5, %%mm2		\n\t" /* JKLMNOPQ */\
-        "punpcklbw %%mm7, %%mm2		\n\t" /* 0J0K0L0M */\
-        "punpckhbw %%mm7, %%mm5		\n\t" /* 0N0O0P0Q */\
-        "paddw %%mm2, %%mm6		\n\t" /* a */\
-        "pmullw "MANGLE(ff_pw_20)", %%mm6		\n\t" /* 20a */\
-        "paddw %6, %%mm0		\n\t"\
-        "paddw %%mm6, %%mm0		\n\t" /* 20a - 6b + 3c - d */\
-        "psraw $5, %%mm0		\n\t"\
+        "movq 9(%0), %%mm1                \n\t" /* JKLMNOPQ */\
+        "movq %%mm1, %%mm4                \n\t" /* JKLMNOPQ */\
+        "movq %%mm1, %%mm3                \n\t" /* JKLMNOPQ */\
+        "psrlq $8, %%mm1                  \n\t" /* KLMNOPQ0 */\
+        "psrlq $16, %%mm4                 \n\t" /* LMNOPQ00 */\
+        "punpcklbw %%mm7, %%mm1           \n\t" /* 0K0L0M0N */\
+        "punpcklbw %%mm7, %%mm4           \n\t" /* 0L0M0N0O */\
+        "paddw %%mm1, %%mm5               \n\t" /* b */\
+        "paddw %%mm4, %%mm0               \n\t" /* c */\
+        "paddw %%mm5, %%mm5               \n\t" /* 2b */\
+        "psubw %%mm5, %%mm0               \n\t" /* c - 2b */\
+        "movq %%mm3, %%mm5                \n\t" /* JKLMNOPQ */\
+        "psrlq $24, %%mm3                 \n\t" /* MNOPQ000 */\
+        "pmullw "MANGLE(ff_pw_3)", %%mm0  \n\t" /* 3c - 6b */\
+        "punpcklbw %%mm7, %%mm3           \n\t" /* 0M0N0O0P */\
+        "paddw %%mm3, %%mm2               \n\t" /* d */\
+        "psubw %%mm2, %%mm0               \n\t" /* -6b + 3c - d */\
+        "movq %%mm5, %%mm2                \n\t" /* JKLMNOPQ */\
+        "punpcklbw %%mm7, %%mm2           \n\t" /* 0J0K0L0M */\
+        "punpckhbw %%mm7, %%mm5           \n\t" /* 0N0O0P0Q */\
+        "paddw %%mm2, %%mm6               \n\t" /* a */\
+        "pmullw "MANGLE(ff_pw_20)", %%mm6 \n\t" /* 20a */\
+        "paddw %6, %%mm0                  \n\t"\
+        "paddw %%mm6, %%mm0               \n\t" /* 20a - 6b + 3c - d */\
+        "psraw $5, %%mm0                  \n\t"\
         /* mm1=KLMN, mm2=JKLM, mm3=MNOP, mm4=LMNO, mm5=NOPQ mm7=0 */\
         \
-        "paddw %%mm5, %%mm3		\n\t" /* a */\
-        "pshufw $0xF9, %%mm5, %%mm6	\n\t" /* 0O0P0Q0Q */\
-        "paddw %%mm4, %%mm6		\n\t" /* b */\
-        "pshufw $0xBE, %%mm5, %%mm4	\n\t" /* 0P0Q0Q0P */\
-        "pshufw $0x6F, %%mm5, %%mm5	\n\t" /* 0Q0Q0P0O */\
-        "paddw %%mm1, %%mm4		\n\t" /* c */\
-        "paddw %%mm2, %%mm5		\n\t" /* d */\
-        "paddw %%mm6, %%mm6		\n\t" /* 2b */\
-        "psubw %%mm6, %%mm4		\n\t" /* c - 2b */\
-        "pmullw "MANGLE(ff_pw_20)", %%mm3		\n\t" /* 20a */\
-        "pmullw "MANGLE(ff_pw_3)", %%mm4		\n\t" /* 3c - 6b */\
-        "psubw %%mm5, %%mm3		\n\t" /* -6b + 3c - d */\
-        "paddw %6, %%mm4		\n\t"\
-        "paddw %%mm3, %%mm4		\n\t" /* 20a - 6b + 3c - d */\
-        "psraw $5, %%mm4		\n\t"\
-        "packuswb %%mm4, %%mm0		\n\t"\
+        "paddw %%mm5, %%mm3               \n\t" /* a */\
+        "pshufw $0xF9, %%mm5, %%mm6       \n\t" /* 0O0P0Q0Q */\
+        "paddw %%mm4, %%mm6               \n\t" /* b */\
+        "pshufw $0xBE, %%mm5, %%mm4       \n\t" /* 0P0Q0Q0P */\
+        "pshufw $0x6F, %%mm5, %%mm5       \n\t" /* 0Q0Q0P0O */\
+        "paddw %%mm1, %%mm4               \n\t" /* c */\
+        "paddw %%mm2, %%mm5               \n\t" /* d */\
+        "paddw %%mm6, %%mm6               \n\t" /* 2b */\
+        "psubw %%mm6, %%mm4               \n\t" /* c - 2b */\
+        "pmullw "MANGLE(ff_pw_20)", %%mm3 \n\t" /* 20a */\
+        "pmullw "MANGLE(ff_pw_3)", %%mm4  \n\t" /* 3c - 6b */\
+        "psubw %%mm5, %%mm3               \n\t" /* -6b + 3c - d */\
+        "paddw %6, %%mm4                  \n\t"\
+        "paddw %%mm3, %%mm4               \n\t" /* 20a - 6b + 3c - d */\
+        "psraw $5, %%mm4                  \n\t"\
+        "packuswb %%mm4, %%mm0            \n\t"\
         OP_MMX2(%%mm0, 8(%1), %%mm4, q)\
         \
-        "add %3, %0			\n\t"\
-        "add %4, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b				\n\t"\
+        "add %3, %0                       \n\t"\
+        "add %4, %1                       \n\t"\
+        "decl %2                          \n\t"\
+        " jnz 1b                          \n\t"\
         : "+a"(src), "+c"(dst), "+m"(h)\
         : "d"((long)srcStride), "S"((long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(temp), "m"(ROUNDER)\
         : "memory"\
@@ -1890,21 +1890,21 @@ static void OPNAME ## mpeg4_qpel16_h_lowpass_3dnow(uint8_t *dst, uint8_t *src, i
         temp[14]= (src[14]+src[15])*20 - (src[13]+src[16])*6 + (src[12]+src[16])*3 - (src[11]+src[15]);\
         temp[15]= (src[15]+src[16])*20 - (src[14]+src[16])*6 + (src[13]+src[15])*3 - (src[12]+src[14]);\
         asm volatile(\
-            "movq (%0), %%mm0		\n\t"\
-            "movq 8(%0), %%mm1		\n\t"\
-            "paddw %2, %%mm0		\n\t"\
-            "paddw %2, %%mm1		\n\t"\
-            "psraw $5, %%mm0		\n\t"\
-            "psraw $5, %%mm1		\n\t"\
-            "packuswb %%mm1, %%mm0	\n\t"\
+            "movq (%0), %%mm0               \n\t"\
+            "movq 8(%0), %%mm1              \n\t"\
+            "paddw %2, %%mm0                \n\t"\
+            "paddw %2, %%mm1                \n\t"\
+            "psraw $5, %%mm0                \n\t"\
+            "psraw $5, %%mm1                \n\t"\
+            "packuswb %%mm1, %%mm0          \n\t"\
             OP_3DNOW(%%mm0, (%1), %%mm1, q)\
-            "movq 16(%0), %%mm0		\n\t"\
-            "movq 24(%0), %%mm1		\n\t"\
-            "paddw %2, %%mm0		\n\t"\
-            "paddw %2, %%mm1		\n\t"\
-            "psraw $5, %%mm0		\n\t"\
-            "psraw $5, %%mm1		\n\t"\
-            "packuswb %%mm1, %%mm0	\n\t"\
+            "movq 16(%0), %%mm0             \n\t"\
+            "movq 24(%0), %%mm1             \n\t"\
+            "paddw %2, %%mm0                \n\t"\
+            "paddw %2, %%mm1                \n\t"\
+            "psraw $5, %%mm0                \n\t"\
+            "psraw $5, %%mm1                \n\t"\
+            "packuswb %%mm1, %%mm0          \n\t"\
             OP_3DNOW(%%mm0, 8(%1), %%mm1, q)\
             :: "r"(temp), "r"(dst), "m"(ROUNDER)\
             : "memory"\
@@ -1918,62 +1918,62 @@ static void OPNAME ## mpeg4_qpel8_h_lowpass_mmx2(uint8_t *dst, uint8_t *src, int
     uint64_t temp;\
 \
     asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "1:				\n\t"\
-        "movq  (%0), %%mm0		\n\t" /* ABCDEFGH */\
-        "movq %%mm0, %%mm1		\n\t" /* ABCDEFGH */\
-        "movq %%mm0, %%mm2		\n\t" /* ABCDEFGH */\
-        "punpcklbw %%mm7, %%mm0		\n\t" /* 0A0B0C0D */\
-        "punpckhbw %%mm7, %%mm1		\n\t" /* 0E0F0G0H */\
-        "pshufw $0x90, %%mm0, %%mm5	\n\t" /* 0A0A0B0C */\
-        "pshufw $0x41, %%mm0, %%mm6	\n\t" /* 0B0A0A0B */\
-        "movq %%mm2, %%mm3		\n\t" /* ABCDEFGH */\
-        "movq %%mm2, %%mm4		\n\t" /* ABCDEFGH */\
-        "psllq $8, %%mm2		\n\t" /* 0ABCDEFG */\
-        "psllq $16, %%mm3		\n\t" /* 00ABCDEF */\
-        "psllq $24, %%mm4		\n\t" /* 000ABCDE */\
-        "punpckhbw %%mm7, %%mm2		\n\t" /* 0D0E0F0G */\
-        "punpckhbw %%mm7, %%mm3		\n\t" /* 0C0D0E0F */\
-        "punpckhbw %%mm7, %%mm4		\n\t" /* 0B0C0D0E */\
-        "paddw %%mm3, %%mm5		\n\t" /* b */\
-        "paddw %%mm2, %%mm6		\n\t" /* c */\
-        "paddw %%mm5, %%mm5		\n\t" /* 2b */\
-        "psubw %%mm5, %%mm6		\n\t" /* c - 2b */\
-        "pshufw $0x06, %%mm0, %%mm5	\n\t" /* 0C0B0A0A */\
-        "pmullw "MANGLE(ff_pw_3)", %%mm6		\n\t" /* 3c - 6b */\
-        "paddw %%mm4, %%mm0		\n\t" /* a */\
-        "paddw %%mm1, %%mm5		\n\t" /* d */\
-        "pmullw "MANGLE(ff_pw_20)", %%mm0		\n\t" /* 20a */\
-        "psubw %%mm5, %%mm0		\n\t" /* 20a - d */\
-        "paddw %6, %%mm6		\n\t"\
-        "paddw %%mm6, %%mm0		\n\t" /* 20a - 6b + 3c - d */\
-        "psraw $5, %%mm0		\n\t"\
+        "pxor %%mm7, %%mm7                \n\t"\
+        "1:                               \n\t"\
+        "movq  (%0), %%mm0                \n\t" /* ABCDEFGH */\
+        "movq %%mm0, %%mm1                \n\t" /* ABCDEFGH */\
+        "movq %%mm0, %%mm2                \n\t" /* ABCDEFGH */\
+        "punpcklbw %%mm7, %%mm0           \n\t" /* 0A0B0C0D */\
+        "punpckhbw %%mm7, %%mm1           \n\t" /* 0E0F0G0H */\
+        "pshufw $0x90, %%mm0, %%mm5       \n\t" /* 0A0A0B0C */\
+        "pshufw $0x41, %%mm0, %%mm6       \n\t" /* 0B0A0A0B */\
+        "movq %%mm2, %%mm3                \n\t" /* ABCDEFGH */\
+        "movq %%mm2, %%mm4                \n\t" /* ABCDEFGH */\
+        "psllq $8, %%mm2                  \n\t" /* 0ABCDEFG */\
+        "psllq $16, %%mm3                 \n\t" /* 00ABCDEF */\
+        "psllq $24, %%mm4                 \n\t" /* 000ABCDE */\
+        "punpckhbw %%mm7, %%mm2           \n\t" /* 0D0E0F0G */\
+        "punpckhbw %%mm7, %%mm3           \n\t" /* 0C0D0E0F */\
+        "punpckhbw %%mm7, %%mm4           \n\t" /* 0B0C0D0E */\
+        "paddw %%mm3, %%mm5               \n\t" /* b */\
+        "paddw %%mm2, %%mm6               \n\t" /* c */\
+        "paddw %%mm5, %%mm5               \n\t" /* 2b */\
+        "psubw %%mm5, %%mm6               \n\t" /* c - 2b */\
+        "pshufw $0x06, %%mm0, %%mm5       \n\t" /* 0C0B0A0A */\
+        "pmullw "MANGLE(ff_pw_3)", %%mm6  \n\t" /* 3c - 6b */\
+        "paddw %%mm4, %%mm0               \n\t" /* a */\
+        "paddw %%mm1, %%mm5               \n\t" /* d */\
+        "pmullw "MANGLE(ff_pw_20)", %%mm0 \n\t" /* 20a */\
+        "psubw %%mm5, %%mm0               \n\t" /* 20a - d */\
+        "paddw %6, %%mm6                  \n\t"\
+        "paddw %%mm6, %%mm0               \n\t" /* 20a - 6b + 3c - d */\
+        "psraw $5, %%mm0                  \n\t"\
         /* mm1=EFGH, mm2=DEFG, mm3=CDEF, mm4=BCDE, mm7=0 */\
         \
-        "movd 5(%0), %%mm5		\n\t" /* FGHI */\
-        "punpcklbw %%mm7, %%mm5		\n\t" /* 0F0G0H0I */\
-        "pshufw $0xF9, %%mm5, %%mm6	\n\t" /* 0G0H0I0I */\
-        "paddw %%mm5, %%mm1		\n\t" /* a */\
-        "paddw %%mm6, %%mm2		\n\t" /* b */\
-        "pshufw $0xBE, %%mm5, %%mm6	\n\t" /* 0H0I0I0H */\
-        "pshufw $0x6F, %%mm5, %%mm5	\n\t" /* 0I0I0H0G */\
-        "paddw %%mm6, %%mm3		\n\t" /* c */\
-        "paddw %%mm5, %%mm4		\n\t" /* d */\
-        "paddw %%mm2, %%mm2		\n\t" /* 2b */\
-        "psubw %%mm2, %%mm3		\n\t" /* c - 2b */\
-        "pmullw "MANGLE(ff_pw_20)", %%mm1		\n\t" /* 20a */\
-        "pmullw "MANGLE(ff_pw_3)", %%mm3		\n\t" /* 3c - 6b */\
-        "psubw %%mm4, %%mm3		\n\t" /* -6b + 3c - d */\
-        "paddw %6, %%mm1		\n\t"\
-        "paddw %%mm1, %%mm3		\n\t" /* 20a - 6b + 3c - d */\
-        "psraw $5, %%mm3		\n\t"\
-        "packuswb %%mm3, %%mm0		\n\t"\
+        "movd 5(%0), %%mm5                \n\t" /* FGHI */\
+        "punpcklbw %%mm7, %%mm5           \n\t" /* 0F0G0H0I */\
+        "pshufw $0xF9, %%mm5, %%mm6       \n\t" /* 0G0H0I0I */\
+        "paddw %%mm5, %%mm1               \n\t" /* a */\
+        "paddw %%mm6, %%mm2               \n\t" /* b */\
+        "pshufw $0xBE, %%mm5, %%mm6       \n\t" /* 0H0I0I0H */\
+        "pshufw $0x6F, %%mm5, %%mm5       \n\t" /* 0I0I0H0G */\
+        "paddw %%mm6, %%mm3               \n\t" /* c */\
+        "paddw %%mm5, %%mm4               \n\t" /* d */\
+        "paddw %%mm2, %%mm2               \n\t" /* 2b */\
+        "psubw %%mm2, %%mm3               \n\t" /* c - 2b */\
+        "pmullw "MANGLE(ff_pw_20)", %%mm1 \n\t" /* 20a */\
+        "pmullw "MANGLE(ff_pw_3)", %%mm3  \n\t" /* 3c - 6b */\
+        "psubw %%mm4, %%mm3               \n\t" /* -6b + 3c - d */\
+        "paddw %6, %%mm1                  \n\t"\
+        "paddw %%mm1, %%mm3               \n\t" /* 20a - 6b + 3c - d */\
+        "psraw $5, %%mm3                  \n\t"\
+        "packuswb %%mm3, %%mm0            \n\t"\
         OP_MMX2(%%mm0, (%1), %%mm4, q)\
         \
-        "add %3, %0			\n\t"\
-        "add %4, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "add %3, %0                       \n\t"\
+        "add %4, %1                       \n\t"\
+        "decl %2                          \n\t"\
+        " jnz 1b                          \n\t"\
         : "+a"(src), "+c"(dst), "+m"(h)\
         : "S"((long)srcStride), "D"((long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(temp), "m"(ROUNDER)\
         : "memory"\
@@ -1995,13 +1995,13 @@ static void OPNAME ## mpeg4_qpel8_h_lowpass_3dnow(uint8_t *dst, uint8_t *src, in
         temp[ 6]= (src[ 6]+src[ 7])*20 - (src[ 5]+src[ 8])*6 + (src[ 4]+src[ 8])*3 - (src[ 3]+src[ 7]);\
         temp[ 7]= (src[ 7]+src[ 8])*20 - (src[ 6]+src[ 8])*6 + (src[ 5]+src[ 7])*3 - (src[ 4]+src[ 6]);\
         asm volatile(\
-            "movq (%0), %%mm0		\n\t"\
-            "movq 8(%0), %%mm1		\n\t"\
-            "paddw %2, %%mm0		\n\t"\
-            "paddw %2, %%mm1		\n\t"\
-            "psraw $5, %%mm0		\n\t"\
-            "psraw $5, %%mm1		\n\t"\
-            "packuswb %%mm1, %%mm0	\n\t"\
+            "movq (%0), %%mm0           \n\t"\
+            "movq 8(%0), %%mm1          \n\t"\
+            "paddw %2, %%mm0            \n\t"\
+            "paddw %2, %%mm1            \n\t"\
+            "psraw $5, %%mm0            \n\t"\
+            "psraw $5, %%mm1            \n\t"\
+            "packuswb %%mm1, %%mm0      \n\t"\
             OP_3DNOW(%%mm0, (%1), %%mm1, q)\
             :: "r"(temp), "r"(dst), "m"(ROUNDER)\
             :"memory"\
@@ -2020,24 +2020,24 @@ static void OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(uint8_t *dst, uint8_t *src,
 \
     /*FIXME unroll */\
     asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "1:				\n\t"\
-        "movq (%0), %%mm0		\n\t"\
-        "movq (%0), %%mm1		\n\t"\
-        "movq 8(%0), %%mm2		\n\t"\
-        "movq 8(%0), %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "punpckhbw %%mm7, %%mm1		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpckhbw %%mm7, %%mm3		\n\t"\
-        "movq %%mm0, (%1)		\n\t"\
-        "movq %%mm1, 17*8(%1)		\n\t"\
-        "movq %%mm2, 2*17*8(%1)		\n\t"\
-        "movq %%mm3, 3*17*8(%1)		\n\t"\
-        "add $8, %1			\n\t"\
-        "add %3, %0			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "pxor %%mm7, %%mm7              \n\t"\
+        "1:                             \n\t"\
+        "movq (%0), %%mm0               \n\t"\
+        "movq (%0), %%mm1               \n\t"\
+        "movq 8(%0), %%mm2              \n\t"\
+        "movq 8(%0), %%mm3              \n\t"\
+        "punpcklbw %%mm7, %%mm0         \n\t"\
+        "punpckhbw %%mm7, %%mm1         \n\t"\
+        "punpcklbw %%mm7, %%mm2         \n\t"\
+        "punpckhbw %%mm7, %%mm3         \n\t"\
+        "movq %%mm0, (%1)               \n\t"\
+        "movq %%mm1, 17*8(%1)           \n\t"\
+        "movq %%mm2, 2*17*8(%1)         \n\t"\
+        "movq %%mm3, 3*17*8(%1)         \n\t"\
+        "add $8, %1                     \n\t"\
+        "add %3, %0                     \n\t"\
+        "decl %2                        \n\t"\
+        " jnz 1b                        \n\t"\
         : "+r" (src), "+r" (temp_ptr), "+r"(count)\
         : "r" ((long)srcStride)\
         : "memory"\
@@ -2048,42 +2048,42 @@ static void OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(uint8_t *dst, uint8_t *src,
     \
 /*FIXME reorder for speed */\
     asm volatile(\
-        /*"pxor %%mm7, %%mm7		\n\t"*/\
-        "1:				\n\t"\
-        "movq (%0), %%mm0		\n\t"\
-        "movq 8(%0), %%mm1		\n\t"\
-        "movq 16(%0), %%mm2		\n\t"\
-        "movq 24(%0), %%mm3		\n\t"\
+        /*"pxor %%mm7, %%mm7              \n\t"*/\
+        "1:                             \n\t"\
+        "movq (%0), %%mm0               \n\t"\
+        "movq 8(%0), %%mm1              \n\t"\
+        "movq 16(%0), %%mm2             \n\t"\
+        "movq 24(%0), %%mm3             \n\t"\
         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0),  8(%0),   (%0), 32(%0), (%1), OP)\
         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5,  8(%0),   (%0),   (%0), 40(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5,   (%0),   (%0),  8(%0), 48(%0), (%1), OP)\
         \
         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5,   (%0),  8(%0), 16(%0), 56(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5,  8(%0), 16(%0), 24(%0), 64(%0), (%1), OP)\
         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0), 24(%0), 32(%0), 72(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0), 32(%0), 40(%0), 80(%0), (%1), OP)\
         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0), 40(%0), 48(%0), 88(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 40(%0), 48(%0), 56(%0), 96(%0), (%1), OP)\
         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 48(%0), 56(%0), 64(%0),104(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 56(%0), 64(%0), 72(%0),112(%0), (%1), OP)\
         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 64(%0), 72(%0), 80(%0),120(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 72(%0), 80(%0), 88(%0),128(%0), (%1), OP)\
         \
         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 80(%0), 88(%0), 96(%0),128(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"  \
+        "add %4, %1                     \n\t"  \
         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 88(%0), 96(%0),104(%0),120(%0), (%1), OP)\
         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 96(%0),104(%0),112(%0),112(%0), (%1, %3), OP)\
         \
-        "add $136, %0			\n\t"\
-        "add %6, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "add $136, %0                   \n\t"\
+        "add %6, %1                     \n\t"\
+        "decl %2                        \n\t"\
+        " jnz 1b                        \n\t"\
         \
         : "+r"(temp_ptr), "+r"(dst), "+g"(count)\
         : "r"((long)dstStride), "r"(2*(long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(ROUNDER), "g"(4-14*(long)dstStride)\
@@ -2098,18 +2098,18 @@ static void OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(uint8_t *dst, uint8_t *src,
 \
     /*FIXME unroll */\
     asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "1:				\n\t"\
-        "movq (%0), %%mm0		\n\t"\
-        "movq (%0), %%mm1		\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "punpckhbw %%mm7, %%mm1		\n\t"\
-        "movq %%mm0, (%1)		\n\t"\
-        "movq %%mm1, 9*8(%1)		\n\t"\
-        "add $8, %1			\n\t"\
-        "add %3, %0			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "pxor %%mm7, %%mm7              \n\t"\
+        "1:                             \n\t"\
+        "movq (%0), %%mm0               \n\t"\
+        "movq (%0), %%mm1               \n\t"\
+        "punpcklbw %%mm7, %%mm0         \n\t"\
+        "punpckhbw %%mm7, %%mm1         \n\t"\
+        "movq %%mm0, (%1)               \n\t"\
+        "movq %%mm1, 9*8(%1)            \n\t"\
+        "add $8, %1                     \n\t"\
+        "add %3, %0                     \n\t"\
+        "decl %2                        \n\t"\
+        " jnz 1b                        \n\t"\
         : "+r" (src), "+r" (temp_ptr), "+r"(count)\
         : "r" ((long)srcStride)\
         : "memory"\
@@ -2120,30 +2120,30 @@ static void OPNAME ## mpeg4_qpel8_v_lowpass_ ## MMX(uint8_t *dst, uint8_t *src,
     \
 /*FIXME reorder for speed */\
     asm volatile(\
-        /*"pxor %%mm7, %%mm7		\n\t"*/\
-        "1:				\n\t"\
-        "movq (%0), %%mm0		\n\t"\
-        "movq 8(%0), %%mm1		\n\t"\
-        "movq 16(%0), %%mm2		\n\t"\
-        "movq 24(%0), %%mm3		\n\t"\
+        /*"pxor %%mm7, %%mm7              \n\t"*/\
+        "1:                             \n\t"\
+        "movq (%0), %%mm0               \n\t"\
+        "movq 8(%0), %%mm1              \n\t"\
+        "movq 16(%0), %%mm2             \n\t"\
+        "movq 24(%0), %%mm3             \n\t"\
         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5, 16(%0),  8(%0),   (%0), 32(%0), (%1), OP)\
         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5,  8(%0),   (%0),   (%0), 40(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5,   (%0),   (%0),  8(%0), 48(%0), (%1), OP)\
         \
         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5,   (%0),  8(%0), 16(%0), 56(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm0, %%mm1, %%mm2, %%mm3, %5, %6, %5,  8(%0), 16(%0), 24(%0), 64(%0), (%1), OP)\
         \
         QPEL_V_LOW(%%mm1, %%mm2, %%mm3, %%mm0, %5, %6, %5, 16(%0), 24(%0), 32(%0), 64(%0), (%1, %3), OP)\
-        "add %4, %1			\n\t"\
+        "add %4, %1                     \n\t"\
         QPEL_V_LOW(%%mm2, %%mm3, %%mm0, %%mm1, %5, %6, %5, 24(%0), 32(%0), 40(%0), 56(%0), (%1), OP)\
         QPEL_V_LOW(%%mm3, %%mm0, %%mm1, %%mm2, %5, %6, %5, 32(%0), 40(%0), 48(%0), 48(%0), (%1, %3), OP)\
                 \
-        "add $72, %0			\n\t"\
-        "add %6, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "add $72, %0                    \n\t"\
+        "add %6, %1                     \n\t"\
+        "decl %2                        \n\t"\
+        " jnz 1b                        \n\t"\
          \
         : "+r"(temp_ptr), "+r"(dst), "+g"(count)\
         : "r"((long)dstStride), "r"(2*(long)dstStride), /*"m"(ff_pw_20), "m"(ff_pw_3),*/ "m"(ROUNDER), "g"(4-6*(long)dstStride)\
@@ -2374,15 +2374,15 @@ static void OPNAME ## qpel16_mc22_ ## MMX(uint8_t *dst, uint8_t *src, int stride
     OPNAME ## mpeg4_qpel16_v_lowpass_ ## MMX(dst, halfH, stride, 16);\
 }
 
-#define PUT_OP(a,b,temp, size) "mov" #size " " #a ", " #b "	\n\t"
+#define PUT_OP(a,b,temp, size) "mov" #size " " #a ", " #b "        \n\t"
 #define AVG_3DNOW_OP(a,b,temp, size) \
-"mov" #size " " #b ", " #temp "	\n\t"\
-"pavgusb " #temp ", " #a "	\n\t"\
-"mov" #size " " #a ", " #b "	\n\t"
+"mov" #size " " #b ", " #temp "   \n\t"\
+"pavgusb " #temp ", " #a "        \n\t"\
+"mov" #size " " #a ", " #b "      \n\t"
 #define AVG_MMX2_OP(a,b,temp, size) \
-"mov" #size " " #b ", " #temp "	\n\t"\
-"pavgb " #temp ", " #a "	\n\t"\
-"mov" #size " " #a ", " #b "	\n\t"
+"mov" #size " " #b ", " #temp "   \n\t"\
+"pavgb " #temp ", " #a "          \n\t"\
+"mov" #size " " #a ", " #b "      \n\t"
 
 QPEL_BASE(put_       , ff_pw_16, _       , PUT_OP, PUT_OP)
 QPEL_BASE(avg_       , ff_pw_16, _       , AVG_MMX2_OP, AVG_3DNOW_OP)
@@ -2410,40 +2410,40 @@ static int try_8x8basis_mmx(int16_t rem[64], int16_t weight[64], int16_t basis[6
     scale<<= 16 + 1 - BASIS_SHIFT + RECON_SHIFT;
 
     asm volatile(
-        "pcmpeqw %%mm6, %%mm6		\n\t" // -1w
-        "psrlw $15, %%mm6		\n\t" //  1w
-        "pxor %%mm7, %%mm7		\n\t"
-        "movd  %4, %%mm5		\n\t"
-        "punpcklwd %%mm5, %%mm5		\n\t"
-        "punpcklwd %%mm5, %%mm5		\n\t"
-        "1:				\n\t"
-        "movq  (%1, %0), %%mm0		\n\t"
-        "movq  8(%1, %0), %%mm1		\n\t"
-        "pmulhw %%mm5, %%mm0		\n\t"
-        "pmulhw %%mm5, %%mm1		\n\t"
-        "paddw %%mm6, %%mm0		\n\t"
-        "paddw %%mm6, %%mm1		\n\t"
-        "psraw $1, %%mm0		\n\t"
-        "psraw $1, %%mm1		\n\t"
-        "paddw (%2, %0), %%mm0		\n\t"
-        "paddw 8(%2, %0), %%mm1		\n\t"
-        "psraw $6, %%mm0		\n\t"
-        "psraw $6, %%mm1		\n\t"
-        "pmullw (%3, %0), %%mm0		\n\t"
-        "pmullw 8(%3, %0), %%mm1	\n\t"
-        "pmaddwd %%mm0, %%mm0		\n\t"
-        "pmaddwd %%mm1, %%mm1		\n\t"
-        "paddd %%mm1, %%mm0		\n\t"
-        "psrld $4, %%mm0		\n\t"
-        "paddd %%mm0, %%mm7		\n\t"
-        "add $16, %0			\n\t"
-        "cmp $128, %0			\n\t" //FIXME optimize & bench
-        " jb 1b				\n\t"
-        "movq %%mm7, %%mm6		\n\t"
-        "psrlq $32, %%mm7		\n\t"
-        "paddd %%mm6, %%mm7		\n\t"
-        "psrld $2, %%mm7		\n\t"
-        "movd %%mm7, %0			\n\t"
+        "pcmpeqw %%mm6, %%mm6           \n\t" // -1w
+        "psrlw $15, %%mm6               \n\t" //  1w
+        "pxor %%mm7, %%mm7              \n\t"
+        "movd  %4, %%mm5                \n\t"
+        "punpcklwd %%mm5, %%mm5         \n\t"
+        "punpcklwd %%mm5, %%mm5         \n\t"
+        "1:                             \n\t"
+        "movq  (%1, %0), %%mm0          \n\t"
+        "movq  8(%1, %0), %%mm1         \n\t"
+        "pmulhw %%mm5, %%mm0            \n\t"
+        "pmulhw %%mm5, %%mm1            \n\t"
+        "paddw %%mm6, %%mm0             \n\t"
+        "paddw %%mm6, %%mm1             \n\t"
+        "psraw $1, %%mm0                \n\t"
+        "psraw $1, %%mm1                \n\t"
+        "paddw (%2, %0), %%mm0          \n\t"
+        "paddw 8(%2, %0), %%mm1         \n\t"
+        "psraw $6, %%mm0                \n\t"
+        "psraw $6, %%mm1                \n\t"
+        "pmullw (%3, %0), %%mm0         \n\t"
+        "pmullw 8(%3, %0), %%mm1        \n\t"
+        "pmaddwd %%mm0, %%mm0           \n\t"
+        "pmaddwd %%mm1, %%mm1           \n\t"
+        "paddd %%mm1, %%mm0             \n\t"
+        "psrld $4, %%mm0                \n\t"
+        "paddd %%mm0, %%mm7             \n\t"
+        "add $16, %0                    \n\t"
+        "cmp $128, %0                   \n\t" //FIXME optimize & bench
+        " jb 1b                         \n\t"
+        "movq %%mm7, %%mm6              \n\t"
+        "psrlq $32, %%mm7               \n\t"
+        "paddd %%mm6, %%mm7             \n\t"
+        "psrld $2, %%mm7                \n\t"
+        "movd %%mm7, %0                 \n\t"
 
         : "+r" (i)
         : "r"(basis), "r"(rem), "r"(weight), "g"(scale)
@@ -2457,27 +2457,27 @@ static void add_8x8basis_mmx(int16_t rem[64], int16_t basis[64], int scale){
     if(ABS(scale) < 256){
         scale<<= 16 + 1 - BASIS_SHIFT + RECON_SHIFT;
         asm volatile(
-                "pcmpeqw %%mm6, %%mm6		\n\t" // -1w
-                "psrlw $15, %%mm6		\n\t" //  1w
-                "movd  %3, %%mm5		\n\t"
-                "punpcklwd %%mm5, %%mm5		\n\t"
-                "punpcklwd %%mm5, %%mm5		\n\t"
-                "1:				\n\t"
-                "movq  (%1, %0), %%mm0		\n\t"
-                "movq  8(%1, %0), %%mm1		\n\t"
-                "pmulhw %%mm5, %%mm0		\n\t"
-                "pmulhw %%mm5, %%mm1		\n\t"
-                "paddw %%mm6, %%mm0		\n\t"
-                "paddw %%mm6, %%mm1		\n\t"
-                "psraw $1, %%mm0		\n\t"
-                "psraw $1, %%mm1		\n\t"
-                "paddw (%2, %0), %%mm0		\n\t"
-                "paddw 8(%2, %0), %%mm1		\n\t"
-                "movq %%mm0, (%2, %0)		\n\t"
-                "movq %%mm1, 8(%2, %0)		\n\t"
-                "add $16, %0			\n\t"
-                "cmp $128, %0			\n\t" //FIXME optimize & bench
-                " jb 1b				\n\t"
+                "pcmpeqw %%mm6, %%mm6   \n\t" // -1w
+                "psrlw $15, %%mm6       \n\t" //  1w
+                "movd  %3, %%mm5        \n\t"
+                "punpcklwd %%mm5, %%mm5 \n\t"
+                "punpcklwd %%mm5, %%mm5 \n\t"
+                "1:                     \n\t"
+                "movq  (%1, %0), %%mm0  \n\t"
+                "movq  8(%1, %0), %%mm1 \n\t"
+                "pmulhw %%mm5, %%mm0    \n\t"
+                "pmulhw %%mm5, %%mm1    \n\t"
+                "paddw %%mm6, %%mm0     \n\t"
+                "paddw %%mm6, %%mm1     \n\t"
+                "psraw $1, %%mm0        \n\t"
+                "psraw $1, %%mm1        \n\t"
+                "paddw (%2, %0), %%mm0  \n\t"
+                "paddw 8(%2, %0), %%mm1 \n\t"
+                "movq %%mm0, (%2, %0)   \n\t"
+                "movq %%mm1, 8(%2, %0)  \n\t"
+                "add $16, %0            \n\t"
+                "cmp $128, %0           \n\t" //FIXME optimize & bench
+                " jb 1b                 \n\t"
 
                 : "+r" (i)
                 : "r"(basis), "r"(rem), "g"(scale)
@@ -2569,10 +2569,10 @@ void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)
     mm_flags = mm_support();
 
     if (avctx->dsp_mask) {
-	if (avctx->dsp_mask & FF_MM_FORCE)
-	    mm_flags |= (avctx->dsp_mask & 0xffff);
-	else
-	    mm_flags &= ~(avctx->dsp_mask & 0xffff);
+        if (avctx->dsp_mask & FF_MM_FORCE)
+            mm_flags |= (avctx->dsp_mask & 0xffff);
+        else
+            mm_flags &= ~(avctx->dsp_mask & 0xffff);
     }
 
 #if 0
@@ -2598,7 +2598,7 @@ void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)
         if(dct_algo==FF_DCT_AUTO || dct_algo==FF_DCT_MMX){
             if(mm_flags & MM_SSE2){
                 c->fdct = ff_fdct_sse2;
-	    }else if(mm_flags & MM_MMXEXT){
+            }else if(mm_flags & MM_MMXEXT){
                 c->fdct = ff_fdct_mmx2;
             }else{
                 c->fdct = ff_fdct_mmx;
@@ -2709,13 +2709,13 @@ void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)
         c->hadamard8_diff[0]= hadamard8_diff16_mmx;
         c->hadamard8_diff[1]= hadamard8_diff_mmx;
 
-	c->pix_norm1 = pix_norm1_mmx;
-	c->sse[0] = (mm_flags & MM_SSE2) ? sse16_sse2 : sse16_mmx;
-  	c->sse[1] = sse8_mmx;
+        c->pix_norm1 = pix_norm1_mmx;
+        c->sse[0] = (mm_flags & MM_SSE2) ? sse16_sse2 : sse16_mmx;
+          c->sse[1] = sse8_mmx;
         c->vsad[4]= vsad_intra16_mmx;
 
-	c->nsse[0] = nsse16_mmx;
-	c->nsse[1] = nsse8_mmx;
+        c->nsse[0] = nsse16_mmx;
+        c->nsse[1] = nsse8_mmx;
         if(!(avctx->flags & CODEC_FLAG_BITEXACT)){
             c->vsad[0] = vsad16_mmx;
         }
@@ -2729,7 +2729,7 @@ void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)
 
         c->h263_v_loop_filter= h263_v_loop_filter_mmx;
         c->h263_h_loop_filter= h263_h_loop_filter_mmx;
-	c->put_h264_chroma_pixels_tab[0]= put_h264_chroma_mc8_mmx;
+        c->put_h264_chroma_pixels_tab[0]= put_h264_chroma_mc8_mmx;
         c->put_h264_chroma_pixels_tab[1]= put_h264_chroma_mc4_mmx;
 
         if (mm_flags & MM_MMXEXT) {
@@ -2829,7 +2829,7 @@ void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)
             dspfunc(avg_h264_qpel, 2, 4);
 #undef dspfunc
 
-	    c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_mmx2;
+            c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_mmx2;
             c->avg_h264_chroma_pixels_tab[1]= avg_h264_chroma_mc4_mmx2;
             c->h264_v_loop_filter_luma= h264_v_loop_filter_luma_mmx2;
             c->h264_h_loop_filter_luma= h264_h_loop_filter_luma_mmx2;
@@ -2941,7 +2941,7 @@ void dsputil_init_mmx(DSPContext* c, AVCodecContext *avctx)
             dspfunc(avg_h264_qpel, 1, 8);
             dspfunc(avg_h264_qpel, 2, 4);
 
-	    c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_3dnow;
+            c->avg_h264_chroma_pixels_tab[0]= avg_h264_chroma_mc8_3dnow;
             c->avg_h264_chroma_pixels_tab[1]= avg_h264_chroma_mc4_3dnow;
         }
     }
diff --git a/libavcodec/i386/dsputil_mmx_avg.h b/libavcodec/i386/dsputil_mmx_avg.h
index 434bc3a0e8..684687b9ed 100644
--- a/libavcodec/i386/dsputil_mmx_avg.h
+++ b/libavcodec/i386/dsputil_mmx_avg.h
@@ -28,522 +28,522 @@
 static void DEF(put_pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"1:				\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	PAVGB" 1(%1), %%mm0		\n\t"
-	PAVGB" 1(%1, %3), %%mm1		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	PAVGB" 1(%1), %%mm0		\n\t"
-	PAVGB" 1(%1, %3), %%mm1		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "1:                             \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        PAVGB" 1(%1), %%mm0             \n\t"
+        PAVGB" 1(%1, %3), %%mm1         \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        PAVGB" 1(%1), %%mm0             \n\t"
+        PAVGB" 1(%1, %3), %%mm1         \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 static void DEF(put_pixels4_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movd	(%1), %%mm0		\n\t"
-	"movd	(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$4, %2			\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	"movd	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movd	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movd	(%1), %%mm1		\n\t"
-	"movd	(%2), %%mm2		\n\t"
-	"movd	4(%2), %%mm3		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" %%mm2, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm1		\n\t"
-	"movd	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movd	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movd	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movd	(%1), %%mm1		\n\t"
-	"movd	8(%2), %%mm2		\n\t"
-	"movd	12(%2), %%mm3		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" %%mm2, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm1		\n\t"
-	"movd	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movd	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$16, %2			\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movd   (%1), %%mm0             \n\t"
+        "movd   (%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $4, %2                  \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        "movd   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movd   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movd   (%1), %%mm1             \n\t"
+        "movd   (%2), %%mm2             \n\t"
+        "movd   4(%2), %%mm3            \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" %%mm2, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm1             \n\t"
+        "movd   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movd   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movd   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movd   (%1), %%mm1             \n\t"
+        "movd   8(%2), %%mm2            \n\t"
+        "movd   12(%2), %%mm3           \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" %%mm2, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm1             \n\t"
+        "movd   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movd   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $16, %2                 \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 }
 
 
 static void DEF(put_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$8, %2			\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" 8(%2), %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" 16(%2), %%mm0		\n\t"
-	PAVGB" 24(%2), %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$32, %2			\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   (%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $8, %2                  \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" 8(%2), %%mm1             \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" 16(%2), %%mm0            \n\t"
+        PAVGB" 24(%2), %%mm1            \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $32, %2                 \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 //the following should be used, though better not with gcc ...
-/*	:"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
-	:"r"(src1Stride), "r"(dstStride)
-	:"memory");*/
+/*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
+        :"r"(src1Stride), "r"(dstStride)
+        :"memory");*/
 }
 
 static void DEF(put_no_rnd_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"pcmpeqb %%mm6, %%mm6	\n\t"
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$8, %2			\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%2), %%mm2		\n\t"
-	"movq	8(%2), %%mm3		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"pxor %%mm6, %%mm2		\n\t"
-	"pxor %%mm6, %%mm3		\n\t"
-	PAVGB" %%mm2, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm1		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	16(%2), %%mm2		\n\t"
-	"movq	24(%2), %%mm3		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"pxor %%mm6, %%mm2		\n\t"
-	"pxor %%mm6, %%mm3		\n\t"
-	PAVGB" %%mm2, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm1		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$32, %2			\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
+        "pcmpeqb %%mm6, %%mm6           \n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   (%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $8, %2                  \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%2), %%mm2             \n\t"
+        "movq   8(%2), %%mm3            \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "pxor %%mm6, %%mm2              \n\t"
+        "pxor %%mm6, %%mm3              \n\t"
+        PAVGB" %%mm2, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm1             \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   16(%2), %%mm2           \n\t"
+        "movq   24(%2), %%mm3           \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "pxor %%mm6, %%mm2              \n\t"
+        "pxor %%mm6, %%mm3              \n\t"
+        PAVGB" %%mm2, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm1             \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $32, %2                 \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 //the following should be used, though better not with gcc ...
-/*	:"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
-	:"r"(src1Stride), "r"(dstStride)
-	:"memory");*/
+/*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
+        :"r"(src1Stride), "r"(dstStride)
+        :"memory");*/
 }
 
 static void DEF(avg_pixels4_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movd	(%1), %%mm0		\n\t"
-	"movd	(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$4, %2			\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" (%3), %%mm0		\n\t"
-	"movd	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movd	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movd	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" 4(%2), %%mm1		\n\t"
-	PAVGB" (%3), %%mm0	 	\n\t"
-	"movd	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	PAVGB" (%3), %%mm1	 	\n\t"
-	"movd	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movd	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movd	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" 8(%2), %%mm0		\n\t"
-	PAVGB" 12(%2), %%mm1		\n\t"
-	PAVGB" (%3), %%mm0	 	\n\t"
-	"movd	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	PAVGB" (%3), %%mm1	 	\n\t"
-	"movd	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$16, %2			\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movd   (%1), %%mm0             \n\t"
+        "movd   (%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $4, %2                  \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        "movd   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movd   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movd   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" 4(%2), %%mm1             \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        "movd   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        PAVGB" (%3), %%mm1              \n\t"
+        "movd   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movd   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movd   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" 8(%2), %%mm0             \n\t"
+        PAVGB" 12(%2), %%mm1            \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        "movd   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        PAVGB" (%3), %%mm1              \n\t"
+        "movd   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $16, %2                 \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 }
 
 
 static void DEF(avg_pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$8, %2			\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" (%3), %%mm0		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" 8(%2), %%mm1		\n\t"
-	PAVGB" (%3), %%mm0	 	\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	PAVGB" (%3), %%mm1	 	\n\t"
-	"movq	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" 16(%2), %%mm0		\n\t"
-	PAVGB" 24(%2), %%mm1		\n\t"
-	PAVGB" (%3), %%mm0	 	\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	PAVGB" (%3), %%mm1	 	\n\t"
-	"movq	%%mm1, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$32, %2			\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   (%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $8, %2                  \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" 8(%2), %%mm1             \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        PAVGB" (%3), %%mm1              \n\t"
+        "movq   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" 16(%2), %%mm0            \n\t"
+        PAVGB" 24(%2), %%mm1            \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        PAVGB" (%3), %%mm1              \n\t"
+        "movq   %%mm1, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $32, %2                 \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 //the following should be used, though better not with gcc ...
-/*	:"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
-	:"r"(src1Stride), "r"(dstStride)
-	:"memory");*/
+/*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
+        :"r"(src1Stride), "r"(dstStride)
+        :"memory");*/
 }
 
 static void DEF(put_pixels16_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"1:				\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq 8(%1), %%mm2		\n\t"
-	"movq 8(%1, %3), %%mm3		\n\t"
-	PAVGB" 1(%1), %%mm0		\n\t"
-	PAVGB" 1(%1, %3), %%mm1		\n\t"
-	PAVGB" 9(%1), %%mm2		\n\t"
-	PAVGB" 9(%1, %3), %%mm3		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"movq %%mm2, 8(%2)		\n\t"
-	"movq %%mm3, 8(%2, %3)		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq 8(%1), %%mm2		\n\t"
-	"movq 8(%1, %3), %%mm3		\n\t"
-	PAVGB" 1(%1), %%mm0		\n\t"
-	PAVGB" 1(%1, %3), %%mm1		\n\t"
-	PAVGB" 9(%1), %%mm2		\n\t"
-	PAVGB" 9(%1, %3), %%mm3		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"movq %%mm2, 8(%2)		\n\t"
-	"movq %%mm3, 8(%2, %3)		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "1:                             \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq 8(%1), %%mm2              \n\t"
+        "movq 8(%1, %3), %%mm3          \n\t"
+        PAVGB" 1(%1), %%mm0             \n\t"
+        PAVGB" 1(%1, %3), %%mm1         \n\t"
+        PAVGB" 9(%1), %%mm2             \n\t"
+        PAVGB" 9(%1, %3), %%mm3         \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "movq %%mm2, 8(%2)              \n\t"
+        "movq %%mm3, 8(%2, %3)          \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq 8(%1), %%mm2              \n\t"
+        "movq 8(%1, %3), %%mm3          \n\t"
+        PAVGB" 1(%1), %%mm0             \n\t"
+        PAVGB" 1(%1, %3), %%mm1         \n\t"
+        PAVGB" 9(%1), %%mm2             \n\t"
+        PAVGB" 9(%1, %3), %%mm3         \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "movq %%mm2, 8(%2)              \n\t"
+        "movq %%mm3, 8(%2, %3)          \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 static void DEF(put_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" 8(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$16, %2			\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" 8(%2), %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" 16(%2), %%mm0		\n\t"
-	PAVGB" 24(%2), %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$32, %2			\n\t"
-	"subl	$2, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" 8(%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $16, %2                 \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" 8(%2), %%mm1             \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" 16(%2), %%mm0            \n\t"
+        PAVGB" 24(%2), %%mm1            \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $32, %2                 \n\t"
+        "subl   $2, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 //the following should be used, though better not with gcc ...
-/*	:"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
-	:"r"(src1Stride), "r"(dstStride)
-	:"memory");*/
+/*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
+        :"r"(src1Stride), "r"(dstStride)
+        :"memory");*/
 }
 
 static void DEF(avg_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" 8(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$16, %2			\n\t"
-	PAVGB" (%3), %%mm0		\n\t"
-	PAVGB" 8(%3), %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" 8(%2), %%mm1		\n\t"
-	PAVGB" (%3), %%mm0		\n\t"
-	PAVGB" 8(%3), %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGB" 16(%2), %%mm0		\n\t"
-	PAVGB" 24(%2), %%mm1		\n\t"
-	PAVGB" (%3), %%mm0		\n\t"
-	PAVGB" 8(%3), %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$32, %2			\n\t"
-	"subl	$2, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" 8(%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $16, %2                 \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        PAVGB" 8(%3), %%mm1             \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" 8(%2), %%mm1             \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        PAVGB" 8(%3), %%mm1             \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGB" 16(%2), %%mm0            \n\t"
+        PAVGB" 24(%2), %%mm1            \n\t"
+        PAVGB" (%3), %%mm0              \n\t"
+        PAVGB" 8(%3), %%mm1             \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $32, %2                 \n\t"
+        "subl   $2, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 //the following should be used, though better not with gcc ...
-/*	:"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
-	:"r"(src1Stride), "r"(dstStride)
-	:"memory");*/
+/*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
+        :"r"(src1Stride), "r"(dstStride)
+        :"memory");*/
 }
 
 static void DEF(put_no_rnd_pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     __asm __volatile(
-	"pcmpeqb %%mm6, %%mm6\n\t"
-	"testl $1, %0			\n\t"
-	    " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	"movq	(%2), %%mm2		\n\t"
-	"movq	8(%2), %%mm3		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"pxor %%mm6, %%mm2		\n\t"
-	"pxor %%mm6, %%mm3		\n\t"
-	PAVGB" %%mm2, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm1		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$16, %2			\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%2), %%mm2		\n\t"
-	"movq	8(%2), %%mm3		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"pxor %%mm6, %%mm2		\n\t"
-	"pxor %%mm6, %%mm3		\n\t"
-	PAVGB" %%mm2, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm1		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	8(%1), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	16(%2), %%mm2		\n\t"
-	"movq	24(%2), %%mm3		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"pxor %%mm6, %%mm2		\n\t"
-	"pxor %%mm6, %%mm3		\n\t"
-	PAVGB" %%mm2, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm1		\n\t"
-	"pxor %%mm6, %%mm0		\n\t"
-	"pxor %%mm6, %%mm1		\n\t"
-	"movq	%%mm0, (%3)		\n\t"
-	"movq	%%mm1, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$32, %2			\n\t"
-	"subl	$2, %0			\n\t"
-	"jnz	1b			\n\t"
+        "pcmpeqb %%mm6, %%mm6           \n\t"
+        "testl $1, %0                   \n\t"
+            " jz 1f                     \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        "movq   (%2), %%mm2             \n\t"
+        "movq   8(%2), %%mm3            \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "pxor %%mm6, %%mm2              \n\t"
+        "pxor %%mm6, %%mm3              \n\t"
+        PAVGB" %%mm2, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm1             \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $16, %2                 \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%2), %%mm2             \n\t"
+        "movq   8(%2), %%mm3            \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "pxor %%mm6, %%mm2              \n\t"
+        "pxor %%mm6, %%mm3              \n\t"
+        PAVGB" %%mm2, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm1             \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   8(%1), %%mm1            \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   16(%2), %%mm2           \n\t"
+        "movq   24(%2), %%mm3           \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "pxor %%mm6, %%mm2              \n\t"
+        "pxor %%mm6, %%mm3              \n\t"
+        PAVGB" %%mm2, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm1             \n\t"
+        "pxor %%mm6, %%mm0              \n\t"
+        "pxor %%mm6, %%mm1              \n\t"
+        "movq   %%mm0, (%3)             \n\t"
+        "movq   %%mm1, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $32, %2                 \n\t"
+        "subl   $2, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 //the following should be used, though better not with gcc ...
-/*	:"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
-	:"r"(src1Stride), "r"(dstStride)
-	:"memory");*/
+/*        :"+g"(h), "+r"(src1), "+r"(src2), "+r"(dst)
+        :"r"(src1Stride), "r"(dstStride)
+        :"memory");*/
 }
 
 /* GL: this function does incorrect rounding if overflow */
@@ -551,67 +551,67 @@ static void DEF(put_no_rnd_pixels8_x2)(uint8_t *block, const uint8_t *pixels, in
 {
     MOVQ_BONE(mm6);
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"1:				\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq (%1, %3), %%mm2		\n\t"
-	"movq 1(%1), %%mm1		\n\t"
-	"movq 1(%1, %3), %%mm3		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"psubusb %%mm6, %%mm0		\n\t"
-	"psubusb %%mm6, %%mm2		\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm2		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm2, (%2, %3)		\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq 1(%1), %%mm1		\n\t"
-	"movq (%1, %3), %%mm2		\n\t"
-	"movq 1(%1, %3), %%mm3		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"psubusb %%mm6, %%mm0		\n\t"
-	"psubusb %%mm6, %%mm2		\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" %%mm3, %%mm2		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm2, (%2, %3)		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "1:                             \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq (%1, %3), %%mm2           \n\t"
+        "movq 1(%1), %%mm1              \n\t"
+        "movq 1(%1, %3), %%mm3          \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "psubusb %%mm6, %%mm0           \n\t"
+        "psubusb %%mm6, %%mm2           \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm2             \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm2, (%2, %3)           \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq 1(%1), %%mm1              \n\t"
+        "movq (%1, %3), %%mm2           \n\t"
+        "movq 1(%1, %3), %%mm3          \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "psubusb %%mm6, %%mm0           \n\t"
+        "psubusb %%mm6, %%mm2           \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" %%mm3, %%mm2             \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm2, (%2, %3)           \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 static void DEF(put_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"sub %3, %2			\n\t"
-	"1:				\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq (%1, %%"REG_a"), %%mm2	\n\t"
-	"add %%"REG_a", %1		\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" %%mm2, %%mm1		\n\t"
-	"movq %%mm0, (%2, %3)		\n\t"
-	"movq %%mm1, (%2, %%"REG_a")	\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq (%1, %%"REG_a"), %%mm0	\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	PAVGB" %%mm1, %%mm2		\n\t"
-	PAVGB" %%mm0, %%mm1		\n\t"
-	"movq %%mm2, (%2, %3)		\n\t"
-	"movq %%mm1, (%2, %%"REG_a")	\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D" (block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "sub %3, %2                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq (%1, %%"REG_a"), %%mm2    \n\t"
+        "add %%"REG_a", %1              \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" %%mm2, %%mm1             \n\t"
+        "movq %%mm0, (%2, %3)           \n\t"
+        "movq %%mm1, (%2, %%"REG_a")    \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "add %%"REG_a", %1              \n\t"
+        PAVGB" %%mm1, %%mm2             \n\t"
+        PAVGB" %%mm0, %%mm1             \n\t"
+        "movq %%mm2, (%2, %3)           \n\t"
+        "movq %%mm1, (%2, %%"REG_a")    \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D" (block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 /* GL: this function does incorrect rounding if overflow */
@@ -619,131 +619,131 @@ static void DEF(put_no_rnd_pixels8_y2)(uint8_t *block, const uint8_t *pixels, in
 {
     MOVQ_BONE(mm6);
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"sub %3, %2			\n\t"
-	"1:				\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq (%1, %%"REG_a"), %%mm2	\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"psubusb %%mm6, %%mm1		\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" %%mm2, %%mm1		\n\t"
-	"movq %%mm0, (%2, %3)		\n\t"
-	"movq %%mm1, (%2, %%"REG_a")	\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq (%1, %%"REG_a"), %%mm0	\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"psubusb %%mm6, %%mm1		\n\t"
-	PAVGB" %%mm1, %%mm2		\n\t"
-	PAVGB" %%mm0, %%mm1		\n\t"
-	"movq %%mm2, (%2, %3)		\n\t"
-	"movq %%mm1, (%2, %%"REG_a")	\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D" (block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "sub %3, %2                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq (%1, %%"REG_a"), %%mm2    \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "psubusb %%mm6, %%mm1           \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" %%mm2, %%mm1             \n\t"
+        "movq %%mm0, (%2, %3)           \n\t"
+        "movq %%mm1, (%2, %%"REG_a")    \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "psubusb %%mm6, %%mm1           \n\t"
+        PAVGB" %%mm1, %%mm2             \n\t"
+        PAVGB" %%mm0, %%mm1             \n\t"
+        "movq %%mm2, (%2, %3)           \n\t"
+        "movq %%mm1, (%2, %%"REG_a")    \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D" (block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 static void DEF(avg_pixels8)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"1:				\n\t"
-	"movq (%2), %%mm0		\n\t"
-	"movq (%2, %3), %%mm1		\n\t"
-	PAVGB" (%1), %%mm0		\n\t"
-	PAVGB" (%1, %3), %%mm1		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"movq (%2), %%mm0		\n\t"
-	"movq (%2, %3), %%mm1		\n\t"
-	PAVGB" (%1), %%mm0		\n\t"
-	PAVGB" (%1, %3), %%mm1		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "1:                             \n\t"
+        "movq (%2), %%mm0               \n\t"
+        "movq (%2, %3), %%mm1           \n\t"
+        PAVGB" (%1), %%mm0              \n\t"
+        PAVGB" (%1, %3), %%mm1          \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "movq (%2), %%mm0               \n\t"
+        "movq (%2, %3), %%mm1           \n\t"
+        PAVGB" (%1), %%mm0              \n\t"
+        PAVGB" (%1, %3), %%mm1          \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 static void DEF(avg_pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"1:				\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq (%1, %3), %%mm2		\n\t"
-	PAVGB" 1(%1), %%mm0		\n\t"
-	PAVGB" 1(%1, %3), %%mm2		\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" (%2, %3), %%mm2		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm2, (%2, %3)		\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"movq (%1, %3), %%mm2		\n\t"
-	PAVGB" 1(%1), %%mm0		\n\t"
-	PAVGB" 1(%1, %3), %%mm2		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" (%2, %3), %%mm2		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm2, (%2, %3)		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "1:                             \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq (%1, %3), %%mm2           \n\t"
+        PAVGB" 1(%1), %%mm0             \n\t"
+        PAVGB" 1(%1, %3), %%mm2         \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" (%2, %3), %%mm2          \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm2, (%2, %3)           \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "movq (%1, %3), %%mm2           \n\t"
+        PAVGB" 1(%1), %%mm0             \n\t"
+        PAVGB" 1(%1, %3), %%mm2         \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "add %%"REG_a", %1              \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" (%2, %3), %%mm2          \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm2, (%2, %3)           \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 static void DEF(avg_pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"movq (%1), %%mm0		\n\t"
-	"sub %3, %2			\n\t"
-	"1:				\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq (%1, %%"REG_a"), %%mm2	\n\t"
-	"add %%"REG_a", %1		\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" %%mm2, %%mm1		\n\t"
-	"movq (%2, %3), %%mm3		\n\t"
-	"movq (%2, %%"REG_a"), %%mm4	\n\t"
-	PAVGB" %%mm3, %%mm0		\n\t"
-	PAVGB" %%mm4, %%mm1		\n\t"
-	"movq %%mm0, (%2, %3)		\n\t"
-	"movq %%mm1, (%2, %%"REG_a")	\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq (%1, %%"REG_a"), %%mm0	\n\t"
-	PAVGB" %%mm1, %%mm2		\n\t"
-	PAVGB" %%mm0, %%mm1		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	"movq (%2, %3), %%mm3		\n\t"
-	"movq (%2, %%"REG_a"), %%mm4	\n\t"
-	PAVGB" %%mm3, %%mm2		\n\t"
-	PAVGB" %%mm4, %%mm1		\n\t"
-	"movq %%mm2, (%2, %3)		\n\t"
-	"movq %%mm1, (%2, %%"REG_a")	\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r" ((long)line_size)
-	:"%"REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "movq (%1), %%mm0               \n\t"
+        "sub %3, %2                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq (%1, %%"REG_a"), %%mm2    \n\t"
+        "add %%"REG_a", %1              \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" %%mm2, %%mm1             \n\t"
+        "movq (%2, %3), %%mm3           \n\t"
+        "movq (%2, %%"REG_a"), %%mm4    \n\t"
+        PAVGB" %%mm3, %%mm0             \n\t"
+        PAVGB" %%mm4, %%mm1             \n\t"
+        "movq %%mm0, (%2, %3)           \n\t"
+        "movq %%mm1, (%2, %%"REG_a")    \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        PAVGB" %%mm1, %%mm2             \n\t"
+        PAVGB" %%mm0, %%mm1             \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "add %%"REG_a", %1              \n\t"
+        "movq (%2, %3), %%mm3           \n\t"
+        "movq (%2, %%"REG_a"), %%mm4    \n\t"
+        PAVGB" %%mm3, %%mm2             \n\t"
+        PAVGB" %%mm4, %%mm1             \n\t"
+        "movq %%mm2, (%2, %3)           \n\t"
+        "movq %%mm1, (%2, %%"REG_a")    \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r" ((long)line_size)
+        :"%"REG_a, "memory");
 }
 
 // Note this is not correctly rounded, but this function is only used for b frames so it doesnt matter
@@ -751,41 +751,41 @@ static void DEF(avg_pixels8_xy2)(uint8_t *block, const uint8_t *pixels, int line
 {
     MOVQ_BONE(mm6);
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"movq (%1), %%mm0		\n\t"
-	PAVGB" 1(%1), %%mm0		\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq (%1, %%"REG_a"), %%mm2	\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"psubusb %%mm6, %%mm2		\n\t"
-	PAVGB" 1(%1, %3), %%mm1		\n\t"
-	PAVGB" 1(%1, %%"REG_a"), %%mm2	\n\t"
-	"add %%"REG_a", %1		\n\t"
-	PAVGB" %%mm1, %%mm0		\n\t"
-	PAVGB" %%mm2, %%mm1		\n\t"
-	PAVGB" (%2), %%mm0		\n\t"
-	PAVGB" (%2, %3), %%mm1		\n\t"
-	"movq %%mm0, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"movq (%1, %3), %%mm1		\n\t"
-	"movq (%1, %%"REG_a"), %%mm0	\n\t"
-	PAVGB" 1(%1, %3), %%mm1		\n\t"
-	PAVGB" 1(%1, %%"REG_a"), %%mm0	\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"add %%"REG_a", %1		\n\t"
-	PAVGB" %%mm1, %%mm2		\n\t"
-	PAVGB" %%mm0, %%mm1		\n\t"
-	PAVGB" (%2), %%mm2		\n\t"
-	PAVGB" (%2, %3), %%mm1		\n\t"
-	"movq %%mm2, (%2)		\n\t"
-	"movq %%mm1, (%2, %3)		\n\t"
-	"add %%"REG_a", %2		\n\t"
-	"subl $4, %0			\n\t"
-	"jnz 1b				\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r" ((long)line_size)
-	:"%"REG_a,  "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "movq (%1), %%mm0               \n\t"
+        PAVGB" 1(%1), %%mm0             \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq (%1, %%"REG_a"), %%mm2    \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "psubusb %%mm6, %%mm2           \n\t"
+        PAVGB" 1(%1, %3), %%mm1         \n\t"
+        PAVGB" 1(%1, %%"REG_a"), %%mm2  \n\t"
+        "add %%"REG_a", %1              \n\t"
+        PAVGB" %%mm1, %%mm0             \n\t"
+        PAVGB" %%mm2, %%mm1             \n\t"
+        PAVGB" (%2), %%mm0              \n\t"
+        PAVGB" (%2, %3), %%mm1          \n\t"
+        "movq %%mm0, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "movq (%1, %3), %%mm1           \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        PAVGB" 1(%1, %3), %%mm1         \n\t"
+        PAVGB" 1(%1, %%"REG_a"), %%mm0  \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "add %%"REG_a", %1              \n\t"
+        PAVGB" %%mm1, %%mm2             \n\t"
+        PAVGB" %%mm0, %%mm1             \n\t"
+        PAVGB" (%2), %%mm2              \n\t"
+        PAVGB" (%2, %3), %%mm1          \n\t"
+        "movq %%mm2, (%2)               \n\t"
+        "movq %%mm1, (%2, %3)           \n\t"
+        "add %%"REG_a", %2              \n\t"
+        "subl $4, %0                    \n\t"
+        "jnz 1b                         \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r" ((long)line_size)
+        :"%"REG_a,  "memory");
 }
 
 //FIXME the following could be optimized too ...
diff --git a/libavcodec/i386/dsputil_mmx_rnd.h b/libavcodec/i386/dsputil_mmx_rnd.h
index 6d93f9d55f..e2745c353c 100644
--- a/libavcodec/i386/dsputil_mmx_rnd.h
+++ b/libavcodec/i386/dsputil_mmx_rnd.h
@@ -27,206 +27,206 @@ static void DEF(put, pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line
 {
     MOVQ_BFE(mm6);
     __asm __volatile(
-	"lea	(%3, %3), %%"REG_a"	\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	1(%1), %%mm1		\n\t"
-	"movq	(%1, %3), %%mm2		\n\t"
-	"movq	1(%1, %3), %%mm3	\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%2)		\n\t"
-	"movq	%%mm5, (%2, %3)		\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	1(%1), %%mm1		\n\t"
-	"movq	(%1, %3), %%mm2		\n\t"
-	"movq	1(%1, %3), %%mm3	\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%2)		\n\t"
-	"movq	%%mm5, (%2, %3)		\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r"((long)line_size)
-	:REG_a, "memory");
+        "lea    (%3, %3), %%"REG_a"     \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   1(%1), %%mm1            \n\t"
+        "movq   (%1, %3), %%mm2         \n\t"
+        "movq   1(%1, %3), %%mm3        \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%2)             \n\t"
+        "movq   %%mm5, (%2, %3)         \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   1(%1), %%mm1            \n\t"
+        "movq   (%1, %3), %%mm2         \n\t"
+        "movq   1(%1, %3), %%mm3        \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%2)             \n\t"
+        "movq   %%mm5, (%2, %3)         \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r"((long)line_size)
+        :REG_a, "memory");
 }
 
 static void attribute_unused DEF(put, pixels8_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     MOVQ_BFE(mm6);
     __asm __volatile(
-	"testl $1, %0			\n\t"
-        " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$8, %2			\n\t"
-	PAVGB(%%mm0, %%mm1, %%mm4, %%mm6)
-	"movq	%%mm4, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-        "decl	%0			\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm2		\n\t"
-	"movq	8(%2), %%mm3		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	%%mm5, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	16(%2), %%mm1		\n\t"
-	"add	%4, %1			\n\t"
-	"movq	(%1), %%mm2		\n\t"
-	"movq	24(%2), %%mm3		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$32, %2			\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	%%mm5, (%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+        " jz 1f                         \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   (%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $8, %2                  \n\t"
+        PAVGB(%%mm0, %%mm1, %%mm4, %%mm6)
+        "movq   %%mm4, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   (%2), %%mm1             \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm2             \n\t"
+        "movq   8(%2), %%mm3            \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   %%mm5, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   16(%2), %%mm1           \n\t"
+        "add    %4, %1                  \n\t"
+        "movq   (%1), %%mm2             \n\t"
+        "movq   24(%2), %%mm3           \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $32, %2                 \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   %%mm5, (%3)             \n\t"
+        "add    %5, %3                  \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
         :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
         :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 }
 
 static void DEF(put, pixels16_x2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     MOVQ_BFE(mm6);
     __asm __volatile(
-	"lea	(%3, %3), %%"REG_a"	\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	1(%1), %%mm1		\n\t"
-	"movq	(%1, %3), %%mm2		\n\t"
-	"movq	1(%1, %3), %%mm3	\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%2)		\n\t"
-	"movq	%%mm5, (%2, %3)		\n\t"
-	"movq	8(%1), %%mm0		\n\t"
-	"movq	9(%1), %%mm1		\n\t"
-	"movq	8(%1, %3), %%mm2	\n\t"
-	"movq	9(%1, %3), %%mm3	\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, 8(%2)		\n\t"
-	"movq	%%mm5, 8(%2, %3)	\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	1(%1), %%mm1		\n\t"
-	"movq	(%1, %3), %%mm2		\n\t"
-	"movq	1(%1, %3), %%mm3	\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%2)		\n\t"
-	"movq	%%mm5, (%2, %3)		\n\t"
-	"movq	8(%1), %%mm0		\n\t"
-	"movq	9(%1), %%mm1		\n\t"
-	"movq	8(%1, %3), %%mm2	\n\t"
-	"movq	9(%1, %3), %%mm3	\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, 8(%2)		\n\t"
-	"movq	%%mm5, 8(%2, %3)	\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r"((long)line_size)
-	:REG_a, "memory");
+        "lea        (%3, %3), %%"REG_a" \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   1(%1), %%mm1            \n\t"
+        "movq   (%1, %3), %%mm2         \n\t"
+        "movq   1(%1, %3), %%mm3        \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%2)             \n\t"
+        "movq   %%mm5, (%2, %3)         \n\t"
+        "movq   8(%1), %%mm0            \n\t"
+        "movq   9(%1), %%mm1            \n\t"
+        "movq   8(%1, %3), %%mm2        \n\t"
+        "movq   9(%1, %3), %%mm3        \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, 8(%2)            \n\t"
+        "movq   %%mm5, 8(%2, %3)        \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   1(%1), %%mm1            \n\t"
+        "movq   (%1, %3), %%mm2         \n\t"
+        "movq   1(%1, %3), %%mm3        \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%2)             \n\t"
+        "movq   %%mm5, (%2, %3)         \n\t"
+        "movq   8(%1), %%mm0            \n\t"
+        "movq   9(%1), %%mm1            \n\t"
+        "movq   8(%1, %3), %%mm2        \n\t"
+        "movq   9(%1, %3), %%mm3        \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, 8(%2)            \n\t"
+        "movq   %%mm5, 8(%2, %3)        \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r"((long)line_size)
+        :REG_a, "memory");
 }
 
 static void attribute_unused DEF(put, pixels16_l2)(uint8_t *dst, uint8_t *src1, uint8_t *src2, int dstStride, int src1Stride, int h)
 {
     MOVQ_BFE(mm6);
     __asm __volatile(
-	"testl $1, %0			\n\t"
-        " jz 1f				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	(%2), %%mm1		\n\t"
-	"movq	8(%1), %%mm2		\n\t"
-	"movq	8(%2), %%mm3		\n\t"
-	"add	%4, %1			\n\t"
-	"add	$16, %2			\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%3)		\n\t"
-	"movq	%%mm5, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"decl	%0			\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	(%2), %%mm1		\n\t"
-	"movq	8(%1), %%mm2		\n\t"
-	"movq	8(%2), %%mm3		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%3)		\n\t"
-	"movq	%%mm5, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	"movq	16(%2), %%mm1		\n\t"
-	"movq	8(%1), %%mm2		\n\t"
-	"movq	24(%2), %%mm3		\n\t"
-	"add	%4, %1			\n\t"
-	PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
-	"movq	%%mm4, (%3)		\n\t"
-	"movq	%%mm5, 8(%3)		\n\t"
-	"add	%5, %3			\n\t"
-	"add	$32, %2			\n\t"
-	"subl	$2, %0			\n\t"
-	"jnz	1b			\n\t"
+        "testl $1, %0                   \n\t"
+        " jz 1f                         \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   (%2), %%mm1             \n\t"
+        "movq   8(%1), %%mm2            \n\t"
+        "movq   8(%2), %%mm3            \n\t"
+        "add    %4, %1                  \n\t"
+        "add    $16, %2                 \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%3)             \n\t"
+        "movq   %%mm5, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "decl   %0                      \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   (%2), %%mm1             \n\t"
+        "movq   8(%1), %%mm2            \n\t"
+        "movq   8(%2), %%mm3            \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%3)             \n\t"
+        "movq   %%mm5, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   16(%2), %%mm1           \n\t"
+        "movq   8(%1), %%mm2            \n\t"
+        "movq   24(%2), %%mm3           \n\t"
+        "add    %4, %1                  \n\t"
+        PAVGBP(%%mm0, %%mm1, %%mm4,   %%mm2, %%mm3, %%mm5)
+        "movq   %%mm4, (%3)             \n\t"
+        "movq   %%mm5, 8(%3)            \n\t"
+        "add    %5, %3                  \n\t"
+        "add    $32, %2                 \n\t"
+        "subl   $2, %0                  \n\t"
+        "jnz    1b                      \n\t"
 #ifdef PIC //Note "+bm" and "+mb" are buggy too (with gcc 3.2.2 at least) and cant be used
-	:"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+m"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #else
-	:"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
+        :"+b"(h), "+a"(src1), "+c"(src2), "+d"(dst)
 #endif
-	:"S"((long)src1Stride), "D"((long)dstStride)
-	:"memory");
+        :"S"((long)src1Stride), "D"((long)dstStride)
+        :"memory");
 }
 
 static void DEF(put, pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
 {
     MOVQ_BFE(mm6);
     __asm __volatile(
-	"lea (%3, %3), %%"REG_a"	\n\t"
-	"movq (%1), %%mm0		\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq	(%1, %3), %%mm1		\n\t"
-	"movq	(%1, %%"REG_a"),%%mm2	\n\t"
-	PAVGBP(%%mm1, %%mm0, %%mm4,   %%mm2, %%mm1, %%mm5)
-	"movq	%%mm4, (%2)		\n\t"
-	"movq	%%mm5, (%2, %3)		\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
-	"movq	(%1, %3), %%mm1		\n\t"
-	"movq	(%1, %%"REG_a"),%%mm0	\n\t"
-	PAVGBP(%%mm1, %%mm2, %%mm4,   %%mm0, %%mm1, %%mm5)
-	"movq	%%mm4, (%2)		\n\t"
-	"movq	%%mm5, (%2, %3)		\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r"((long)line_size)
-	:REG_a, "memory");
+        "lea (%3, %3), %%"REG_a"        \n\t"
+        "movq (%1), %%mm0               \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1, %3), %%mm1         \n\t"
+        "movq   (%1, %%"REG_a"),%%mm2   \n\t"
+        PAVGBP(%%mm1, %%mm0, %%mm4,   %%mm2, %%mm1, %%mm5)
+        "movq   %%mm4, (%2)             \n\t"
+        "movq   %%mm5, (%2, %3)         \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
+        "movq   (%1, %3), %%mm1         \n\t"
+        "movq   (%1, %%"REG_a"),%%mm0   \n\t"
+        PAVGBP(%%mm1, %%mm2, %%mm4,   %%mm0, %%mm1, %%mm5)
+        "movq   %%mm4, (%2)             \n\t"
+        "movq   %%mm5, (%2, %3)         \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r"((long)line_size)
+        :REG_a, "memory");
 }
 
 static void DEF(put, pixels8_xy2)(uint8_t *block, const uint8_t *pixels, int line_size, int h)
@@ -234,65 +234,65 @@ static void DEF(put, pixels8_xy2)(uint8_t *block, const uint8_t *pixels, int lin
     MOVQ_ZERO(mm7);
     SET_RND(mm6); // =2 for rnd  and  =1 for no_rnd version
     __asm __volatile(
-	"movq	(%1), %%mm0		\n\t"
-	"movq	1(%1), %%mm4		\n\t"
-	"movq	%%mm0, %%mm1		\n\t"
-	"movq	%%mm4, %%mm5		\n\t"
-	"punpcklbw %%mm7, %%mm0		\n\t"
-	"punpcklbw %%mm7, %%mm4		\n\t"
-	"punpckhbw %%mm7, %%mm1		\n\t"
-	"punpckhbw %%mm7, %%mm5		\n\t"
-	"paddusw %%mm0, %%mm4		\n\t"
-	"paddusw %%mm1, %%mm5		\n\t"
-	"xor	%%"REG_a", %%"REG_a"	\n\t"
-	"add	%3, %1			\n\t"
-	".balign 8      		\n\t"
-	"1:				\n\t"
-	"movq	(%1, %%"REG_a"), %%mm0	\n\t"
-	"movq	1(%1, %%"REG_a"), %%mm2	\n\t"
-	"movq	%%mm0, %%mm1		\n\t"
-	"movq	%%mm2, %%mm3		\n\t"
-	"punpcklbw %%mm7, %%mm0		\n\t"
-	"punpcklbw %%mm7, %%mm2		\n\t"
-	"punpckhbw %%mm7, %%mm1		\n\t"
-	"punpckhbw %%mm7, %%mm3		\n\t"
-	"paddusw %%mm2, %%mm0	 	\n\t"
-	"paddusw %%mm3, %%mm1		\n\t"
-	"paddusw %%mm6, %%mm4		\n\t"
-	"paddusw %%mm6, %%mm5		\n\t"
-	"paddusw %%mm0, %%mm4		\n\t"
-	"paddusw %%mm1, %%mm5		\n\t"
-	"psrlw	$2, %%mm4		\n\t"
-	"psrlw	$2, %%mm5		\n\t"
-	"packuswb  %%mm5, %%mm4		\n\t"
-	"movq	%%mm4, (%2, %%"REG_a")	\n\t"
-	"add	%3, %%"REG_a"		\n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   1(%1), %%mm4            \n\t"
+        "movq   %%mm0, %%mm1            \n\t"
+        "movq   %%mm4, %%mm5            \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpcklbw %%mm7, %%mm4         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "punpckhbw %%mm7, %%mm5         \n\t"
+        "paddusw %%mm0, %%mm4           \n\t"
+        "paddusw %%mm1, %%mm5           \n\t"
+        "xor    %%"REG_a", %%"REG_a"    \n\t"
+        "add    %3, %1                  \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1, %%"REG_a"), %%mm0  \n\t"
+        "movq   1(%1, %%"REG_a"), %%mm2 \n\t"
+        "movq   %%mm0, %%mm1            \n\t"
+        "movq   %%mm2, %%mm3            \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpcklbw %%mm7, %%mm2         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "punpckhbw %%mm7, %%mm3         \n\t"
+        "paddusw %%mm2, %%mm0           \n\t"
+        "paddusw %%mm3, %%mm1           \n\t"
+        "paddusw %%mm6, %%mm4           \n\t"
+        "paddusw %%mm6, %%mm5           \n\t"
+        "paddusw %%mm0, %%mm4           \n\t"
+        "paddusw %%mm1, %%mm5           \n\t"
+        "psrlw  $2, %%mm4               \n\t"
+        "psrlw  $2, %%mm5               \n\t"
+        "packuswb  %%mm5, %%mm4         \n\t"
+        "movq   %%mm4, (%2, %%"REG_a")  \n\t"
+        "add    %3, %%"REG_a"           \n\t"
 
-	"movq	(%1, %%"REG_a"), %%mm2	\n\t" // 0 <-> 2   1 <-> 3
-	"movq	1(%1, %%"REG_a"), %%mm4	\n\t"
-	"movq	%%mm2, %%mm3		\n\t"
-	"movq	%%mm4, %%mm5		\n\t"
-	"punpcklbw %%mm7, %%mm2		\n\t"
-	"punpcklbw %%mm7, %%mm4		\n\t"
-	"punpckhbw %%mm7, %%mm3		\n\t"
-	"punpckhbw %%mm7, %%mm5		\n\t"
-	"paddusw %%mm2, %%mm4	 	\n\t"
-	"paddusw %%mm3, %%mm5		\n\t"
-	"paddusw %%mm6, %%mm0		\n\t"
-	"paddusw %%mm6, %%mm1		\n\t"
-	"paddusw %%mm4, %%mm0		\n\t"
-	"paddusw %%mm5, %%mm1		\n\t"
-	"psrlw	$2, %%mm0		\n\t"
-	"psrlw	$2, %%mm1		\n\t"
-	"packuswb  %%mm1, %%mm0		\n\t"
-	"movq	%%mm0, (%2, %%"REG_a")	\n\t"
-	"add	%3, %%"REG_a"		\n\t"
+        "movq   (%1, %%"REG_a"), %%mm2  \n\t" // 0 <-> 2   1 <-> 3
+        "movq   1(%1, %%"REG_a"), %%mm4 \n\t"
+        "movq   %%mm2, %%mm3            \n\t"
+        "movq   %%mm4, %%mm5            \n\t"
+        "punpcklbw %%mm7, %%mm2         \n\t"
+        "punpcklbw %%mm7, %%mm4         \n\t"
+        "punpckhbw %%mm7, %%mm3         \n\t"
+        "punpckhbw %%mm7, %%mm5         \n\t"
+        "paddusw %%mm2, %%mm4           \n\t"
+        "paddusw %%mm3, %%mm5           \n\t"
+        "paddusw %%mm6, %%mm0           \n\t"
+        "paddusw %%mm6, %%mm1           \n\t"
+        "paddusw %%mm4, %%mm0           \n\t"
+        "paddusw %%mm5, %%mm1           \n\t"
+        "psrlw  $2, %%mm0               \n\t"
+        "psrlw  $2, %%mm1               \n\t"
+        "packuswb  %%mm1, %%mm0         \n\t"
+        "movq   %%mm0, (%2, %%"REG_a")  \n\t"
+        "add    %3, %%"REG_a"           \n\t"
 
-	"subl	$2, %0			\n\t"
-	"jnz	1b			\n\t"
-	:"+g"(h), "+S"(pixels)
-	:"D"(block), "r"((long)line_size)
-	:REG_a, "memory");
+        "subl   $2, %0                  \n\t"
+        "jnz    1b                      \n\t"
+        :"+g"(h), "+S"(pixels)
+        :"D"(block), "r"((long)line_size)
+        :REG_a, "memory");
 }
 
 // avg_pixels
@@ -301,16 +301,16 @@ static void attribute_unused DEF(avg, pixels4)(uint8_t *block, const uint8_t *pi
     MOVQ_BFE(mm6);
     JUMPALIGN();
     do {
-	__asm __volatile(
-	     "movd  %0, %%mm0		\n\t"
-	     "movd  %1, %%mm1		\n\t"
-	     PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	     "movd  %%mm2, %0		\n\t"
-	     :"+m"(*block)
-	     :"m"(*pixels)
-	     :"memory");
-	pixels += line_size;
-	block += line_size;
+        __asm __volatile(
+             "movd  %0, %%mm0           \n\t"
+             "movd  %1, %%mm1           \n\t"
+             PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+             "movd  %%mm2, %0           \n\t"
+             :"+m"(*block)
+             :"m"(*pixels)
+             :"memory");
+        pixels += line_size;
+        block += line_size;
     }
     while (--h);
 }
@@ -321,16 +321,16 @@ static void DEF(avg, pixels8)(uint8_t *block, const uint8_t *pixels, int line_si
     MOVQ_BFE(mm6);
     JUMPALIGN();
     do {
-	__asm __volatile(
-	     "movq  %0, %%mm0		\n\t"
-	     "movq  %1, %%mm1		\n\t"
-	     PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	     "movq  %%mm2, %0		\n\t"
-	     :"+m"(*block)
-	     :"m"(*pixels)
-	     :"memory");
-	pixels += line_size;
-	block += line_size;
+        __asm __volatile(
+             "movq  %0, %%mm0           \n\t"
+             "movq  %1, %%mm1           \n\t"
+             PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+             "movq  %%mm2, %0           \n\t"
+             :"+m"(*block)
+             :"m"(*pixels)
+             :"memory");
+        pixels += line_size;
+        block += line_size;
     }
     while (--h);
 }
@@ -340,20 +340,20 @@ static void DEF(avg, pixels16)(uint8_t *block, const uint8_t *pixels, int line_s
     MOVQ_BFE(mm6);
     JUMPALIGN();
     do {
-	__asm __volatile(
-	     "movq  %0, %%mm0		\n\t"
-	     "movq  %1, %%mm1		\n\t"
-	     PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	     "movq  %%mm2, %0		\n\t"
-	     "movq  8%0, %%mm0		\n\t"
-	     "movq  8%1, %%mm1		\n\t"
-	     PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	     "movq  %%mm2, 8%0		\n\t"
-	     :"+m"(*block)
-	     :"m"(*pixels)
-	     :"memory");
-	pixels += line_size;
-	block += line_size;
+        __asm __volatile(
+             "movq  %0, %%mm0           \n\t"
+             "movq  %1, %%mm1           \n\t"
+             PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+             "movq  %%mm2, %0           \n\t"
+             "movq  8%0, %%mm0          \n\t"
+             "movq  8%1, %%mm1          \n\t"
+             PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+             "movq  %%mm2, 8%0          \n\t"
+             :"+m"(*block)
+             :"m"(*pixels)
+             :"memory");
+        pixels += line_size;
+        block += line_size;
     }
     while (--h);
 }
@@ -363,18 +363,18 @@ static void DEF(avg, pixels8_x2)(uint8_t *block, const uint8_t *pixels, int line
     MOVQ_BFE(mm6);
     JUMPALIGN();
     do {
-	__asm __volatile(
-	    "movq  %1, %%mm0		\n\t"
-	    "movq  1%1, %%mm1		\n\t"
-	    "movq  %0, %%mm3		\n\t"
-	    PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	    PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
-	    "movq  %%mm0, %0		\n\t"
-	    :"+m"(*block)
-	    :"m"(*pixels)
-	    :"memory");
-	pixels += line_size;
-	block += line_size;
+        __asm __volatile(
+            "movq  %1, %%mm0            \n\t"
+            "movq  1%1, %%mm1           \n\t"
+            "movq  %0, %%mm3            \n\t"
+            PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+            PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
+            "movq  %%mm0, %0            \n\t"
+            :"+m"(*block)
+            :"m"(*pixels)
+            :"memory");
+        pixels += line_size;
+        block += line_size;
     } while (--h);
 }
 
@@ -383,17 +383,17 @@ static __attribute__((unused)) void DEF(avg, pixels8_l2)(uint8_t *dst, uint8_t *
     MOVQ_BFE(mm6);
     JUMPALIGN();
     do {
-	__asm __volatile(
-	    "movq  %1, %%mm0		\n\t"
-	    "movq  %2, %%mm1		\n\t"
-	    "movq  %0, %%mm3		\n\t"
-	    PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	    PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
-	    "movq  %%mm0, %0		\n\t"
-	    :"+m"(*dst)
-	    :"m"(*src1), "m"(*src2)
-	    :"memory");
-	dst += dstStride;
+        __asm __volatile(
+            "movq  %1, %%mm0            \n\t"
+            "movq  %2, %%mm1            \n\t"
+            "movq  %0, %%mm3            \n\t"
+            PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+            PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
+            "movq  %%mm0, %0            \n\t"
+            :"+m"(*dst)
+            :"m"(*src1), "m"(*src2)
+            :"memory");
+        dst += dstStride;
         src1 += src1Stride;
         src2 += 8;
     } while (--h);
@@ -404,24 +404,24 @@ static void DEF(avg, pixels16_x2)(uint8_t *block, const uint8_t *pixels, int lin
     MOVQ_BFE(mm6);
     JUMPALIGN();
     do {
-	__asm __volatile(
-	    "movq  %1, %%mm0		\n\t"
-	    "movq  1%1, %%mm1		\n\t"
-	    "movq  %0, %%mm3		\n\t"
-	    PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	    PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
-	    "movq  %%mm0, %0		\n\t"
-	    "movq  8%1, %%mm0		\n\t"
-	    "movq  9%1, %%mm1		\n\t"
-	    "movq  8%0, %%mm3		\n\t"
-	    PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	    PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
-	    "movq  %%mm0, 8%0		\n\t"
-	    :"+m"(*block)
-	    :"m"(*pixels)
-	    :"memory");
-	pixels += line_size;
-	block += line_size;
+        __asm __volatile(
+            "movq  %1, %%mm0            \n\t"
+            "movq  1%1, %%mm1           \n\t"
+            "movq  %0, %%mm3            \n\t"
+            PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+            PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
+            "movq  %%mm0, %0            \n\t"
+            "movq  8%1, %%mm0           \n\t"
+            "movq  9%1, %%mm1           \n\t"
+            "movq  8%0, %%mm3           \n\t"
+            PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+            PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
+            "movq  %%mm0, 8%0           \n\t"
+            :"+m"(*block)
+            :"m"(*pixels)
+            :"memory");
+        pixels += line_size;
+        block += line_size;
     } while (--h);
 }
 
@@ -430,23 +430,23 @@ static __attribute__((unused)) void DEF(avg, pixels16_l2)(uint8_t *dst, uint8_t
     MOVQ_BFE(mm6);
     JUMPALIGN();
     do {
-	__asm __volatile(
-	    "movq  %1, %%mm0		\n\t"
-	    "movq  %2, %%mm1		\n\t"
-	    "movq  %0, %%mm3		\n\t"
-	    PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	    PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
-	    "movq  %%mm0, %0		\n\t"
-	    "movq  8%1, %%mm0		\n\t"
-	    "movq  8%2, %%mm1		\n\t"
-	    "movq  8%0, %%mm3		\n\t"
-	    PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
-	    PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
-	    "movq  %%mm0, 8%0		\n\t"
-	    :"+m"(*dst)
-	    :"m"(*src1), "m"(*src2)
-	    :"memory");
-	dst += dstStride;
+        __asm __volatile(
+            "movq  %1, %%mm0            \n\t"
+            "movq  %2, %%mm1            \n\t"
+            "movq  %0, %%mm3            \n\t"
+            PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+            PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
+            "movq  %%mm0, %0            \n\t"
+            "movq  8%1, %%mm0           \n\t"
+            "movq  8%2, %%mm1           \n\t"
+            "movq  8%0, %%mm3           \n\t"
+            PAVGB(%%mm0, %%mm1, %%mm2, %%mm6)
+            PAVGB(%%mm3, %%mm2, %%mm0, %%mm6)
+            "movq  %%mm0, 8%0           \n\t"
+            :"+m"(*dst)
+            :"m"(*src1), "m"(*src2)
+            :"memory");
+        dst += dstStride;
         src1 += src1Stride;
         src2 += 16;
     } while (--h);
@@ -456,39 +456,39 @@ static void DEF(avg, pixels8_y2)(uint8_t *block, const uint8_t *pixels, int line
 {
     MOVQ_BFE(mm6);
     __asm __volatile(
-	"lea	(%3, %3), %%"REG_a"	\n\t"
-	"movq	(%1), %%mm0		\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq	(%1, %3), %%mm1		\n\t"
-	"movq	(%1, %%"REG_a"), %%mm2	\n\t"
-	PAVGBP(%%mm1, %%mm0, %%mm4,   %%mm2, %%mm1, %%mm5)
-	"movq	(%2), %%mm3		\n\t"
-	PAVGB(%%mm3, %%mm4, %%mm0, %%mm6)
-	"movq	(%2, %3), %%mm3		\n\t"
-	PAVGB(%%mm3, %%mm5, %%mm1, %%mm6)
-	"movq	%%mm0, (%2)		\n\t"
-	"movq	%%mm1, (%2, %3)		\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
+        "lea    (%3, %3), %%"REG_a"     \n\t"
+        "movq   (%1), %%mm0             \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1, %3), %%mm1         \n\t"
+        "movq   (%1, %%"REG_a"), %%mm2  \n\t"
+        PAVGBP(%%mm1, %%mm0, %%mm4,   %%mm2, %%mm1, %%mm5)
+        "movq   (%2), %%mm3             \n\t"
+        PAVGB(%%mm3, %%mm4, %%mm0, %%mm6)
+        "movq   (%2, %3), %%mm3         \n\t"
+        PAVGB(%%mm3, %%mm5, %%mm1, %%mm6)
+        "movq   %%mm0, (%2)             \n\t"
+        "movq   %%mm1, (%2, %3)         \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
 
-	"movq	(%1, %3), %%mm1		\n\t"
-	"movq	(%1, %%"REG_a"), %%mm0	\n\t"
-	PAVGBP(%%mm1, %%mm2, %%mm4,   %%mm0, %%mm1, %%mm5)
-	"movq	(%2), %%mm3		\n\t"
-	PAVGB(%%mm3, %%mm4, %%mm2, %%mm6)
-	"movq	(%2, %3), %%mm3		\n\t"
-	PAVGB(%%mm3, %%mm5, %%mm1, %%mm6)
-	"movq	%%mm2, (%2)		\n\t"
-	"movq	%%mm1, (%2, %3)		\n\t"
-	"add	%%"REG_a", %1		\n\t"
-	"add	%%"REG_a", %2		\n\t"
+        "movq   (%1, %3), %%mm1         \n\t"
+        "movq   (%1, %%"REG_a"), %%mm0  \n\t"
+        PAVGBP(%%mm1, %%mm2, %%mm4,   %%mm0, %%mm1, %%mm5)
+        "movq   (%2), %%mm3             \n\t"
+        PAVGB(%%mm3, %%mm4, %%mm2, %%mm6)
+        "movq   (%2, %3), %%mm3         \n\t"
+        PAVGB(%%mm3, %%mm5, %%mm1, %%mm6)
+        "movq   %%mm2, (%2)             \n\t"
+        "movq   %%mm1, (%2, %3)         \n\t"
+        "add    %%"REG_a", %1           \n\t"
+        "add    %%"REG_a", %2           \n\t"
 
-	"subl	$4, %0			\n\t"
-	"jnz	1b			\n\t"
-	:"+g"(h), "+S"(pixels), "+D"(block)
-	:"r"((long)line_size)
-	:REG_a, "memory");
+        "subl   $4, %0                  \n\t"
+        "jnz    1b                      \n\t"
+        :"+g"(h), "+S"(pixels), "+D"(block)
+        :"r"((long)line_size)
+        :REG_a, "memory");
 }
 
 // this routine is 'slightly' suboptimal but mostly unused
@@ -497,73 +497,73 @@ static void DEF(avg, pixels8_xy2)(uint8_t *block, const uint8_t *pixels, int lin
     MOVQ_ZERO(mm7);
     SET_RND(mm6); // =2 for rnd  and  =1 for no_rnd version
     __asm __volatile(
-	"movq	(%1), %%mm0		\n\t"
-	"movq	1(%1), %%mm4		\n\t"
-	"movq	%%mm0, %%mm1		\n\t"
-	"movq	%%mm4, %%mm5		\n\t"
-	"punpcklbw %%mm7, %%mm0		\n\t"
-	"punpcklbw %%mm7, %%mm4		\n\t"
-	"punpckhbw %%mm7, %%mm1		\n\t"
-	"punpckhbw %%mm7, %%mm5		\n\t"
-	"paddusw %%mm0, %%mm4		\n\t"
-	"paddusw %%mm1, %%mm5		\n\t"
-	"xor	%%"REG_a", %%"REG_a"	\n\t"
-	"add	%3, %1			\n\t"
-	".balign 8			\n\t"
-	"1:				\n\t"
-	"movq	(%1, %%"REG_a"), %%mm0	\n\t"
-	"movq	1(%1, %%"REG_a"), %%mm2	\n\t"
-	"movq	%%mm0, %%mm1		\n\t"
-	"movq	%%mm2, %%mm3		\n\t"
-	"punpcklbw %%mm7, %%mm0		\n\t"
-	"punpcklbw %%mm7, %%mm2		\n\t"
-	"punpckhbw %%mm7, %%mm1		\n\t"
-	"punpckhbw %%mm7, %%mm3		\n\t"
-	"paddusw %%mm2, %%mm0	 	\n\t"
-	"paddusw %%mm3, %%mm1		\n\t"
-	"paddusw %%mm6, %%mm4		\n\t"
-	"paddusw %%mm6, %%mm5		\n\t"
-	"paddusw %%mm0, %%mm4		\n\t"
-	"paddusw %%mm1, %%mm5		\n\t"
-	"psrlw	$2, %%mm4		\n\t"
-	"psrlw	$2, %%mm5		\n\t"
-		"movq	(%2, %%"REG_a"), %%mm3	\n\t"
-	"packuswb  %%mm5, %%mm4		\n\t"
-		"pcmpeqd %%mm2, %%mm2	\n\t"
-		"paddb %%mm2, %%mm2	\n\t"
-		PAVGB(%%mm3, %%mm4, %%mm5, %%mm2)
-		"movq	%%mm5, (%2, %%"REG_a")	\n\t"
-	"add	%3, %%"REG_a"		\n\t"
+        "movq   (%1), %%mm0             \n\t"
+        "movq   1(%1), %%mm4            \n\t"
+        "movq   %%mm0, %%mm1            \n\t"
+        "movq   %%mm4, %%mm5            \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpcklbw %%mm7, %%mm4         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "punpckhbw %%mm7, %%mm5         \n\t"
+        "paddusw %%mm0, %%mm4           \n\t"
+        "paddusw %%mm1, %%mm5           \n\t"
+        "xor    %%"REG_a", %%"REG_a"    \n\t"
+        "add    %3, %1                  \n\t"
+        ".balign 8                      \n\t"
+        "1:                             \n\t"
+        "movq   (%1, %%"REG_a"), %%mm0  \n\t"
+        "movq   1(%1, %%"REG_a"), %%mm2 \n\t"
+        "movq   %%mm0, %%mm1            \n\t"
+        "movq   %%mm2, %%mm3            \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpcklbw %%mm7, %%mm2         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "punpckhbw %%mm7, %%mm3         \n\t"
+        "paddusw %%mm2, %%mm0           \n\t"
+        "paddusw %%mm3, %%mm1           \n\t"
+        "paddusw %%mm6, %%mm4           \n\t"
+        "paddusw %%mm6, %%mm5           \n\t"
+        "paddusw %%mm0, %%mm4           \n\t"
+        "paddusw %%mm1, %%mm5           \n\t"
+        "psrlw  $2, %%mm4               \n\t"
+        "psrlw  $2, %%mm5               \n\t"
+                "movq   (%2, %%"REG_a"), %%mm3  \n\t"
+        "packuswb  %%mm5, %%mm4         \n\t"
+                "pcmpeqd %%mm2, %%mm2   \n\t"
+                "paddb %%mm2, %%mm2     \n\t"
+                PAVGB(%%mm3, %%mm4, %%mm5, %%mm2)
+                "movq   %%mm5, (%2, %%"REG_a")  \n\t"
+        "add    %3, %%"REG_a"                \n\t"
 
-	"movq	(%1, %%"REG_a"), %%mm2	\n\t" // 0 <-> 2   1 <-> 3
-	"movq	1(%1, %%"REG_a"), %%mm4	\n\t"
-	"movq	%%mm2, %%mm3		\n\t"
-	"movq	%%mm4, %%mm5		\n\t"
-	"punpcklbw %%mm7, %%mm2		\n\t"
-	"punpcklbw %%mm7, %%mm4		\n\t"
-	"punpckhbw %%mm7, %%mm3		\n\t"
-	"punpckhbw %%mm7, %%mm5		\n\t"
-	"paddusw %%mm2, %%mm4	 	\n\t"
-	"paddusw %%mm3, %%mm5		\n\t"
-	"paddusw %%mm6, %%mm0		\n\t"
-	"paddusw %%mm6, %%mm1		\n\t"
-	"paddusw %%mm4, %%mm0		\n\t"
-	"paddusw %%mm5, %%mm1		\n\t"
-	"psrlw	$2, %%mm0		\n\t"
-	"psrlw	$2, %%mm1		\n\t"
-		"movq	(%2, %%"REG_a"), %%mm3	\n\t"
-	"packuswb  %%mm1, %%mm0		\n\t"
-		"pcmpeqd %%mm2, %%mm2	\n\t"
-		"paddb %%mm2, %%mm2	\n\t"
-		PAVGB(%%mm3, %%mm0, %%mm1, %%mm2)
-		"movq	%%mm1, (%2, %%"REG_a")	\n\t"
-	"add	%3, %%"REG_a"		\n\t"
+        "movq   (%1, %%"REG_a"), %%mm2  \n\t" // 0 <-> 2   1 <-> 3
+        "movq   1(%1, %%"REG_a"), %%mm4 \n\t"
+        "movq   %%mm2, %%mm3            \n\t"
+        "movq   %%mm4, %%mm5            \n\t"
+        "punpcklbw %%mm7, %%mm2         \n\t"
+        "punpcklbw %%mm7, %%mm4         \n\t"
+        "punpckhbw %%mm7, %%mm3         \n\t"
+        "punpckhbw %%mm7, %%mm5         \n\t"
+        "paddusw %%mm2, %%mm4           \n\t"
+        "paddusw %%mm3, %%mm5           \n\t"
+        "paddusw %%mm6, %%mm0           \n\t"
+        "paddusw %%mm6, %%mm1           \n\t"
+        "paddusw %%mm4, %%mm0           \n\t"
+        "paddusw %%mm5, %%mm1           \n\t"
+        "psrlw  $2, %%mm0               \n\t"
+        "psrlw  $2, %%mm1               \n\t"
+                "movq   (%2, %%"REG_a"), %%mm3  \n\t"
+        "packuswb  %%mm1, %%mm0         \n\t"
+                "pcmpeqd %%mm2, %%mm2   \n\t"
+                "paddb %%mm2, %%mm2     \n\t"
+                PAVGB(%%mm3, %%mm0, %%mm1, %%mm2)
+                "movq   %%mm1, (%2, %%"REG_a")  \n\t"
+        "add    %3, %%"REG_a"           \n\t"
 
-	"subl	$2, %0			\n\t"
-	"jnz	1b			\n\t"
-	:"+g"(h), "+S"(pixels)
-	:"D"(block), "r"((long)line_size)
-	:REG_a, "memory");
+        "subl   $2, %0                  \n\t"
+        "jnz    1b                      \n\t"
+        :"+g"(h), "+S"(pixels)
+        :"D"(block), "r"((long)line_size)
+        :REG_a, "memory");
 }
 
 //FIXME optimize
diff --git a/libavcodec/i386/fdct_mmx.c b/libavcodec/i386/fdct_mmx.c
index f3023549a2..f6150c83c9 100644
--- a/libavcodec/i386/fdct_mmx.c
+++ b/libavcodec/i386/fdct_mmx.c
@@ -30,21 +30,21 @@
 //
 //////////////////////////////////////////////////////////////////////
 
-#define BITS_FRW_ACC	3 //; 2 or 3 for accuracy
-#define SHIFT_FRW_COL	BITS_FRW_ACC
-#define SHIFT_FRW_ROW	(BITS_FRW_ACC + 17 - 3)
-#define RND_FRW_ROW		(1 << (SHIFT_FRW_ROW-1))
-//#define RND_FRW_COL		(1 << (SHIFT_FRW_COL-1))
+#define BITS_FRW_ACC   3 //; 2 or 3 for accuracy
+#define SHIFT_FRW_COL  BITS_FRW_ACC
+#define SHIFT_FRW_ROW  (BITS_FRW_ACC + 17 - 3)
+#define RND_FRW_ROW    (1 << (SHIFT_FRW_ROW-1))
+//#define RND_FRW_COL    (1 << (SHIFT_FRW_COL-1))
 
 //concatenated table, for forward DCT transformation
 static const int16_t fdct_tg_all_16[] ATTR_ALIGN(8) = {
-    13036, 13036, 13036, 13036,		// tg * (2<<16) + 0.5
-    27146, 27146, 27146, 27146,		// tg * (2<<16) + 0.5
-    -21746, -21746, -21746, -21746,	// tg * (2<<16) + 0.5
+    13036,  13036,  13036,  13036,        // tg * (2<<16) + 0.5
+    27146,  27146,  27146,  27146,        // tg * (2<<16) + 0.5
+   -21746, -21746, -21746, -21746,        // tg * (2<<16) + 0.5
 };
 
 static const int16_t ocos_4_16[4] ATTR_ALIGN(8) = {
-    23170, 23170, 23170, 23170,	//cos * (2<<15) + 0.5
+    23170, 23170, 23170, 23170,           //cos * (2<<15) + 0.5
 };
 
 static const int64_t fdct_one_corr ATTR_ALIGN(8) = 0x0001000100010001LL;
@@ -351,62 +351,62 @@ static always_inline void fdct_col(const int16_t *in, int16_t *out, int offset)
 static always_inline void fdct_row_sse2(const int16_t *in, int16_t *out)
 {
     asm volatile(
-        ".macro FDCT_ROW_SSE2_H1 i t   \n\t"
-	"movq      \\i(%0), %%xmm2     \n\t"
-	"movq      \\i+8(%0), %%xmm0   \n\t"
-	"movdqa    \\t+32(%1), %%xmm3  \n\t"
-	"movdqa    \\t+48(%1), %%xmm7  \n\t"
-	"movdqa    \\t(%1), %%xmm4     \n\t"
-	"movdqa    \\t+16(%1), %%xmm5  \n\t"
-	".endm                         \n\t"
-        ".macro FDCT_ROW_SSE2_H2 i t   \n\t"
-	"movq      \\i(%0), %%xmm2     \n\t"
-	"movq      \\i+8(%0), %%xmm0   \n\t"
-	"movdqa    \\t+32(%1), %%xmm3  \n\t"
-	"movdqa    \\t+48(%1), %%xmm7  \n\t"
-	".endm                         \n\t"
-	".macro FDCT_ROW_SSE2 i        \n\t"
-	"movq      %%xmm2, %%xmm1      \n\t"
-	"pshuflw   $27, %%xmm0, %%xmm0 \n\t"
-	"paddsw    %%xmm0, %%xmm1      \n\t"
-	"psubsw    %%xmm0, %%xmm2      \n\t"
-	"punpckldq %%xmm2, %%xmm1      \n\t"
-	"pshufd    $78, %%xmm1, %%xmm2 \n\t"
-	"pmaddwd   %%xmm2, %%xmm3      \n\t"
-	"pmaddwd   %%xmm1, %%xmm7      \n\t"
-	"pmaddwd   %%xmm5, %%xmm2      \n\t"
-	"pmaddwd   %%xmm4, %%xmm1      \n\t"
-	"paddd     %%xmm7, %%xmm3      \n\t"
-	"paddd     %%xmm2, %%xmm1      \n\t"
-	"paddd     %%xmm6, %%xmm3      \n\t"
-	"paddd     %%xmm6, %%xmm1      \n\t"
-	"psrad     %3, %%xmm3          \n\t"
-	"psrad     %3, %%xmm1          \n\t"
-	"packssdw  %%xmm3, %%xmm1      \n\t"
-	"movdqa    %%xmm1, \\i(%4)     \n\t"
-	".endm                         \n\t"
-	"movdqa    (%2), %%xmm6        \n\t"
-	"FDCT_ROW_SSE2_H1 0 0 \n\t"
-	"FDCT_ROW_SSE2 0 \n\t"
-	"FDCT_ROW_SSE2_H2 64 0 \n\t"
-	"FDCT_ROW_SSE2 64 \n\t"
-
-	"FDCT_ROW_SSE2_H1 16 64 \n\t"
-	"FDCT_ROW_SSE2 16 \n\t"
-	"FDCT_ROW_SSE2_H2 112 64 \n\t"
-	"FDCT_ROW_SSE2 112 \n\t"
-
-	"FDCT_ROW_SSE2_H1 32 128 \n\t"
-	"FDCT_ROW_SSE2 32 \n\t"
-	"FDCT_ROW_SSE2_H2 96 128 \n\t"
-	"FDCT_ROW_SSE2 96 \n\t"
-
-	"FDCT_ROW_SSE2_H1 48 192 \n\t"
-	"FDCT_ROW_SSE2 48 \n\t"
-	"FDCT_ROW_SSE2_H2 80 192 \n\t"
-	"FDCT_ROW_SSE2 80 \n\t"
-	:
-	: "r" (in), "r" (tab_frw_01234567_sse2.tab_frw_01234567_sse2), "r" (fdct_r_row_sse2.fdct_r_row_sse2), "i" (SHIFT_FRW_ROW), "r" (out)
+        ".macro FDCT_ROW_SSE2_H1 i t    \n\t"
+        "movq      \\i(%0), %%xmm2      \n\t"
+        "movq      \\i+8(%0), %%xmm0    \n\t"
+        "movdqa    \\t+32(%1), %%xmm3   \n\t"
+        "movdqa    \\t+48(%1), %%xmm7   \n\t"
+        "movdqa    \\t(%1), %%xmm4      \n\t"
+        "movdqa    \\t+16(%1), %%xmm5   \n\t"
+        ".endm                          \n\t"
+        ".macro FDCT_ROW_SSE2_H2 i t    \n\t"
+        "movq      \\i(%0), %%xmm2      \n\t"
+        "movq      \\i+8(%0), %%xmm0    \n\t"
+        "movdqa    \\t+32(%1), %%xmm3   \n\t"
+        "movdqa    \\t+48(%1), %%xmm7   \n\t"
+        ".endm                          \n\t"
+        ".macro FDCT_ROW_SSE2 i         \n\t"
+        "movq      %%xmm2, %%xmm1       \n\t"
+        "pshuflw   $27, %%xmm0, %%xmm0  \n\t"
+        "paddsw    %%xmm0, %%xmm1       \n\t"
+        "psubsw    %%xmm0, %%xmm2       \n\t"
+        "punpckldq %%xmm2, %%xmm1       \n\t"
+        "pshufd    $78, %%xmm1, %%xmm2  \n\t"
+        "pmaddwd   %%xmm2, %%xmm3       \n\t"
+        "pmaddwd   %%xmm1, %%xmm7       \n\t"
+        "pmaddwd   %%xmm5, %%xmm2       \n\t"
+        "pmaddwd   %%xmm4, %%xmm1       \n\t"
+        "paddd     %%xmm7, %%xmm3       \n\t"
+        "paddd     %%xmm2, %%xmm1       \n\t"
+        "paddd     %%xmm6, %%xmm3       \n\t"
+        "paddd     %%xmm6, %%xmm1       \n\t"
+        "psrad     %3, %%xmm3           \n\t"
+        "psrad     %3, %%xmm1           \n\t"
+        "packssdw  %%xmm3, %%xmm1       \n\t"
+        "movdqa    %%xmm1, \\i(%4)      \n\t"
+        ".endm                          \n\t"
+        "movdqa    (%2), %%xmm6         \n\t"
+        "FDCT_ROW_SSE2_H1 0 0           \n\t"
+        "FDCT_ROW_SSE2 0                \n\t"
+        "FDCT_ROW_SSE2_H2 64 0          \n\t"
+        "FDCT_ROW_SSE2 64               \n\t"
+
+        "FDCT_ROW_SSE2_H1 16 64         \n\t"
+        "FDCT_ROW_SSE2 16               \n\t"
+        "FDCT_ROW_SSE2_H2 112 64        \n\t"
+        "FDCT_ROW_SSE2 112              \n\t"
+
+        "FDCT_ROW_SSE2_H1 32 128        \n\t"
+        "FDCT_ROW_SSE2 32               \n\t"
+        "FDCT_ROW_SSE2_H2 96 128        \n\t"
+        "FDCT_ROW_SSE2 96               \n\t"
+
+        "FDCT_ROW_SSE2_H1 48 192        \n\t"
+        "FDCT_ROW_SSE2 48               \n\t"
+        "FDCT_ROW_SSE2_H2 80 192        \n\t"
+        "FDCT_ROW_SSE2 80               \n\t"
+        :
+        : "r" (in), "r" (tab_frw_01234567_sse2.tab_frw_01234567_sse2), "r" (fdct_r_row_sse2.fdct_r_row_sse2), "i" (SHIFT_FRW_ROW), "r" (out)
     );
 }
 
diff --git a/libavcodec/i386/fft_sse.c b/libavcodec/i386/fft_sse.c
index f8be644a3b..ce48c1040b 100644
--- a/libavcodec/i386/fft_sse.c
+++ b/libavcodec/i386/fft_sse.c
@@ -45,8 +45,8 @@ static void print_v4sf(const char *str, __m128 a)
 void ff_fft_calc_sse(FFTContext *s, FFTComplex *z)
 {
     int ln = s->nbits;
-    int	j, np, np2;
-    int	nblocks, nloops;
+    int         j, np, np2;
+    int         nblocks, nloops;
     register FFTComplex *p, *q;
     FFTComplex *cptr, *cptr1;
     int k;
diff --git a/libavcodec/i386/h264dsp_mmx.c b/libavcodec/i386/h264dsp_mmx.c
index 45a3c02f35..5356b9c23f 100644
--- a/libavcodec/i386/h264dsp_mmx.c
+++ b/libavcodec/i386/h264dsp_mmx.c
@@ -47,9 +47,9 @@
     SUMSUB_BADC( d13, s02, s13, d02 )
 
 #define SBUTTERFLY(a,b,t,n)\
-    "movq " #a ", " #t "		\n\t" /* abcd */\
-    "punpckl" #n " " #b ", " #a "	\n\t" /* aebf */\
-    "punpckh" #n " " #b ", " #t "	\n\t" /* cgdh */\
+    "movq " #a ", " #t "                \n\t" /* abcd */\
+    "punpckl" #n " " #b ", " #a "       \n\t" /* aebf */\
+    "punpckh" #n " " #b ", " #t "       \n\t" /* cgdh */\
 
 #define TRANSPOSE4(a,b,c,d,t)\
     SBUTTERFLY(a,b,t,wd) /* a=aebf t=cgdh */\
@@ -369,73 +369,73 @@ static void h264_h_loop_filter_chroma_intra_mmx2(uint8_t *pix, int stride, int a
 /* motion compensation */
 
 #define QPEL_H264V(A,B,C,D,E,F,OP)\
-        "movd (%0), "#F"		\n\t"\
-        "movq "#C", %%mm6		\n\t"\
-        "paddw "#D", %%mm6		\n\t"\
-        "psllw $2, %%mm6		\n\t"\
-        "psubw "#B", %%mm6		\n\t"\
-        "psubw "#E", %%mm6		\n\t"\
-        "pmullw %4, %%mm6		\n\t"\
-        "add %2, %0			\n\t"\
-        "punpcklbw %%mm7, "#F"		\n\t"\
-        "paddw %5, "#A"			\n\t"\
-        "paddw "#F", "#A"		\n\t"\
-        "paddw "#A", %%mm6		\n\t"\
-        "psraw $5, %%mm6		\n\t"\
-        "packuswb %%mm6, %%mm6		\n\t"\
+        "movd (%0), "#F"            \n\t"\
+        "movq "#C", %%mm6           \n\t"\
+        "paddw "#D", %%mm6          \n\t"\
+        "psllw $2, %%mm6            \n\t"\
+        "psubw "#B", %%mm6          \n\t"\
+        "psubw "#E", %%mm6          \n\t"\
+        "pmullw %4, %%mm6           \n\t"\
+        "add %2, %0                 \n\t"\
+        "punpcklbw %%mm7, "#F"      \n\t"\
+        "paddw %5, "#A"             \n\t"\
+        "paddw "#F", "#A"           \n\t"\
+        "paddw "#A", %%mm6          \n\t"\
+        "psraw $5, %%mm6            \n\t"\
+        "packuswb %%mm6, %%mm6      \n\t"\
         OP(%%mm6, (%1), A, d)\
-        "add %3, %1			\n\t"
+        "add %3, %1                 \n\t"
 
 #define QPEL_H264HV(A,B,C,D,E,F,OF)\
-        "movd (%0), "#F"		\n\t"\
-        "movq "#C", %%mm6		\n\t"\
-        "paddw "#D", %%mm6		\n\t"\
-        "psllw $2, %%mm6		\n\t"\
-        "psubw "#B", %%mm6		\n\t"\
-        "psubw "#E", %%mm6		\n\t"\
-        "pmullw %3, %%mm6		\n\t"\
-        "add %2, %0			\n\t"\
-        "punpcklbw %%mm7, "#F"		\n\t"\
-        "paddw "#F", "#A"		\n\t"\
-        "paddw "#A", %%mm6		\n\t"\
-        "movq %%mm6, "#OF"(%1)		\n\t"
+        "movd (%0), "#F"            \n\t"\
+        "movq "#C", %%mm6           \n\t"\
+        "paddw "#D", %%mm6          \n\t"\
+        "psllw $2, %%mm6            \n\t"\
+        "psubw "#B", %%mm6          \n\t"\
+        "psubw "#E", %%mm6          \n\t"\
+        "pmullw %3, %%mm6           \n\t"\
+        "add %2, %0                 \n\t"\
+        "punpcklbw %%mm7, "#F"      \n\t"\
+        "paddw "#F", "#A"           \n\t"\
+        "paddw "#A", %%mm6          \n\t"\
+        "movq %%mm6, "#OF"(%1)      \n\t"
 
 #define QPEL_H264(OPNAME, OP, MMX)\
 static void OPNAME ## h264_qpel4_h_lowpass_ ## MMX(uint8_t *dst, uint8_t *src, int dstStride, int srcStride){\
     int h=4;\
 \
     asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "movq %5, %%mm4			\n\t"\
-        "movq %6, %%mm5			\n\t"\
-        "1:				\n\t"\
-        "movd  -1(%0), %%mm1		\n\t"\
-        "movd    (%0), %%mm2		\n\t"\
-        "movd   1(%0), %%mm3		\n\t"\
-        "movd   2(%0), %%mm0		\n\t"\
-        "punpcklbw %%mm7, %%mm1		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpcklbw %%mm7, %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "paddw %%mm0, %%mm1		\n\t"\
-        "paddw %%mm3, %%mm2		\n\t"\
-        "movd  -2(%0), %%mm0		\n\t"\
-        "movd   3(%0), %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "punpcklbw %%mm7, %%mm3		\n\t"\
-        "paddw %%mm3, %%mm0		\n\t"\
-        "psllw $2, %%mm2		\n\t"\
-        "psubw %%mm1, %%mm2		\n\t"\
-        "pmullw %%mm4, %%mm2		\n\t"\
-        "paddw %%mm5, %%mm0		\n\t"\
-        "paddw %%mm2, %%mm0		\n\t"\
-        "psraw $5, %%mm0		\n\t"\
-        "packuswb %%mm0, %%mm0		\n\t"\
+        "pxor %%mm7, %%mm7          \n\t"\
+        "movq %5, %%mm4             \n\t"\
+        "movq %6, %%mm5             \n\t"\
+        "1:                         \n\t"\
+        "movd  -1(%0), %%mm1        \n\t"\
+        "movd    (%0), %%mm2        \n\t"\
+        "movd   1(%0), %%mm3        \n\t"\
+        "movd   2(%0), %%mm0        \n\t"\
+        "punpcklbw %%mm7, %%mm1     \n\t"\
+        "punpcklbw %%mm7, %%mm2     \n\t"\
+        "punpcklbw %%mm7, %%mm3     \n\t"\
+        "punpcklbw %%mm7, %%mm0     \n\t"\
+        "paddw %%mm0, %%mm1         \n\t"\
+        "paddw %%mm3, %%mm2         \n\t"\
+        "movd  -2(%0), %%mm0        \n\t"\
+        "movd   3(%0), %%mm3        \n\t"\
+        "punpcklbw %%mm7, %%mm0     \n\t"\
+        "punpcklbw %%mm7, %%mm3     \n\t"\
+        "paddw %%mm3, %%mm0         \n\t"\
+        "psllw $2, %%mm2            \n\t"\
+        "psubw %%mm1, %%mm2         \n\t"\
+        "pmullw %%mm4, %%mm2        \n\t"\
+        "paddw %%mm5, %%mm0         \n\t"\
+        "paddw %%mm2, %%mm0         \n\t"\
+        "psraw $5, %%mm0            \n\t"\
+        "packuswb %%mm0, %%mm0      \n\t"\
         OP(%%mm0, (%1),%%mm6, d)\
-        "add %3, %0			\n\t"\
-        "add %4, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "add %3, %0                 \n\t"\
+        "add %4, %1                 \n\t"\
+        "decl %2                    \n\t"\
+        " jnz 1b                    \n\t"\
         : "+a"(src), "+c"(dst), "+m"(h)\
         : "d"((long)srcStride), "S"((long)dstStride), "m"(ff_pw_5), "m"(ff_pw_16)\
         : "memory"\
@@ -444,22 +444,22 @@ static void OPNAME ## h264_qpel4_h_lowpass_ ## MMX(uint8_t *dst, uint8_t *src, i
 static void OPNAME ## h264_qpel4_v_lowpass_ ## MMX(uint8_t *dst, uint8_t *src, int dstStride, int srcStride){\
     src -= 2*srcStride;\
     asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "movd (%0), %%mm0		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm1		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm2		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm3		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm4		\n\t"\
-        "add %2, %0			\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "punpcklbw %%mm7, %%mm1		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpcklbw %%mm7, %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm4		\n\t"\
+        "pxor %%mm7, %%mm7          \n\t"\
+        "movd (%0), %%mm0           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm1           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm2           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm3           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm4           \n\t"\
+        "add %2, %0                 \n\t"\
+        "punpcklbw %%mm7, %%mm0     \n\t"\
+        "punpcklbw %%mm7, %%mm1     \n\t"\
+        "punpcklbw %%mm7, %%mm2     \n\t"\
+        "punpcklbw %%mm7, %%mm3     \n\t"\
+        "punpcklbw %%mm7, %%mm4     \n\t"\
         QPEL_H264V(%%mm0, %%mm1, %%mm2, %%mm3, %%mm4, %%mm5, OP)\
         QPEL_H264V(%%mm1, %%mm2, %%mm3, %%mm4, %%mm5, %%mm0, OP)\
         QPEL_H264V(%%mm2, %%mm3, %%mm4, %%mm5, %%mm0, %%mm1, OP)\
@@ -476,22 +476,22 @@ static void OPNAME ## h264_qpel4_hv_lowpass_ ## MMX(uint8_t *dst, int16_t *tmp,
     src -= 2*srcStride+2;\
     while(w--){\
         asm volatile(\
-            "pxor %%mm7, %%mm7			\n\t"\
-            "movd (%0), %%mm0			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm1			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm2			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm3			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm4			\n\t"\
-            "add %2, %0				\n\t"\
-            "punpcklbw %%mm7, %%mm0		\n\t"\
-            "punpcklbw %%mm7, %%mm1		\n\t"\
-            "punpcklbw %%mm7, %%mm2		\n\t"\
-            "punpcklbw %%mm7, %%mm3		\n\t"\
-            "punpcklbw %%mm7, %%mm4		\n\t"\
+            "pxor %%mm7, %%mm7      \n\t"\
+            "movd (%0), %%mm0       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm1       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm2       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm3       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm4       \n\t"\
+            "add %2, %0             \n\t"\
+            "punpcklbw %%mm7, %%mm0 \n\t"\
+            "punpcklbw %%mm7, %%mm1 \n\t"\
+            "punpcklbw %%mm7, %%mm2 \n\t"\
+            "punpcklbw %%mm7, %%mm3 \n\t"\
+            "punpcklbw %%mm7, %%mm4 \n\t"\
             QPEL_H264HV(%%mm0, %%mm1, %%mm2, %%mm3, %%mm4, %%mm5, 0*8*3)\
             QPEL_H264HV(%%mm1, %%mm2, %%mm3, %%mm4, %%mm5, %%mm0, 1*8*3)\
             QPEL_H264HV(%%mm2, %%mm3, %%mm4, %%mm5, %%mm0, %%mm1, 2*8*3)\
@@ -506,28 +506,28 @@ static void OPNAME ## h264_qpel4_hv_lowpass_ ## MMX(uint8_t *dst, int16_t *tmp,
     }\
     tmp -= 3*4;\
     asm volatile(\
-        "movq %4, %%mm6			\n\t"\
-        "1:				\n\t"\
-        "movq     (%0), %%mm0		\n\t"\
-        "paddw  10(%0), %%mm0		\n\t"\
-        "movq    2(%0), %%mm1		\n\t"\
-        "paddw   8(%0), %%mm1		\n\t"\
-        "movq    4(%0), %%mm2		\n\t"\
-        "paddw   6(%0), %%mm2		\n\t"\
-        "psubw %%mm1, %%mm0		\n\t"/*a-b   (abccba)*/\
-        "psraw $2, %%mm0		\n\t"/*(a-b)/4 */\
-        "psubw %%mm1, %%mm0		\n\t"/*(a-b)/4-b */\
-        "paddsw %%mm2, %%mm0		\n\t"\
-        "psraw $2, %%mm0		\n\t"/*((a-b)/4-b)/4 */\
-        "paddw %%mm6, %%mm2		\n\t"\
-        "paddw %%mm2, %%mm0		\n\t"\
-        "psraw $6, %%mm0		\n\t"\
-        "packuswb %%mm0, %%mm0		\n\t"\
+        "movq %4, %%mm6             \n\t"\
+        "1:                         \n\t"\
+        "movq     (%0), %%mm0       \n\t"\
+        "paddw  10(%0), %%mm0       \n\t"\
+        "movq    2(%0), %%mm1       \n\t"\
+        "paddw   8(%0), %%mm1       \n\t"\
+        "movq    4(%0), %%mm2       \n\t"\
+        "paddw   6(%0), %%mm2       \n\t"\
+        "psubw %%mm1, %%mm0         \n\t"/*a-b   (abccba)*/\
+        "psraw $2, %%mm0            \n\t"/*(a-b)/4 */\
+        "psubw %%mm1, %%mm0         \n\t"/*(a-b)/4-b */\
+        "paddsw %%mm2, %%mm0        \n\t"\
+        "psraw $2, %%mm0            \n\t"/*((a-b)/4-b)/4 */\
+        "paddw %%mm6, %%mm2         \n\t"\
+        "paddw %%mm2, %%mm0         \n\t"\
+        "psraw $6, %%mm0            \n\t"\
+        "packuswb %%mm0, %%mm0      \n\t"\
         OP(%%mm0, (%1),%%mm7, d)\
-        "add $24, %0			\n\t"\
-        "add %3, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "add $24, %0                \n\t"\
+        "add %3, %1                 \n\t"\
+        "decl %2                    \n\t"\
+        " jnz 1b                    \n\t"\
         : "+a"(tmp), "+c"(dst), "+m"(h)\
         : "S"((long)dstStride), "m"(ff_pw_32)\
         : "memory"\
@@ -537,54 +537,54 @@ static void OPNAME ## h264_qpel4_hv_lowpass_ ## MMX(uint8_t *dst, int16_t *tmp,
 static void OPNAME ## h264_qpel8_h_lowpass_ ## MMX(uint8_t *dst, uint8_t *src, int dstStride, int srcStride){\
     int h=8;\
     asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "movq %5, %%mm6			\n\t"\
-        "1:				\n\t"\
-        "movq    (%0), %%mm0		\n\t"\
-        "movq   1(%0), %%mm2		\n\t"\
-        "movq %%mm0, %%mm1		\n\t"\
-        "movq %%mm2, %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "punpckhbw %%mm7, %%mm1		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpckhbw %%mm7, %%mm3		\n\t"\
-        "paddw %%mm2, %%mm0		\n\t"\
-        "paddw %%mm3, %%mm1		\n\t"\
-        "psllw $2, %%mm0		\n\t"\
-        "psllw $2, %%mm1		\n\t"\
-        "movq   -1(%0), %%mm2		\n\t"\
-        "movq    2(%0), %%mm4		\n\t"\
-        "movq %%mm2, %%mm3		\n\t"\
-        "movq %%mm4, %%mm5		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpckhbw %%mm7, %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm4		\n\t"\
-        "punpckhbw %%mm7, %%mm5		\n\t"\
-        "paddw %%mm4, %%mm2		\n\t"\
-        "paddw %%mm3, %%mm5		\n\t"\
-        "psubw %%mm2, %%mm0		\n\t"\
-        "psubw %%mm5, %%mm1		\n\t"\
-        "pmullw %%mm6, %%mm0		\n\t"\
-        "pmullw %%mm6, %%mm1		\n\t"\
-        "movd   -2(%0), %%mm2		\n\t"\
-        "movd    7(%0), %%mm5		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpcklbw %%mm7, %%mm5		\n\t"\
-        "paddw %%mm3, %%mm2		\n\t"\
-        "paddw %%mm5, %%mm4		\n\t"\
-        "movq %6, %%mm5			\n\t"\
-        "paddw %%mm5, %%mm2		\n\t"\
-        "paddw %%mm5, %%mm4		\n\t"\
-        "paddw %%mm2, %%mm0		\n\t"\
-        "paddw %%mm4, %%mm1		\n\t"\
-        "psraw $5, %%mm0		\n\t"\
-        "psraw $5, %%mm1		\n\t"\
-        "packuswb %%mm1, %%mm0		\n\t"\
+        "pxor %%mm7, %%mm7          \n\t"\
+        "movq %5, %%mm6             \n\t"\
+        "1:                         \n\t"\
+        "movq    (%0), %%mm0        \n\t"\
+        "movq   1(%0), %%mm2        \n\t"\
+        "movq %%mm0, %%mm1          \n\t"\
+        "movq %%mm2, %%mm3          \n\t"\
+        "punpcklbw %%mm7, %%mm0     \n\t"\
+        "punpckhbw %%mm7, %%mm1     \n\t"\
+        "punpcklbw %%mm7, %%mm2     \n\t"\
+        "punpckhbw %%mm7, %%mm3     \n\t"\
+        "paddw %%mm2, %%mm0         \n\t"\
+        "paddw %%mm3, %%mm1         \n\t"\
+        "psllw $2, %%mm0            \n\t"\
+        "psllw $2, %%mm1            \n\t"\
+        "movq   -1(%0), %%mm2       \n\t"\
+        "movq    2(%0), %%mm4       \n\t"\
+        "movq %%mm2, %%mm3          \n\t"\
+        "movq %%mm4, %%mm5          \n\t"\
+        "punpcklbw %%mm7, %%mm2     \n\t"\
+        "punpckhbw %%mm7, %%mm3     \n\t"\
+        "punpcklbw %%mm7, %%mm4     \n\t"\
+        "punpckhbw %%mm7, %%mm5     \n\t"\
+        "paddw %%mm4, %%mm2         \n\t"\
+        "paddw %%mm3, %%mm5         \n\t"\
+        "psubw %%mm2, %%mm0         \n\t"\
+        "psubw %%mm5, %%mm1         \n\t"\
+        "pmullw %%mm6, %%mm0        \n\t"\
+        "pmullw %%mm6, %%mm1        \n\t"\
+        "movd   -2(%0), %%mm2       \n\t"\
+        "movd    7(%0), %%mm5       \n\t"\
+        "punpcklbw %%mm7, %%mm2     \n\t"\
+        "punpcklbw %%mm7, %%mm5     \n\t"\
+        "paddw %%mm3, %%mm2         \n\t"\
+        "paddw %%mm5, %%mm4         \n\t"\
+        "movq %6, %%mm5             \n\t"\
+        "paddw %%mm5, %%mm2         \n\t"\
+        "paddw %%mm5, %%mm4         \n\t"\
+        "paddw %%mm2, %%mm0         \n\t"\
+        "paddw %%mm4, %%mm1         \n\t"\
+        "psraw $5, %%mm0            \n\t"\
+        "psraw $5, %%mm1            \n\t"\
+        "packuswb %%mm1, %%mm0      \n\t"\
         OP(%%mm0, (%1),%%mm5, q)\
-        "add %3, %0			\n\t"\
-        "add %4, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "add %3, %0                 \n\t"\
+        "add %4, %1                 \n\t"\
+        "decl %2                    \n\t"\
+        " jnz 1b                    \n\t"\
         : "+a"(src), "+c"(dst), "+m"(h)\
         : "d"((long)srcStride), "S"((long)dstStride), "m"(ff_pw_5), "m"(ff_pw_16)\
         : "memory"\
@@ -597,22 +597,22 @@ static void OPNAME ## h264_qpel8_v_lowpass_ ## MMX(uint8_t *dst, uint8_t *src, i
     \
     while(h--){\
       asm volatile(\
-        "pxor %%mm7, %%mm7		\n\t"\
-        "movd (%0), %%mm0		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm1		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm2		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm3		\n\t"\
-        "add %2, %0			\n\t"\
-        "movd (%0), %%mm4		\n\t"\
-        "add %2, %0			\n\t"\
-        "punpcklbw %%mm7, %%mm0		\n\t"\
-        "punpcklbw %%mm7, %%mm1		\n\t"\
-        "punpcklbw %%mm7, %%mm2		\n\t"\
-        "punpcklbw %%mm7, %%mm3		\n\t"\
-        "punpcklbw %%mm7, %%mm4		\n\t"\
+        "pxor %%mm7, %%mm7          \n\t"\
+        "movd (%0), %%mm0           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm1           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm2           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm3           \n\t"\
+        "add %2, %0                 \n\t"\
+        "movd (%0), %%mm4           \n\t"\
+        "add %2, %0                 \n\t"\
+        "punpcklbw %%mm7, %%mm0     \n\t"\
+        "punpcklbw %%mm7, %%mm1     \n\t"\
+        "punpcklbw %%mm7, %%mm2     \n\t"\
+        "punpcklbw %%mm7, %%mm3     \n\t"\
+        "punpcklbw %%mm7, %%mm4     \n\t"\
         QPEL_H264V(%%mm0, %%mm1, %%mm2, %%mm3, %%mm4, %%mm5, OP)\
         QPEL_H264V(%%mm1, %%mm2, %%mm3, %%mm4, %%mm5, %%mm0, OP)\
         QPEL_H264V(%%mm2, %%mm3, %%mm4, %%mm5, %%mm0, %%mm1, OP)\
@@ -636,22 +636,22 @@ static void OPNAME ## h264_qpel8_hv_lowpass_ ## MMX(uint8_t *dst, int16_t *tmp,
     src -= 2*srcStride+2;\
     while(w--){\
         asm volatile(\
-            "pxor %%mm7, %%mm7			\n\t"\
-            "movd (%0), %%mm0			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm1			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm2			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm3			\n\t"\
-            "add %2, %0				\n\t"\
-            "movd (%0), %%mm4			\n\t"\
-            "add %2, %0				\n\t"\
-            "punpcklbw %%mm7, %%mm0		\n\t"\
-            "punpcklbw %%mm7, %%mm1		\n\t"\
-            "punpcklbw %%mm7, %%mm2		\n\t"\
-            "punpcklbw %%mm7, %%mm3		\n\t"\
-            "punpcklbw %%mm7, %%mm4		\n\t"\
+            "pxor %%mm7, %%mm7      \n\t"\
+            "movd (%0), %%mm0       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm1       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm2       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm3       \n\t"\
+            "add %2, %0             \n\t"\
+            "movd (%0), %%mm4       \n\t"\
+            "add %2, %0             \n\t"\
+            "punpcklbw %%mm7, %%mm0 \n\t"\
+            "punpcklbw %%mm7, %%mm1 \n\t"\
+            "punpcklbw %%mm7, %%mm2 \n\t"\
+            "punpcklbw %%mm7, %%mm3 \n\t"\
+            "punpcklbw %%mm7, %%mm4 \n\t"\
             QPEL_H264HV(%%mm0, %%mm1, %%mm2, %%mm3, %%mm4, %%mm5, 0*8*4)\
             QPEL_H264HV(%%mm1, %%mm2, %%mm3, %%mm4, %%mm5, %%mm0, 1*8*4)\
             QPEL_H264HV(%%mm2, %%mm3, %%mm4, %%mm5, %%mm0, %%mm1, 2*8*4)\
@@ -670,42 +670,42 @@ static void OPNAME ## h264_qpel8_hv_lowpass_ ## MMX(uint8_t *dst, int16_t *tmp,
     }\
     tmp -= 4*4;\
     asm volatile(\
-        "movq %4, %%mm6			\n\t"\
-        "1:				\n\t"\
-        "movq     (%0), %%mm0		\n\t"\
-        "movq    8(%0), %%mm3		\n\t"\
-        "movq    2(%0), %%mm1		\n\t"\
-        "movq   10(%0), %%mm4		\n\t"\
-        "paddw   %%mm4, %%mm0		\n\t"\
-        "paddw   %%mm3, %%mm1		\n\t"\
-        "paddw  18(%0), %%mm3		\n\t"\
-        "paddw  16(%0), %%mm4		\n\t"\
-        "movq    4(%0), %%mm2		\n\t"\
-        "movq   12(%0), %%mm5		\n\t"\
-        "paddw   6(%0), %%mm2		\n\t"\
-        "paddw  14(%0), %%mm5		\n\t"\
-        "psubw %%mm1, %%mm0		\n\t"\
-        "psubw %%mm4, %%mm3		\n\t"\
-        "psraw $2, %%mm0		\n\t"\
-        "psraw $2, %%mm3		\n\t"\
-        "psubw %%mm1, %%mm0		\n\t"\
-        "psubw %%mm4, %%mm3		\n\t"\
-        "paddsw %%mm2, %%mm0		\n\t"\
-        "paddsw %%mm5, %%mm3		\n\t"\
-        "psraw $2, %%mm0		\n\t"\
-        "psraw $2, %%mm3		\n\t"\
-        "paddw %%mm6, %%mm2		\n\t"\
-        "paddw %%mm6, %%mm5		\n\t"\
-        "paddw %%mm2, %%mm0		\n\t"\
-        "paddw %%mm5, %%mm3		\n\t"\
-        "psraw $6, %%mm0		\n\t"\
-        "psraw $6, %%mm3		\n\t"\
-        "packuswb %%mm3, %%mm0		\n\t"\
+        "movq %4, %%mm6             \n\t"\
+        "1:                         \n\t"\
+        "movq     (%0), %%mm0       \n\t"\
+        "movq    8(%0), %%mm3       \n\t"\
+        "movq    2(%0), %%mm1       \n\t"\
+        "movq   10(%0), %%mm4       \n\t"\
+        "paddw   %%mm4, %%mm0       \n\t"\
+        "paddw   %%mm3, %%mm1       \n\t"\
+        "paddw  18(%0), %%mm3       \n\t"\
+        "paddw  16(%0), %%mm4       \n\t"\
+        "movq    4(%0), %%mm2       \n\t"\
+        "movq   12(%0), %%mm5       \n\t"\
+        "paddw   6(%0), %%mm2       \n\t"\
+        "paddw  14(%0), %%mm5       \n\t"\
+        "psubw %%mm1, %%mm0         \n\t"\
+        "psubw %%mm4, %%mm3         \n\t"\
+        "psraw $2, %%mm0            \n\t"\
+        "psraw $2, %%mm3            \n\t"\
+        "psubw %%mm1, %%mm0         \n\t"\
+        "psubw %%mm4, %%mm3         \n\t"\
+        "paddsw %%mm2, %%mm0        \n\t"\
+        "paddsw %%mm5, %%mm3        \n\t"\
+        "psraw $2, %%mm0            \n\t"\
+        "psraw $2, %%mm3            \n\t"\
+        "paddw %%mm6, %%mm2         \n\t"\
+        "paddw %%mm6, %%mm5         \n\t"\
+        "paddw %%mm2, %%mm0         \n\t"\
+        "paddw %%mm5, %%mm3         \n\t"\
+        "psraw $6, %%mm0            \n\t"\
+        "psraw $6, %%mm3            \n\t"\
+        "packuswb %%mm3, %%mm0      \n\t"\
         OP(%%mm0, (%1),%%mm7, q)\
-        "add $32, %0			\n\t"\
-        "add %3, %1			\n\t"\
-        "decl %2			\n\t"\
-        " jnz 1b			\n\t"\
+        "add $32, %0                \n\t"\
+        "add %3, %1                 \n\t"\
+        "decl %2                    \n\t"\
+        " jnz 1b                    \n\t"\
         : "+a"(tmp), "+c"(dst), "+m"(h)\
         : "S"((long)dstStride), "m"(ff_pw_32)\
         : "memory"\
@@ -862,15 +862,15 @@ static void OPNAME ## h264_qpel ## SIZE ## _mc32_ ## MMX(uint8_t *dst, uint8_t *
 }\
 
 
-#define PUT_OP(a,b,temp, size) "mov" #size " " #a ", " #b "	\n\t"
+#define PUT_OP(a,b,temp, size) "mov" #size " " #a ", " #b "    \n\t"
 #define AVG_3DNOW_OP(a,b,temp, size) \
-"mov" #size " " #b ", " #temp "	\n\t"\
-"pavgusb " #temp ", " #a "	\n\t"\
-"mov" #size " " #a ", " #b "	\n\t"
+"mov" #size " " #b ", " #temp "   \n\t"\
+"pavgusb " #temp ", " #a "        \n\t"\
+"mov" #size " " #a ", " #b "      \n\t"
 #define AVG_MMX2_OP(a,b,temp, size) \
-"mov" #size " " #b ", " #temp "	\n\t"\
-"pavgb " #temp ", " #a "	\n\t"\
-"mov" #size " " #a ", " #b "	\n\t"
+"mov" #size " " #b ", " #temp "   \n\t"\
+"pavgb " #temp ", " #a "          \n\t"\
+"mov" #size " " #a ", " #b "      \n\t"
 
 QPEL_H264(put_,       PUT_OP, 3dnow)
 QPEL_H264(avg_, AVG_3DNOW_OP, 3dnow)
diff --git a/libavcodec/i386/idct_mmx.c b/libavcodec/i386/idct_mmx.c
index d1a84549d0..2b884fd832 100644
--- a/libavcodec/i386/idct_mmx.c
+++ b/libavcodec/i386/idct_mmx.c
@@ -38,7 +38,7 @@
 #if 0
 /* C row IDCT - its just here to document the MMXEXT and MMX versions */
 static inline void idct_row (int16_t * row, int offset,
-			     int16_t * table, int32_t * rounder)
+                             int16_t * table, int32_t * rounder)
 {
     int C1, C2, C3, C4, C5, C6, C7;
     int a0, a1, a2, a3, b0, b1, b2, b3;
@@ -77,241 +77,241 @@ static inline void idct_row (int16_t * row, int offset,
 
 /* MMXEXT row IDCT */
 
-#define mmxext_table(c1,c2,c3,c4,c5,c6,c7)	{  c4,  c2, -c4, -c2,	\
-						   c4,  c6,  c4,  c6,	\
-						   c1,  c3, -c1, -c5,	\
-						   c5,  c7,  c3, -c7,	\
-						   c4, -c6,  c4, -c6,	\
-						  -c4,  c2,  c4, -c2,	\
-						   c5, -c1,  c3, -c1,	\
-						   c7,  c3,  c7, -c5 }
+#define mmxext_table(c1,c2,c3,c4,c5,c6,c7)      {  c4,  c2, -c4, -c2,   \
+                                                   c4,  c6,  c4,  c6,   \
+                                                   c1,  c3, -c1, -c5,   \
+                                                   c5,  c7,  c3, -c7,   \
+                                                   c4, -c6,  c4, -c6,   \
+                                                  -c4,  c2,  c4, -c2,   \
+                                                   c5, -c1,  c3, -c1,   \
+                                                   c7,  c3,  c7, -c5 }
 
 static inline void mmxext_row_head (int16_t * row, int offset, const int16_t * table)
 {
-    movq_m2r (*(row+offset), mm2);	// mm2 = x6 x4 x2 x0
+    movq_m2r (*(row+offset), mm2);      // mm2 = x6 x4 x2 x0
 
-    movq_m2r (*(row+offset+4), mm5);	// mm5 = x7 x5 x3 x1
-    movq_r2r (mm2, mm0);		// mm0 = x6 x4 x2 x0
+    movq_m2r (*(row+offset+4), mm5);    // mm5 = x7 x5 x3 x1
+    movq_r2r (mm2, mm0);                // mm0 = x6 x4 x2 x0
 
-    movq_m2r (*table, mm3);		// mm3 = -C2 -C4 C2 C4
-    movq_r2r (mm5, mm6);		// mm6 = x7 x5 x3 x1
+    movq_m2r (*table, mm3);             // mm3 = -C2 -C4 C2 C4
+    movq_r2r (mm5, mm6);                // mm6 = x7 x5 x3 x1
 
-    movq_m2r (*(table+4), mm4);		// mm4 = C6 C4 C6 C4
-    pmaddwd_r2r (mm0, mm3);		// mm3 = -C4*x4-C2*x6 C4*x0+C2*x2
+    movq_m2r (*(table+4), mm4);         // mm4 = C6 C4 C6 C4
+    pmaddwd_r2r (mm0, mm3);             // mm3 = -C4*x4-C2*x6 C4*x0+C2*x2
 
-    pshufw_r2r (mm2, mm2, 0x4e);	// mm2 = x2 x0 x6 x4
+    pshufw_r2r (mm2, mm2, 0x4e);        // mm2 = x2 x0 x6 x4
 }
 
 static inline void mmxext_row (const int16_t * table, const int32_t * rounder)
 {
-    movq_m2r (*(table+8), mm1);		// mm1 = -C5 -C1 C3 C1
-    pmaddwd_r2r (mm2, mm4);		// mm4 = C4*x0+C6*x2 C4*x4+C6*x6
+    movq_m2r (*(table+8), mm1);         // mm1 = -C5 -C1 C3 C1
+    pmaddwd_r2r (mm2, mm4);             // mm4 = C4*x0+C6*x2 C4*x4+C6*x6
 
-    pmaddwd_m2r (*(table+16), mm0);	// mm0 = C4*x4-C6*x6 C4*x0-C6*x2
-    pshufw_r2r (mm6, mm6, 0x4e);	// mm6 = x3 x1 x7 x5
+    pmaddwd_m2r (*(table+16), mm0);     // mm0 = C4*x4-C6*x6 C4*x0-C6*x2
+    pshufw_r2r (mm6, mm6, 0x4e);        // mm6 = x3 x1 x7 x5
 
-    movq_m2r (*(table+12), mm7);	// mm7 = -C7 C3 C7 C5
-    pmaddwd_r2r (mm5, mm1);		// mm1 = -C1*x5-C5*x7 C1*x1+C3*x3
+    movq_m2r (*(table+12), mm7);        // mm7 = -C7 C3 C7 C5
+    pmaddwd_r2r (mm5, mm1);             // mm1 = -C1*x5-C5*x7 C1*x1+C3*x3
 
-    paddd_m2r (*rounder, mm3);		// mm3 += rounder
-    pmaddwd_r2r (mm6, mm7);		// mm7 = C3*x1-C7*x3 C5*x5+C7*x7
+    paddd_m2r (*rounder, mm3);          // mm3 += rounder
+    pmaddwd_r2r (mm6, mm7);             // mm7 = C3*x1-C7*x3 C5*x5+C7*x7
 
-    pmaddwd_m2r (*(table+20), mm2);	// mm2 = C4*x0-C2*x2 -C4*x4+C2*x6
-    paddd_r2r (mm4, mm3);		// mm3 = a1 a0 + rounder
+    pmaddwd_m2r (*(table+20), mm2);     // mm2 = C4*x0-C2*x2 -C4*x4+C2*x6
+    paddd_r2r (mm4, mm3);               // mm3 = a1 a0 + rounder
 
-    pmaddwd_m2r (*(table+24), mm5);	// mm5 = C3*x5-C1*x7 C5*x1-C1*x3
-    movq_r2r (mm3, mm4);		// mm4 = a1 a0 + rounder
+    pmaddwd_m2r (*(table+24), mm5);     // mm5 = C3*x5-C1*x7 C5*x1-C1*x3
+    movq_r2r (mm3, mm4);                // mm4 = a1 a0 + rounder
 
-    pmaddwd_m2r (*(table+28), mm6);	// mm6 = C7*x1-C5*x3 C7*x5+C3*x7
-    paddd_r2r (mm7, mm1);		// mm1 = b1 b0
+    pmaddwd_m2r (*(table+28), mm6);     // mm6 = C7*x1-C5*x3 C7*x5+C3*x7
+    paddd_r2r (mm7, mm1);               // mm1 = b1 b0
 
-    paddd_m2r (*rounder, mm0);		// mm0 += rounder
-    psubd_r2r (mm1, mm3);		// mm3 = a1-b1 a0-b0 + rounder
+    paddd_m2r (*rounder, mm0);          // mm0 += rounder
+    psubd_r2r (mm1, mm3);               // mm3 = a1-b1 a0-b0 + rounder
 
-    psrad_i2r (ROW_SHIFT, mm3);		// mm3 = y6 y7
-    paddd_r2r (mm4, mm1);		// mm1 = a1+b1 a0+b0 + rounder
+    psrad_i2r (ROW_SHIFT, mm3);         // mm3 = y6 y7
+    paddd_r2r (mm4, mm1);               // mm1 = a1+b1 a0+b0 + rounder
 
-    paddd_r2r (mm2, mm0);		// mm0 = a3 a2 + rounder
-    psrad_i2r (ROW_SHIFT, mm1);		// mm1 = y1 y0
+    paddd_r2r (mm2, mm0);               // mm0 = a3 a2 + rounder
+    psrad_i2r (ROW_SHIFT, mm1);         // mm1 = y1 y0
 
-    paddd_r2r (mm6, mm5);		// mm5 = b3 b2
-    movq_r2r (mm0, mm4);		// mm4 = a3 a2 + rounder
+    paddd_r2r (mm6, mm5);               // mm5 = b3 b2
+    movq_r2r (mm0, mm4);                // mm4 = a3 a2 + rounder
 
-    paddd_r2r (mm5, mm0);		// mm0 = a3+b3 a2+b2 + rounder
-    psubd_r2r (mm5, mm4);		// mm4 = a3-b3 a2-b2 + rounder
+    paddd_r2r (mm5, mm0);               // mm0 = a3+b3 a2+b2 + rounder
+    psubd_r2r (mm5, mm4);               // mm4 = a3-b3 a2-b2 + rounder
 }
 
 static inline void mmxext_row_tail (int16_t * row, int store)
 {
-    psrad_i2r (ROW_SHIFT, mm0);		// mm0 = y3 y2
+    psrad_i2r (ROW_SHIFT, mm0);         // mm0 = y3 y2
 
-    psrad_i2r (ROW_SHIFT, mm4);		// mm4 = y4 y5
+    psrad_i2r (ROW_SHIFT, mm4);         // mm4 = y4 y5
 
-    packssdw_r2r (mm0, mm1);		// mm1 = y3 y2 y1 y0
+    packssdw_r2r (mm0, mm1);            // mm1 = y3 y2 y1 y0
 
-    packssdw_r2r (mm3, mm4);		// mm4 = y6 y7 y4 y5
+    packssdw_r2r (mm3, mm4);            // mm4 = y6 y7 y4 y5
 
-    movq_r2m (mm1, *(row+store));	// save y3 y2 y1 y0
-    pshufw_r2r (mm4, mm4, 0xb1);	// mm4 = y7 y6 y5 y4
+    movq_r2m (mm1, *(row+store));       // save y3 y2 y1 y0
+    pshufw_r2r (mm4, mm4, 0xb1);        // mm4 = y7 y6 y5 y4
 
     /* slot */
 
-    movq_r2m (mm4, *(row+store+4));	// save y7 y6 y5 y4
+    movq_r2m (mm4, *(row+store+4));     // save y7 y6 y5 y4
 }
 
 static inline void mmxext_row_mid (int16_t * row, int store,
-				   int offset, const int16_t * table)
+                                   int offset, const int16_t * table)
 {
-    movq_m2r (*(row+offset), mm2);	// mm2 = x6 x4 x2 x0
-    psrad_i2r (ROW_SHIFT, mm0);		// mm0 = y3 y2
+    movq_m2r (*(row+offset), mm2);      // mm2 = x6 x4 x2 x0
+    psrad_i2r (ROW_SHIFT, mm0);         // mm0 = y3 y2
 
-    movq_m2r (*(row+offset+4), mm5);	// mm5 = x7 x5 x3 x1
-    psrad_i2r (ROW_SHIFT, mm4);		// mm4 = y4 y5
+    movq_m2r (*(row+offset+4), mm5);    // mm5 = x7 x5 x3 x1
+    psrad_i2r (ROW_SHIFT, mm4);         // mm4 = y4 y5
 
-    packssdw_r2r (mm0, mm1);		// mm1 = y3 y2 y1 y0
-    movq_r2r (mm5, mm6);		// mm6 = x7 x5 x3 x1
+    packssdw_r2r (mm0, mm1);            // mm1 = y3 y2 y1 y0
+    movq_r2r (mm5, mm6);                // mm6 = x7 x5 x3 x1
 
-    packssdw_r2r (mm3, mm4);		// mm4 = y6 y7 y4 y5
-    movq_r2r (mm2, mm0);		// mm0 = x6 x4 x2 x0
+    packssdw_r2r (mm3, mm4);            // mm4 = y6 y7 y4 y5
+    movq_r2r (mm2, mm0);                // mm0 = x6 x4 x2 x0
 
-    movq_r2m (mm1, *(row+store));	// save y3 y2 y1 y0
-    pshufw_r2r (mm4, mm4, 0xb1);	// mm4 = y7 y6 y5 y4
+    movq_r2m (mm1, *(row+store));       // save y3 y2 y1 y0
+    pshufw_r2r (mm4, mm4, 0xb1);        // mm4 = y7 y6 y5 y4
 
-    movq_m2r (*table, mm3);		// mm3 = -C2 -C4 C2 C4
-    movq_r2m (mm4, *(row+store+4));	// save y7 y6 y5 y4
+    movq_m2r (*table, mm3);             // mm3 = -C2 -C4 C2 C4
+    movq_r2m (mm4, *(row+store+4));     // save y7 y6 y5 y4
 
-    pmaddwd_r2r (mm0, mm3);		// mm3 = -C4*x4-C2*x6 C4*x0+C2*x2
+    pmaddwd_r2r (mm0, mm3);             // mm3 = -C4*x4-C2*x6 C4*x0+C2*x2
 
-    movq_m2r (*(table+4), mm4);		// mm4 = C6 C4 C6 C4
-    pshufw_r2r (mm2, mm2, 0x4e);	// mm2 = x2 x0 x6 x4
+    movq_m2r (*(table+4), mm4);         // mm4 = C6 C4 C6 C4
+    pshufw_r2r (mm2, mm2, 0x4e);        // mm2 = x2 x0 x6 x4
 }
 
 
 /* MMX row IDCT */
 
-#define mmx_table(c1,c2,c3,c4,c5,c6,c7)	{  c4,  c2,  c4,  c6,	\
-					   c4,  c6, -c4, -c2,	\
-					   c1,  c3,  c3, -c7,	\
-					   c5,  c7, -c1, -c5,	\
-					   c4, -c6,  c4, -c2,	\
-					  -c4,  c2,  c4, -c6,	\
-					   c5, -c1,  c7, -c5,	\
-					   c7,  c3,  c3, -c1 }
+#define mmx_table(c1,c2,c3,c4,c5,c6,c7) {  c4,  c2,  c4,  c6,   \
+                                           c4,  c6, -c4, -c2,   \
+                                           c1,  c3,  c3, -c7,   \
+                                           c5,  c7, -c1, -c5,   \
+                                           c4, -c6,  c4, -c2,   \
+                                          -c4,  c2,  c4, -c6,   \
+                                           c5, -c1,  c7, -c5,   \
+                                           c7,  c3,  c3, -c1 }
 
 static inline void mmx_row_head (int16_t * row, int offset, const int16_t * table)
 {
-    movq_m2r (*(row+offset), mm2);	// mm2 = x6 x4 x2 x0
+    movq_m2r (*(row+offset), mm2);      // mm2 = x6 x4 x2 x0
 
-    movq_m2r (*(row+offset+4), mm5);	// mm5 = x7 x5 x3 x1
-    movq_r2r (mm2, mm0);		// mm0 = x6 x4 x2 x0
+    movq_m2r (*(row+offset+4), mm5);    // mm5 = x7 x5 x3 x1
+    movq_r2r (mm2, mm0);                // mm0 = x6 x4 x2 x0
 
-    movq_m2r (*table, mm3);		// mm3 = C6 C4 C2 C4
-    movq_r2r (mm5, mm6);		// mm6 = x7 x5 x3 x1
+    movq_m2r (*table, mm3);             // mm3 = C6 C4 C2 C4
+    movq_r2r (mm5, mm6);                // mm6 = x7 x5 x3 x1
 
-    punpckldq_r2r (mm0, mm0);		// mm0 = x2 x0 x2 x0
+    punpckldq_r2r (mm0, mm0);           // mm0 = x2 x0 x2 x0
 
-    movq_m2r (*(table+4), mm4);		// mm4 = -C2 -C4 C6 C4
-    pmaddwd_r2r (mm0, mm3);		// mm3 = C4*x0+C6*x2 C4*x0+C2*x2
+    movq_m2r (*(table+4), mm4);         // mm4 = -C2 -C4 C6 C4
+    pmaddwd_r2r (mm0, mm3);             // mm3 = C4*x0+C6*x2 C4*x0+C2*x2
 
-    movq_m2r (*(table+8), mm1);		// mm1 = -C7 C3 C3 C1
-    punpckhdq_r2r (mm2, mm2);		// mm2 = x6 x4 x6 x4
+    movq_m2r (*(table+8), mm1);         // mm1 = -C7 C3 C3 C1
+    punpckhdq_r2r (mm2, mm2);           // mm2 = x6 x4 x6 x4
 }
 
 static inline void mmx_row (const int16_t * table, const int32_t * rounder)
 {
-    pmaddwd_r2r (mm2, mm4);		// mm4 = -C4*x4-C2*x6 C4*x4+C6*x6
-    punpckldq_r2r (mm5, mm5);		// mm5 = x3 x1 x3 x1
+    pmaddwd_r2r (mm2, mm4);             // mm4 = -C4*x4-C2*x6 C4*x4+C6*x6
+    punpckldq_r2r (mm5, mm5);           // mm5 = x3 x1 x3 x1
 
-    pmaddwd_m2r (*(table+16), mm0);	// mm0 = C4*x0-C2*x2 C4*x0-C6*x2
-    punpckhdq_r2r (mm6, mm6);		// mm6 = x7 x5 x7 x5
+    pmaddwd_m2r (*(table+16), mm0);     // mm0 = C4*x0-C2*x2 C4*x0-C6*x2
+    punpckhdq_r2r (mm6, mm6);           // mm6 = x7 x5 x7 x5
 
-    movq_m2r (*(table+12), mm7);	// mm7 = -C5 -C1 C7 C5
-    pmaddwd_r2r (mm5, mm1);		// mm1 = C3*x1-C7*x3 C1*x1+C3*x3
+    movq_m2r (*(table+12), mm7);        // mm7 = -C5 -C1 C7 C5
+    pmaddwd_r2r (mm5, mm1);             // mm1 = C3*x1-C7*x3 C1*x1+C3*x3
 
-    paddd_m2r (*rounder, mm3);		// mm3 += rounder
-    pmaddwd_r2r (mm6, mm7);		// mm7 = -C1*x5-C5*x7 C5*x5+C7*x7
+    paddd_m2r (*rounder, mm3);          // mm3 += rounder
+    pmaddwd_r2r (mm6, mm7);             // mm7 = -C1*x5-C5*x7 C5*x5+C7*x7
 
-    pmaddwd_m2r (*(table+20), mm2);	// mm2 = C4*x4-C6*x6 -C4*x4+C2*x6
-    paddd_r2r (mm4, mm3);		// mm3 = a1 a0 + rounder
+    pmaddwd_m2r (*(table+20), mm2);     // mm2 = C4*x4-C6*x6 -C4*x4+C2*x6
+    paddd_r2r (mm4, mm3);               // mm3 = a1 a0 + rounder
 
-    pmaddwd_m2r (*(table+24), mm5);	// mm5 = C7*x1-C5*x3 C5*x1-C1*x3
-    movq_r2r (mm3, mm4);		// mm4 = a1 a0 + rounder
+    pmaddwd_m2r (*(table+24), mm5);     // mm5 = C7*x1-C5*x3 C5*x1-C1*x3
+    movq_r2r (mm3, mm4);                // mm4 = a1 a0 + rounder
 
-    pmaddwd_m2r (*(table+28), mm6);	// mm6 = C3*x5-C1*x7 C7*x5+C3*x7
-    paddd_r2r (mm7, mm1);		// mm1 = b1 b0
+    pmaddwd_m2r (*(table+28), mm6);     // mm6 = C3*x5-C1*x7 C7*x5+C3*x7
+    paddd_r2r (mm7, mm1);               // mm1 = b1 b0
 
-    paddd_m2r (*rounder, mm0);		// mm0 += rounder
-    psubd_r2r (mm1, mm3);		// mm3 = a1-b1 a0-b0 + rounder
+    paddd_m2r (*rounder, mm0);          // mm0 += rounder
+    psubd_r2r (mm1, mm3);               // mm3 = a1-b1 a0-b0 + rounder
 
-    psrad_i2r (ROW_SHIFT, mm3);		// mm3 = y6 y7
-    paddd_r2r (mm4, mm1);		// mm1 = a1+b1 a0+b0 + rounder
+    psrad_i2r (ROW_SHIFT, mm3);         // mm3 = y6 y7
+    paddd_r2r (mm4, mm1);               // mm1 = a1+b1 a0+b0 + rounder
 
-    paddd_r2r (mm2, mm0);		// mm0 = a3 a2 + rounder
-    psrad_i2r (ROW_SHIFT, mm1);		// mm1 = y1 y0
+    paddd_r2r (mm2, mm0);               // mm0 = a3 a2 + rounder
+    psrad_i2r (ROW_SHIFT, mm1);         // mm1 = y1 y0
 
-    paddd_r2r (mm6, mm5);		// mm5 = b3 b2
-    movq_r2r (mm0, mm7);		// mm7 = a3 a2 + rounder
+    paddd_r2r (mm6, mm5);               // mm5 = b3 b2
+    movq_r2r (mm0, mm7);                // mm7 = a3 a2 + rounder
 
-    paddd_r2r (mm5, mm0);		// mm0 = a3+b3 a2+b2 + rounder
-    psubd_r2r (mm5, mm7);		// mm7 = a3-b3 a2-b2 + rounder
+    paddd_r2r (mm5, mm0);               // mm0 = a3+b3 a2+b2 + rounder
+    psubd_r2r (mm5, mm7);               // mm7 = a3-b3 a2-b2 + rounder
 }
 
 static inline void mmx_row_tail (int16_t * row, int store)
 {
-    psrad_i2r (ROW_SHIFT, mm0);		// mm0 = y3 y2
+    psrad_i2r (ROW_SHIFT, mm0);         // mm0 = y3 y2
 
-    psrad_i2r (ROW_SHIFT, mm7);		// mm7 = y4 y5
+    psrad_i2r (ROW_SHIFT, mm7);         // mm7 = y4 y5
 
-    packssdw_r2r (mm0, mm1);		// mm1 = y3 y2 y1 y0
+    packssdw_r2r (mm0, mm1);            // mm1 = y3 y2 y1 y0
 
-    packssdw_r2r (mm3, mm7);		// mm7 = y6 y7 y4 y5
+    packssdw_r2r (mm3, mm7);            // mm7 = y6 y7 y4 y5
 
-    movq_r2m (mm1, *(row+store));	// save y3 y2 y1 y0
-    movq_r2r (mm7, mm4);		// mm4 = y6 y7 y4 y5
+    movq_r2m (mm1, *(row+store));       // save y3 y2 y1 y0
+    movq_r2r (mm7, mm4);                // mm4 = y6 y7 y4 y5
 
-    pslld_i2r (16, mm7);		// mm7 = y7 0 y5 0
+    pslld_i2r (16, mm7);                // mm7 = y7 0 y5 0
 
-    psrld_i2r (16, mm4);		// mm4 = 0 y6 0 y4
+    psrld_i2r (16, mm4);                // mm4 = 0 y6 0 y4
 
-    por_r2r (mm4, mm7);			// mm7 = y7 y6 y5 y4
+    por_r2r (mm4, mm7);                 // mm7 = y7 y6 y5 y4
 
     /* slot */
 
-    movq_r2m (mm7, *(row+store+4));	// save y7 y6 y5 y4
+    movq_r2m (mm7, *(row+store+4));     // save y7 y6 y5 y4
 }
 
 static inline void mmx_row_mid (int16_t * row, int store,
-				int offset, const int16_t * table)
+                                int offset, const int16_t * table)
 {
-    movq_m2r (*(row+offset), mm2);	// mm2 = x6 x4 x2 x0
-    psrad_i2r (ROW_SHIFT, mm0);		// mm0 = y3 y2
+    movq_m2r (*(row+offset), mm2);      // mm2 = x6 x4 x2 x0
+    psrad_i2r (ROW_SHIFT, mm0);         // mm0 = y3 y2
 
-    movq_m2r (*(row+offset+4), mm5);	// mm5 = x7 x5 x3 x1
-    psrad_i2r (ROW_SHIFT, mm7);		// mm7 = y4 y5
+    movq_m2r (*(row+offset+4), mm5);    // mm5 = x7 x5 x3 x1
+    psrad_i2r (ROW_SHIFT, mm7);         // mm7 = y4 y5
 
-    packssdw_r2r (mm0, mm1);		// mm1 = y3 y2 y1 y0
-    movq_r2r (mm5, mm6);		// mm6 = x7 x5 x3 x1
+    packssdw_r2r (mm0, mm1);            // mm1 = y3 y2 y1 y0
+    movq_r2r (mm5, mm6);                // mm6 = x7 x5 x3 x1
 
-    packssdw_r2r (mm3, mm7);		// mm7 = y6 y7 y4 y5
-    movq_r2r (mm2, mm0);		// mm0 = x6 x4 x2 x0
+    packssdw_r2r (mm3, mm7);            // mm7 = y6 y7 y4 y5
+    movq_r2r (mm2, mm0);                // mm0 = x6 x4 x2 x0
 
-    movq_r2m (mm1, *(row+store));	// save y3 y2 y1 y0
-    movq_r2r (mm7, mm1);		// mm1 = y6 y7 y4 y5
+    movq_r2m (mm1, *(row+store));       // save y3 y2 y1 y0
+    movq_r2r (mm7, mm1);                // mm1 = y6 y7 y4 y5
 
-    punpckldq_r2r (mm0, mm0);		// mm0 = x2 x0 x2 x0
-    psrld_i2r (16, mm7);		// mm7 = 0 y6 0 y4
+    punpckldq_r2r (mm0, mm0);           // mm0 = x2 x0 x2 x0
+    psrld_i2r (16, mm7);                // mm7 = 0 y6 0 y4
 
-    movq_m2r (*table, mm3);		// mm3 = C6 C4 C2 C4
-    pslld_i2r (16, mm1);		// mm1 = y7 0 y5 0
+    movq_m2r (*table, mm3);             // mm3 = C6 C4 C2 C4
+    pslld_i2r (16, mm1);                // mm1 = y7 0 y5 0
 
-    movq_m2r (*(table+4), mm4);		// mm4 = -C2 -C4 C6 C4
-    por_r2r (mm1, mm7);			// mm7 = y7 y6 y5 y4
+    movq_m2r (*(table+4), mm4);         // mm4 = -C2 -C4 C6 C4
+    por_r2r (mm1, mm7);                 // mm7 = y7 y6 y5 y4
 
-    movq_m2r (*(table+8), mm1);		// mm1 = -C7 C3 C3 C1
-    punpckhdq_r2r (mm2, mm2);		// mm2 = x6 x4 x6 x4
+    movq_m2r (*(table+8), mm1);         // mm1 = -C7 C3 C3 C1
+    punpckhdq_r2r (mm2, mm2);           // mm2 = x6 x4 x6 x4
 
-    movq_r2m (mm7, *(row+store+4));	// save y7 y6 y5 y4
-    pmaddwd_r2r (mm0, mm3);		// mm3 = C4*x0+C6*x2 C4*x0+C2*x2
+    movq_r2m (mm7, *(row+store+4));     // save y7 y6 y5 y4
+    pmaddwd_r2r (mm0, mm3);             // mm3 = C4*x0+C6*x2 C4*x0+C2*x2
 }
 
 
@@ -403,132 +403,132 @@ static inline void idct_col (int16_t * col, int offset)
     /* column code adapted from peter gubanov */
     /* http://www.elecard.com/peter/idct.shtml */
 
-    movq_m2r (*_T1, mm0);		// mm0 = T1
+    movq_m2r (*_T1, mm0);               // mm0 = T1
 
-    movq_m2r (*(col+offset+1*8), mm1);	// mm1 = x1
-    movq_r2r (mm0, mm2);		// mm2 = T1
+    movq_m2r (*(col+offset+1*8), mm1);  // mm1 = x1
+    movq_r2r (mm0, mm2);                // mm2 = T1
 
-    movq_m2r (*(col+offset+7*8), mm4);	// mm4 = x7
-    pmulhw_r2r (mm1, mm0);		// mm0 = T1*x1
+    movq_m2r (*(col+offset+7*8), mm4);  // mm4 = x7
+    pmulhw_r2r (mm1, mm0);              // mm0 = T1*x1
 
-    movq_m2r (*_T3, mm5);		// mm5 = T3
-    pmulhw_r2r (mm4, mm2);		// mm2 = T1*x7
+    movq_m2r (*_T3, mm5);               // mm5 = T3
+    pmulhw_r2r (mm4, mm2);              // mm2 = T1*x7
 
-    movq_m2r (*(col+offset+5*8), mm6);	// mm6 = x5
-    movq_r2r (mm5, mm7);		// mm7 = T3-1
+    movq_m2r (*(col+offset+5*8), mm6);  // mm6 = x5
+    movq_r2r (mm5, mm7);                // mm7 = T3-1
 
-    movq_m2r (*(col+offset+3*8), mm3);	// mm3 = x3
-    psubsw_r2r (mm4, mm0);		// mm0 = v17
+    movq_m2r (*(col+offset+3*8), mm3);  // mm3 = x3
+    psubsw_r2r (mm4, mm0);              // mm0 = v17
 
-    movq_m2r (*_T2, mm4);		// mm4 = T2
-    pmulhw_r2r (mm3, mm5);		// mm5 = (T3-1)*x3
+    movq_m2r (*_T2, mm4);               // mm4 = T2
+    pmulhw_r2r (mm3, mm5);              // mm5 = (T3-1)*x3
 
-    paddsw_r2r (mm2, mm1);		// mm1 = u17
-    pmulhw_r2r (mm6, mm7);		// mm7 = (T3-1)*x5
+    paddsw_r2r (mm2, mm1);              // mm1 = u17
+    pmulhw_r2r (mm6, mm7);              // mm7 = (T3-1)*x5
 
     /* slot */
 
-    movq_r2r (mm4, mm2);		// mm2 = T2
-    paddsw_r2r (mm3, mm5);		// mm5 = T3*x3
+    movq_r2r (mm4, mm2);                // mm2 = T2
+    paddsw_r2r (mm3, mm5);              // mm5 = T3*x3
 
     pmulhw_m2r (*(col+offset+2*8), mm4);// mm4 = T2*x2
-    paddsw_r2r (mm6, mm7);		// mm7 = T3*x5
+    paddsw_r2r (mm6, mm7);              // mm7 = T3*x5
 
-    psubsw_r2r (mm6, mm5);		// mm5 = v35
-    paddsw_r2r (mm3, mm7);		// mm7 = u35
+    psubsw_r2r (mm6, mm5);              // mm5 = v35
+    paddsw_r2r (mm3, mm7);              // mm7 = u35
 
-    movq_m2r (*(col+offset+6*8), mm3);	// mm3 = x6
-    movq_r2r (mm0, mm6);		// mm6 = v17
+    movq_m2r (*(col+offset+6*8), mm3);  // mm3 = x6
+    movq_r2r (mm0, mm6);                // mm6 = v17
 
-    pmulhw_r2r (mm3, mm2);		// mm2 = T2*x6
-    psubsw_r2r (mm5, mm0);		// mm0 = b3
+    pmulhw_r2r (mm3, mm2);              // mm2 = T2*x6
+    psubsw_r2r (mm5, mm0);              // mm0 = b3
 
-    psubsw_r2r (mm3, mm4);		// mm4 = v26
-    paddsw_r2r (mm6, mm5);		// mm5 = v12
+    psubsw_r2r (mm3, mm4);              // mm4 = v26
+    paddsw_r2r (mm6, mm5);              // mm5 = v12
 
-    movq_r2m (mm0, *(col+offset+3*8));	// save b3 in scratch0
-    movq_r2r (mm1, mm6);		// mm6 = u17
+    movq_r2m (mm0, *(col+offset+3*8));  // save b3 in scratch0
+    movq_r2r (mm1, mm6);                // mm6 = u17
 
     paddsw_m2r (*(col+offset+2*8), mm2);// mm2 = u26
-    paddsw_r2r (mm7, mm6);		// mm6 = b0
+    paddsw_r2r (mm7, mm6);              // mm6 = b0
 
-    psubsw_r2r (mm7, mm1);		// mm1 = u12
-    movq_r2r (mm1, mm7);		// mm7 = u12
+    psubsw_r2r (mm7, mm1);              // mm1 = u12
+    movq_r2r (mm1, mm7);                // mm7 = u12
 
-    movq_m2r (*(col+offset+0*8), mm3);	// mm3 = x0
-    paddsw_r2r (mm5, mm1);		// mm1 = u12+v12
+    movq_m2r (*(col+offset+0*8), mm3);  // mm3 = x0
+    paddsw_r2r (mm5, mm1);              // mm1 = u12+v12
 
-    movq_m2r (*_C4, mm0);		// mm0 = C4/2
-    psubsw_r2r (mm5, mm7);		// mm7 = u12-v12
+    movq_m2r (*_C4, mm0);               // mm0 = C4/2
+    psubsw_r2r (mm5, mm7);              // mm7 = u12-v12
 
-    movq_r2m (mm6, *(col+offset+5*8));	// save b0 in scratch1
-    pmulhw_r2r (mm0, mm1);		// mm1 = b1/2
+    movq_r2m (mm6, *(col+offset+5*8));  // save b0 in scratch1
+    pmulhw_r2r (mm0, mm1);              // mm1 = b1/2
 
-    movq_r2r (mm4, mm6);		// mm6 = v26
-    pmulhw_r2r (mm0, mm7);		// mm7 = b2/2
+    movq_r2r (mm4, mm6);                // mm6 = v26
+    pmulhw_r2r (mm0, mm7);              // mm7 = b2/2
 
-    movq_m2r (*(col+offset+4*8), mm5);	// mm5 = x4
-    movq_r2r (mm3, mm0);		// mm0 = x0
+    movq_m2r (*(col+offset+4*8), mm5);  // mm5 = x4
+    movq_r2r (mm3, mm0);                // mm0 = x0
 
-    psubsw_r2r (mm5, mm3);		// mm3 = v04
-    paddsw_r2r (mm5, mm0);		// mm0 = u04
+    psubsw_r2r (mm5, mm3);              // mm3 = v04
+    paddsw_r2r (mm5, mm0);              // mm0 = u04
 
-    paddsw_r2r (mm3, mm4);		// mm4 = a1
-    movq_r2r (mm0, mm5);		// mm5 = u04
+    paddsw_r2r (mm3, mm4);              // mm4 = a1
+    movq_r2r (mm0, mm5);                // mm5 = u04
 
-    psubsw_r2r (mm6, mm3);		// mm3 = a2
-    paddsw_r2r (mm2, mm5);		// mm5 = a0
+    psubsw_r2r (mm6, mm3);              // mm3 = a2
+    paddsw_r2r (mm2, mm5);              // mm5 = a0
 
-    paddsw_r2r (mm1, mm1);		// mm1 = b1
-    psubsw_r2r (mm2, mm0);		// mm0 = a3
+    paddsw_r2r (mm1, mm1);              // mm1 = b1
+    psubsw_r2r (mm2, mm0);              // mm0 = a3
 
-    paddsw_r2r (mm7, mm7);		// mm7 = b2
-    movq_r2r (mm3, mm2);		// mm2 = a2
+    paddsw_r2r (mm7, mm7);              // mm7 = b2
+    movq_r2r (mm3, mm2);                // mm2 = a2
 
-    movq_r2r (mm4, mm6);		// mm6 = a1
-    paddsw_r2r (mm7, mm3);		// mm3 = a2+b2
+    movq_r2r (mm4, mm6);                // mm6 = a1
+    paddsw_r2r (mm7, mm3);              // mm3 = a2+b2
 
-    psraw_i2r (COL_SHIFT, mm3);		// mm3 = y2
-    paddsw_r2r (mm1, mm4);		// mm4 = a1+b1
+    psraw_i2r (COL_SHIFT, mm3);         // mm3 = y2
+    paddsw_r2r (mm1, mm4);              // mm4 = a1+b1
 
-    psraw_i2r (COL_SHIFT, mm4);		// mm4 = y1
-    psubsw_r2r (mm1, mm6);		// mm6 = a1-b1
+    psraw_i2r (COL_SHIFT, mm4);         // mm4 = y1
+    psubsw_r2r (mm1, mm6);              // mm6 = a1-b1
 
-    movq_m2r (*(col+offset+5*8), mm1);	// mm1 = b0
-    psubsw_r2r (mm7, mm2);		// mm2 = a2-b2
+    movq_m2r (*(col+offset+5*8), mm1);  // mm1 = b0
+    psubsw_r2r (mm7, mm2);              // mm2 = a2-b2
 
-    psraw_i2r (COL_SHIFT, mm6);		// mm6 = y6
-    movq_r2r (mm5, mm7);		// mm7 = a0
+    psraw_i2r (COL_SHIFT, mm6);         // mm6 = y6
+    movq_r2r (mm5, mm7);                // mm7 = a0
 
-    movq_r2m (mm4, *(col+offset+1*8));	// save y1
-    psraw_i2r (COL_SHIFT, mm2);		// mm2 = y5
+    movq_r2m (mm4, *(col+offset+1*8));  // save y1
+    psraw_i2r (COL_SHIFT, mm2);         // mm2 = y5
 
-    movq_r2m (mm3, *(col+offset+2*8));	// save y2
-    paddsw_r2r (mm1, mm5);		// mm5 = a0+b0
+    movq_r2m (mm3, *(col+offset+2*8));  // save y2
+    paddsw_r2r (mm1, mm5);              // mm5 = a0+b0
 
-    movq_m2r (*(col+offset+3*8), mm4);	// mm4 = b3
-    psubsw_r2r (mm1, mm7);		// mm7 = a0-b0
+    movq_m2r (*(col+offset+3*8), mm4);  // mm4 = b3
+    psubsw_r2r (mm1, mm7);              // mm7 = a0-b0
 
-    psraw_i2r (COL_SHIFT, mm5);		// mm5 = y0
-    movq_r2r (mm0, mm3);		// mm3 = a3
+    psraw_i2r (COL_SHIFT, mm5);         // mm5 = y0
+    movq_r2r (mm0, mm3);                // mm3 = a3
 
-    movq_r2m (mm2, *(col+offset+5*8));	// save y5
-    psubsw_r2r (mm4, mm3);		// mm3 = a3-b3
+    movq_r2m (mm2, *(col+offset+5*8));  // save y5
+    psubsw_r2r (mm4, mm3);              // mm3 = a3-b3
 
-    psraw_i2r (COL_SHIFT, mm7);		// mm7 = y7
-    paddsw_r2r (mm0, mm4);		// mm4 = a3+b3
+    psraw_i2r (COL_SHIFT, mm7);         // mm7 = y7
+    paddsw_r2r (mm0, mm4);              // mm4 = a3+b3
 
-    movq_r2m (mm5, *(col+offset+0*8));	// save y0
-    psraw_i2r (COL_SHIFT, mm3);		// mm3 = y4
+    movq_r2m (mm5, *(col+offset+0*8));  // save y0
+    psraw_i2r (COL_SHIFT, mm3);         // mm3 = y4
 
-    movq_r2m (mm6, *(col+offset+6*8));	// save y6
-    psraw_i2r (COL_SHIFT, mm4);		// mm4 = y3
+    movq_r2m (mm6, *(col+offset+6*8));  // save y6
+    psraw_i2r (COL_SHIFT, mm4);         // mm4 = y3
 
-    movq_r2m (mm7, *(col+offset+7*8));	// save y7
+    movq_r2m (mm7, *(col+offset+7*8));  // save y7
 
-    movq_r2m (mm3, *(col+offset+4*8));	// save y4
+    movq_r2m (mm3, *(col+offset+4*8));  // save y4
 
-    movq_r2m (mm4, *(col+offset+3*8));	// save y3
+    movq_r2m (mm4, *(col+offset+3*8));  // save y3
 
 #undef T1
 #undef T2
@@ -540,61 +540,61 @@ static const int32_t rounder0[] ATTR_ALIGN(8) =
     rounder ((1 << (COL_SHIFT - 1)) - 0.5);
 static const int32_t rounder4[] ATTR_ALIGN(8) = rounder (0);
 static const int32_t rounder1[] ATTR_ALIGN(8) =
-    rounder (1.25683487303);	/* C1*(C1/C4+C1+C7)/2 */
+    rounder (1.25683487303);        /* C1*(C1/C4+C1+C7)/2 */
 static const int32_t rounder7[] ATTR_ALIGN(8) =
-    rounder (-0.25);		/* C1*(C7/C4+C7-C1)/2 */
+    rounder (-0.25);                /* C1*(C7/C4+C7-C1)/2 */
 static const int32_t rounder2[] ATTR_ALIGN(8) =
-    rounder (0.60355339059);	/* C2 * (C6+C2)/2 */
+    rounder (0.60355339059);        /* C2 * (C6+C2)/2 */
 static const int32_t rounder6[] ATTR_ALIGN(8) =
-    rounder (-0.25);		/* C2 * (C6-C2)/2 */
+    rounder (-0.25);                /* C2 * (C6-C2)/2 */
 static const int32_t rounder3[] ATTR_ALIGN(8) =
-    rounder (0.087788325588);	/* C3*(-C3/C4+C3+C5)/2 */
+    rounder (0.087788325588);       /* C3*(-C3/C4+C3+C5)/2 */
 static const int32_t rounder5[] ATTR_ALIGN(8) =
-    rounder (-0.441341716183);	/* C3*(-C5/C4+C5-C3)/2 */
+    rounder (-0.441341716183);      /* C3*(-C5/C4+C5-C3)/2 */
 
 #undef COL_SHIFT
 #undef ROW_SHIFT
 
-#define declare_idct(idct,table,idct_row_head,idct_row,idct_row_tail,idct_row_mid)	\
-void idct (int16_t * block)					\
-{									\
-    static const int16_t table04[] ATTR_ALIGN(16) =				\
-	table (22725, 21407, 19266, 16384, 12873,  8867, 4520);		\
-    static const int16_t table17[] ATTR_ALIGN(16) =				\
-	table (31521, 29692, 26722, 22725, 17855, 12299, 6270);		\
-    static const int16_t table26[] ATTR_ALIGN(16) =				\
-	table (29692, 27969, 25172, 21407, 16819, 11585, 5906);		\
-    static const int16_t table35[] ATTR_ALIGN(16) =				\
-	table (26722, 25172, 22654, 19266, 15137, 10426, 5315);		\
-									\
-    idct_row_head (block, 0*8, table04);				\
-    idct_row (table04, rounder0);					\
-    idct_row_mid (block, 0*8, 4*8, table04);				\
-    idct_row (table04, rounder4);					\
-    idct_row_mid (block, 4*8, 1*8, table17);				\
-    idct_row (table17, rounder1);					\
-    idct_row_mid (block, 1*8, 7*8, table17);				\
-    idct_row (table17, rounder7);					\
-    idct_row_mid (block, 7*8, 2*8, table26);				\
-    idct_row (table26, rounder2);					\
-    idct_row_mid (block, 2*8, 6*8, table26);				\
-    idct_row (table26, rounder6);					\
-    idct_row_mid (block, 6*8, 3*8, table35);				\
-    idct_row (table35, rounder3);					\
-    idct_row_mid (block, 3*8, 5*8, table35);				\
-    idct_row (table35, rounder5);					\
-    idct_row_tail (block, 5*8);						\
-									\
-    idct_col (block, 0);						\
-    idct_col (block, 4);						\
+#define declare_idct(idct,table,idct_row_head,idct_row,idct_row_tail,idct_row_mid) \
+void idct (int16_t * block)                                             \
+{                                                                       \
+    static const int16_t table04[] ATTR_ALIGN(16) =                     \
+        table (22725, 21407, 19266, 16384, 12873,  8867, 4520);         \
+    static const int16_t table17[] ATTR_ALIGN(16) =                     \
+        table (31521, 29692, 26722, 22725, 17855, 12299, 6270);         \
+    static const int16_t table26[] ATTR_ALIGN(16) =                     \
+        table (29692, 27969, 25172, 21407, 16819, 11585, 5906);         \
+    static const int16_t table35[] ATTR_ALIGN(16) =                     \
+        table (26722, 25172, 22654, 19266, 15137, 10426, 5315);         \
+                                                                        \
+    idct_row_head (block, 0*8, table04);                                \
+    idct_row (table04, rounder0);                                       \
+    idct_row_mid (block, 0*8, 4*8, table04);                            \
+    idct_row (table04, rounder4);                                       \
+    idct_row_mid (block, 4*8, 1*8, table17);                            \
+    idct_row (table17, rounder1);                                       \
+    idct_row_mid (block, 1*8, 7*8, table17);                            \
+    idct_row (table17, rounder7);                                       \
+    idct_row_mid (block, 7*8, 2*8, table26);                            \
+    idct_row (table26, rounder2);                                       \
+    idct_row_mid (block, 2*8, 6*8, table26);                            \
+    idct_row (table26, rounder6);                                       \
+    idct_row_mid (block, 6*8, 3*8, table35);                            \
+    idct_row (table35, rounder3);                                       \
+    idct_row_mid (block, 3*8, 5*8, table35);                            \
+    idct_row (table35, rounder5);                                       \
+    idct_row_tail (block, 5*8);                                         \
+                                                                        \
+    idct_col (block, 0);                                                \
+    idct_col (block, 4);                                                \
 }
 
 void ff_mmx_idct(DCTELEM *block);
 void ff_mmxext_idct(DCTELEM *block);
 
 declare_idct (ff_mmxext_idct, mmxext_table,
-	      mmxext_row_head, mmxext_row, mmxext_row_tail, mmxext_row_mid)
+              mmxext_row_head, mmxext_row, mmxext_row_tail, mmxext_row_mid)
 
 declare_idct (ff_mmx_idct, mmx_table,
-	      mmx_row_head, mmx_row, mmx_row_tail, mmx_row_mid)
+              mmx_row_head, mmx_row, mmx_row_tail, mmx_row_mid)
 
diff --git a/libavcodec/i386/mmx.h b/libavcodec/i386/mmx.h
index 96360ab16a..df4620e0ab 100644
--- a/libavcodec/i386/mmx.h
+++ b/libavcodec/i386/mmx.h
@@ -27,257 +27,257 @@
  * values by ULL, lest they be truncated by the compiler)
  */
 
-typedef	union {
-	long long		q;	/* Quadword (64-bit) value */
-	unsigned long long	uq;	/* Unsigned Quadword */
-	int			d[2];	/* 2 Doubleword (32-bit) values */
-	unsigned int		ud[2];	/* 2 Unsigned Doubleword */
-	short			w[4];	/* 4 Word (16-bit) values */
-	unsigned short		uw[4];	/* 4 Unsigned Word */
-	char			b[8];	/* 8 Byte (8-bit) values */
-	unsigned char		ub[8];	/* 8 Unsigned Byte */
-	float			s[2];	/* Single-precision (32-bit) value */
-} mmx_t;	/* On an 8-byte (64-bit) boundary */
-
-
-#define	mmx_i2r(op,imm,reg) \
-	__asm__ __volatile__ (#op " %0, %%" #reg \
-			      : /* nothing */ \
-			      : "i" (imm) )
-
-#define	mmx_m2r(op,mem,reg) \
-	__asm__ __volatile__ (#op " %0, %%" #reg \
-			      : /* nothing */ \
-			      : "m" (mem))
-
-#define	mmx_r2m(op,reg,mem) \
-	__asm__ __volatile__ (#op " %%" #reg ", %0" \
-			      : "=m" (mem) \
-			      : /* nothing */ )
-
-#define	mmx_r2r(op,regs,regd) \
-	__asm__ __volatile__ (#op " %" #regs ", %" #regd)
-
-
-#define	emms() __asm__ __volatile__ ("emms")
-
-#define	movd_m2r(var,reg)	mmx_m2r (movd, var, reg)
-#define	movd_r2m(reg,var)	mmx_r2m (movd, reg, var)
-#define	movd_r2r(regs,regd)	mmx_r2r (movd, regs, regd)
-
-#define	movq_m2r(var,reg)	mmx_m2r (movq, var, reg)
-#define	movq_r2m(reg,var)	mmx_r2m (movq, reg, var)
-#define	movq_r2r(regs,regd)	mmx_r2r (movq, regs, regd)
-
-#define	packssdw_m2r(var,reg)	mmx_m2r (packssdw, var, reg)
-#define	packssdw_r2r(regs,regd) mmx_r2r (packssdw, regs, regd)
-#define	packsswb_m2r(var,reg)	mmx_m2r (packsswb, var, reg)
-#define	packsswb_r2r(regs,regd) mmx_r2r (packsswb, regs, regd)
-
-#define	packuswb_m2r(var,reg)	mmx_m2r (packuswb, var, reg)
-#define	packuswb_r2r(regs,regd) mmx_r2r (packuswb, regs, regd)
-
-#define	paddb_m2r(var,reg)	mmx_m2r (paddb, var, reg)
-#define	paddb_r2r(regs,regd)	mmx_r2r (paddb, regs, regd)
-#define	paddd_m2r(var,reg)	mmx_m2r (paddd, var, reg)
-#define	paddd_r2r(regs,regd)	mmx_r2r (paddd, regs, regd)
-#define	paddw_m2r(var,reg)	mmx_m2r (paddw, var, reg)
-#define	paddw_r2r(regs,regd)	mmx_r2r (paddw, regs, regd)
-
-#define	paddsb_m2r(var,reg)	mmx_m2r (paddsb, var, reg)
-#define	paddsb_r2r(regs,regd)	mmx_r2r (paddsb, regs, regd)
-#define	paddsw_m2r(var,reg)	mmx_m2r (paddsw, var, reg)
-#define	paddsw_r2r(regs,regd)	mmx_r2r (paddsw, regs, regd)
-
-#define	paddusb_m2r(var,reg)	mmx_m2r (paddusb, var, reg)
-#define	paddusb_r2r(regs,regd)	mmx_r2r (paddusb, regs, regd)
-#define	paddusw_m2r(var,reg)	mmx_m2r (paddusw, var, reg)
-#define	paddusw_r2r(regs,regd)	mmx_r2r (paddusw, regs, regd)
-
-#define	pand_m2r(var,reg)	mmx_m2r (pand, var, reg)
-#define	pand_r2r(regs,regd)	mmx_r2r (pand, regs, regd)
-
-#define	pandn_m2r(var,reg)	mmx_m2r (pandn, var, reg)
-#define	pandn_r2r(regs,regd)	mmx_r2r (pandn, regs, regd)
-
-#define	pcmpeqb_m2r(var,reg)	mmx_m2r (pcmpeqb, var, reg)
-#define	pcmpeqb_r2r(regs,regd)	mmx_r2r (pcmpeqb, regs, regd)
-#define	pcmpeqd_m2r(var,reg)	mmx_m2r (pcmpeqd, var, reg)
-#define	pcmpeqd_r2r(regs,regd)	mmx_r2r (pcmpeqd, regs, regd)
-#define	pcmpeqw_m2r(var,reg)	mmx_m2r (pcmpeqw, var, reg)
-#define	pcmpeqw_r2r(regs,regd)	mmx_r2r (pcmpeqw, regs, regd)
-
-#define	pcmpgtb_m2r(var,reg)	mmx_m2r (pcmpgtb, var, reg)
-#define	pcmpgtb_r2r(regs,regd)	mmx_r2r (pcmpgtb, regs, regd)
-#define	pcmpgtd_m2r(var,reg)	mmx_m2r (pcmpgtd, var, reg)
-#define	pcmpgtd_r2r(regs,regd)	mmx_r2r (pcmpgtd, regs, regd)
-#define	pcmpgtw_m2r(var,reg)	mmx_m2r (pcmpgtw, var, reg)
-#define	pcmpgtw_r2r(regs,regd)	mmx_r2r (pcmpgtw, regs, regd)
-
-#define	pmaddwd_m2r(var,reg)	mmx_m2r (pmaddwd, var, reg)
-#define	pmaddwd_r2r(regs,regd)	mmx_r2r (pmaddwd, regs, regd)
-
-#define	pmulhw_m2r(var,reg)	mmx_m2r (pmulhw, var, reg)
-#define	pmulhw_r2r(regs,regd)	mmx_r2r (pmulhw, regs, regd)
-
-#define	pmullw_m2r(var,reg)	mmx_m2r (pmullw, var, reg)
-#define	pmullw_r2r(regs,regd)	mmx_r2r (pmullw, regs, regd)
-
-#define	por_m2r(var,reg)	mmx_m2r (por, var, reg)
-#define	por_r2r(regs,regd)	mmx_r2r (por, regs, regd)
-
-#define	pslld_i2r(imm,reg)	mmx_i2r (pslld, imm, reg)
-#define	pslld_m2r(var,reg)	mmx_m2r (pslld, var, reg)
-#define	pslld_r2r(regs,regd)	mmx_r2r (pslld, regs, regd)
-#define	psllq_i2r(imm,reg)	mmx_i2r (psllq, imm, reg)
-#define	psllq_m2r(var,reg)	mmx_m2r (psllq, var, reg)
-#define	psllq_r2r(regs,regd)	mmx_r2r (psllq, regs, regd)
-#define	psllw_i2r(imm,reg)	mmx_i2r (psllw, imm, reg)
-#define	psllw_m2r(var,reg)	mmx_m2r (psllw, var, reg)
-#define	psllw_r2r(regs,regd)	mmx_r2r (psllw, regs, regd)
-
-#define	psrad_i2r(imm,reg)	mmx_i2r (psrad, imm, reg)
-#define	psrad_m2r(var,reg)	mmx_m2r (psrad, var, reg)
-#define	psrad_r2r(regs,regd)	mmx_r2r (psrad, regs, regd)
-#define	psraw_i2r(imm,reg)	mmx_i2r (psraw, imm, reg)
-#define	psraw_m2r(var,reg)	mmx_m2r (psraw, var, reg)
-#define	psraw_r2r(regs,regd)	mmx_r2r (psraw, regs, regd)
-
-#define	psrld_i2r(imm,reg)	mmx_i2r (psrld, imm, reg)
-#define	psrld_m2r(var,reg)	mmx_m2r (psrld, var, reg)
-#define	psrld_r2r(regs,regd)	mmx_r2r (psrld, regs, regd)
-#define	psrlq_i2r(imm,reg)	mmx_i2r (psrlq, imm, reg)
-#define	psrlq_m2r(var,reg)	mmx_m2r (psrlq, var, reg)
-#define	psrlq_r2r(regs,regd)	mmx_r2r (psrlq, regs, regd)
-#define	psrlw_i2r(imm,reg)	mmx_i2r (psrlw, imm, reg)
-#define	psrlw_m2r(var,reg)	mmx_m2r (psrlw, var, reg)
-#define	psrlw_r2r(regs,regd)	mmx_r2r (psrlw, regs, regd)
-
-#define	psubb_m2r(var,reg)	mmx_m2r (psubb, var, reg)
-#define	psubb_r2r(regs,regd)	mmx_r2r (psubb, regs, regd)
-#define	psubd_m2r(var,reg)	mmx_m2r (psubd, var, reg)
-#define	psubd_r2r(regs,regd)	mmx_r2r (psubd, regs, regd)
-#define	psubw_m2r(var,reg)	mmx_m2r (psubw, var, reg)
-#define	psubw_r2r(regs,regd)	mmx_r2r (psubw, regs, regd)
-
-#define	psubsb_m2r(var,reg)	mmx_m2r (psubsb, var, reg)
-#define	psubsb_r2r(regs,regd)	mmx_r2r (psubsb, regs, regd)
-#define	psubsw_m2r(var,reg)	mmx_m2r (psubsw, var, reg)
-#define	psubsw_r2r(regs,regd)	mmx_r2r (psubsw, regs, regd)
-
-#define	psubusb_m2r(var,reg)	mmx_m2r (psubusb, var, reg)
-#define	psubusb_r2r(regs,regd)	mmx_r2r (psubusb, regs, regd)
-#define	psubusw_m2r(var,reg)	mmx_m2r (psubusw, var, reg)
-#define	psubusw_r2r(regs,regd)	mmx_r2r (psubusw, regs, regd)
-
-#define	punpckhbw_m2r(var,reg)		mmx_m2r (punpckhbw, var, reg)
-#define	punpckhbw_r2r(regs,regd)	mmx_r2r (punpckhbw, regs, regd)
-#define	punpckhdq_m2r(var,reg)		mmx_m2r (punpckhdq, var, reg)
-#define	punpckhdq_r2r(regs,regd)	mmx_r2r (punpckhdq, regs, regd)
-#define	punpckhwd_m2r(var,reg)		mmx_m2r (punpckhwd, var, reg)
-#define	punpckhwd_r2r(regs,regd)	mmx_r2r (punpckhwd, regs, regd)
-
-#define	punpcklbw_m2r(var,reg) 		mmx_m2r (punpcklbw, var, reg)
-#define	punpcklbw_r2r(regs,regd)	mmx_r2r (punpcklbw, regs, regd)
-#define	punpckldq_m2r(var,reg)		mmx_m2r (punpckldq, var, reg)
-#define	punpckldq_r2r(regs,regd)	mmx_r2r (punpckldq, regs, regd)
-#define	punpcklwd_m2r(var,reg)		mmx_m2r (punpcklwd, var, reg)
-#define	punpcklwd_r2r(regs,regd)	mmx_r2r (punpcklwd, regs, regd)
-
-#define	pxor_m2r(var,reg)	mmx_m2r (pxor, var, reg)
-#define	pxor_r2r(regs,regd)	mmx_r2r (pxor, regs, regd)
+typedef        union {
+        long long               q;      /* Quadword (64-bit) value */
+        unsigned long long      uq;     /* Unsigned Quadword */
+        int                     d[2];   /* 2 Doubleword (32-bit) values */
+        unsigned int            ud[2];  /* 2 Unsigned Doubleword */
+        short                   w[4];   /* 4 Word (16-bit) values */
+        unsigned short          uw[4];  /* 4 Unsigned Word */
+        char                    b[8];   /* 8 Byte (8-bit) values */
+        unsigned char           ub[8];  /* 8 Unsigned Byte */
+        float                   s[2];   /* Single-precision (32-bit) value */
+} mmx_t;        /* On an 8-byte (64-bit) boundary */
+
+
+#define         mmx_i2r(op,imm,reg) \
+        __asm__ __volatile__ (#op " %0, %%" #reg \
+                              : /* nothing */ \
+                              : "i" (imm) )
+
+#define         mmx_m2r(op,mem,reg) \
+        __asm__ __volatile__ (#op " %0, %%" #reg \
+                              : /* nothing */ \
+                              : "m" (mem))
+
+#define         mmx_r2m(op,reg,mem) \
+        __asm__ __volatile__ (#op " %%" #reg ", %0" \
+                              : "=m" (mem) \
+                              : /* nothing */ )
+
+#define         mmx_r2r(op,regs,regd) \
+        __asm__ __volatile__ (#op " %" #regs ", %" #regd)
+
+
+#define         emms() __asm__ __volatile__ ("emms")
+
+#define         movd_m2r(var,reg)           mmx_m2r (movd, var, reg)
+#define         movd_r2m(reg,var)           mmx_r2m (movd, reg, var)
+#define         movd_r2r(regs,regd)         mmx_r2r (movd, regs, regd)
+
+#define         movq_m2r(var,reg)           mmx_m2r (movq, var, reg)
+#define         movq_r2m(reg,var)           mmx_r2m (movq, reg, var)
+#define         movq_r2r(regs,regd)         mmx_r2r (movq, regs, regd)
+
+#define         packssdw_m2r(var,reg)       mmx_m2r (packssdw, var, reg)
+#define         packssdw_r2r(regs,regd)     mmx_r2r (packssdw, regs, regd)
+#define         packsswb_m2r(var,reg)       mmx_m2r (packsswb, var, reg)
+#define         packsswb_r2r(regs,regd)     mmx_r2r (packsswb, regs, regd)
+
+#define         packuswb_m2r(var,reg)       mmx_m2r (packuswb, var, reg)
+#define         packuswb_r2r(regs,regd)     mmx_r2r (packuswb, regs, regd)
+
+#define         paddb_m2r(var,reg)          mmx_m2r (paddb, var, reg)
+#define         paddb_r2r(regs,regd)        mmx_r2r (paddb, regs, regd)
+#define         paddd_m2r(var,reg)          mmx_m2r (paddd, var, reg)
+#define         paddd_r2r(regs,regd)        mmx_r2r (paddd, regs, regd)
+#define         paddw_m2r(var,reg)          mmx_m2r (paddw, var, reg)
+#define         paddw_r2r(regs,regd)        mmx_r2r (paddw, regs, regd)
+
+#define         paddsb_m2r(var,reg)         mmx_m2r (paddsb, var, reg)
+#define         paddsb_r2r(regs,regd)       mmx_r2r (paddsb, regs, regd)
+#define         paddsw_m2r(var,reg)         mmx_m2r (paddsw, var, reg)
+#define         paddsw_r2r(regs,regd)       mmx_r2r (paddsw, regs, regd)
+
+#define         paddusb_m2r(var,reg)        mmx_m2r (paddusb, var, reg)
+#define         paddusb_r2r(regs,regd)      mmx_r2r (paddusb, regs, regd)
+#define         paddusw_m2r(var,reg)        mmx_m2r (paddusw, var, reg)
+#define         paddusw_r2r(regs,regd)      mmx_r2r (paddusw, regs, regd)
+
+#define         pand_m2r(var,reg)           mmx_m2r (pand, var, reg)
+#define         pand_r2r(regs,regd)         mmx_r2r (pand, regs, regd)
+
+#define         pandn_m2r(var,reg)          mmx_m2r (pandn, var, reg)
+#define         pandn_r2r(regs,regd)        mmx_r2r (pandn, regs, regd)
+
+#define         pcmpeqb_m2r(var,reg)        mmx_m2r (pcmpeqb, var, reg)
+#define         pcmpeqb_r2r(regs,regd)      mmx_r2r (pcmpeqb, regs, regd)
+#define         pcmpeqd_m2r(var,reg)        mmx_m2r (pcmpeqd, var, reg)
+#define         pcmpeqd_r2r(regs,regd)      mmx_r2r (pcmpeqd, regs, regd)
+#define         pcmpeqw_m2r(var,reg)        mmx_m2r (pcmpeqw, var, reg)
+#define         pcmpeqw_r2r(regs,regd)      mmx_r2r (pcmpeqw, regs, regd)
+
+#define         pcmpgtb_m2r(var,reg)        mmx_m2r (pcmpgtb, var, reg)
+#define         pcmpgtb_r2r(regs,regd)      mmx_r2r (pcmpgtb, regs, regd)
+#define         pcmpgtd_m2r(var,reg)        mmx_m2r (pcmpgtd, var, reg)
+#define         pcmpgtd_r2r(regs,regd)      mmx_r2r (pcmpgtd, regs, regd)
+#define         pcmpgtw_m2r(var,reg)        mmx_m2r (pcmpgtw, var, reg)
+#define         pcmpgtw_r2r(regs,regd)      mmx_r2r (pcmpgtw, regs, regd)
+
+#define         pmaddwd_m2r(var,reg)        mmx_m2r (pmaddwd, var, reg)
+#define         pmaddwd_r2r(regs,regd)      mmx_r2r (pmaddwd, regs, regd)
+
+#define         pmulhw_m2r(var,reg)         mmx_m2r (pmulhw, var, reg)
+#define         pmulhw_r2r(regs,regd)       mmx_r2r (pmulhw, regs, regd)
+
+#define         pmullw_m2r(var,reg)         mmx_m2r (pmullw, var, reg)
+#define         pmullw_r2r(regs,regd)       mmx_r2r (pmullw, regs, regd)
+
+#define         por_m2r(var,reg)            mmx_m2r (por, var, reg)
+#define         por_r2r(regs,regd)          mmx_r2r (por, regs, regd)
+
+#define         pslld_i2r(imm,reg)          mmx_i2r (pslld, imm, reg)
+#define         pslld_m2r(var,reg)          mmx_m2r (pslld, var, reg)
+#define         pslld_r2r(regs,regd)        mmx_r2r (pslld, regs, regd)
+#define         psllq_i2r(imm,reg)          mmx_i2r (psllq, imm, reg)
+#define         psllq_m2r(var,reg)          mmx_m2r (psllq, var, reg)
+#define         psllq_r2r(regs,regd)        mmx_r2r (psllq, regs, regd)
+#define         psllw_i2r(imm,reg)          mmx_i2r (psllw, imm, reg)
+#define         psllw_m2r(var,reg)          mmx_m2r (psllw, var, reg)
+#define         psllw_r2r(regs,regd)        mmx_r2r (psllw, regs, regd)
+
+#define         psrad_i2r(imm,reg)          mmx_i2r (psrad, imm, reg)
+#define         psrad_m2r(var,reg)          mmx_m2r (psrad, var, reg)
+#define         psrad_r2r(regs,regd)        mmx_r2r (psrad, regs, regd)
+#define         psraw_i2r(imm,reg)          mmx_i2r (psraw, imm, reg)
+#define         psraw_m2r(var,reg)          mmx_m2r (psraw, var, reg)
+#define         psraw_r2r(regs,regd)        mmx_r2r (psraw, regs, regd)
+
+#define         psrld_i2r(imm,reg)          mmx_i2r (psrld, imm, reg)
+#define         psrld_m2r(var,reg)          mmx_m2r (psrld, var, reg)
+#define         psrld_r2r(regs,regd)        mmx_r2r (psrld, regs, regd)
+#define         psrlq_i2r(imm,reg)          mmx_i2r (psrlq, imm, reg)
+#define         psrlq_m2r(var,reg)          mmx_m2r (psrlq, var, reg)
+#define         psrlq_r2r(regs,regd)        mmx_r2r (psrlq, regs, regd)
+#define         psrlw_i2r(imm,reg)          mmx_i2r (psrlw, imm, reg)
+#define         psrlw_m2r(var,reg)          mmx_m2r (psrlw, var, reg)
+#define         psrlw_r2r(regs,regd)        mmx_r2r (psrlw, regs, regd)
+
+#define         psubb_m2r(var,reg)          mmx_m2r (psubb, var, reg)
+#define         psubb_r2r(regs,regd)        mmx_r2r (psubb, regs, regd)
+#define         psubd_m2r(var,reg)          mmx_m2r (psubd, var, reg)
+#define         psubd_r2r(regs,regd)        mmx_r2r (psubd, regs, regd)
+#define         psubw_m2r(var,reg)          mmx_m2r (psubw, var, reg)
+#define         psubw_r2r(regs,regd)        mmx_r2r (psubw, regs, regd)
+
+#define         psubsb_m2r(var,reg)         mmx_m2r (psubsb, var, reg)
+#define         psubsb_r2r(regs,regd)       mmx_r2r (psubsb, regs, regd)
+#define         psubsw_m2r(var,reg)         mmx_m2r (psubsw, var, reg)
+#define         psubsw_r2r(regs,regd)       mmx_r2r (psubsw, regs, regd)
+
+#define         psubusb_m2r(var,reg)        mmx_m2r (psubusb, var, reg)
+#define         psubusb_r2r(regs,regd)      mmx_r2r (psubusb, regs, regd)
+#define         psubusw_m2r(var,reg)        mmx_m2r (psubusw, var, reg)
+#define         psubusw_r2r(regs,regd)      mmx_r2r (psubusw, regs, regd)
+
+#define         punpckhbw_m2r(var,reg)      mmx_m2r (punpckhbw, var, reg)
+#define         punpckhbw_r2r(regs,regd)    mmx_r2r (punpckhbw, regs, regd)
+#define         punpckhdq_m2r(var,reg)      mmx_m2r (punpckhdq, var, reg)
+#define         punpckhdq_r2r(regs,regd)    mmx_r2r (punpckhdq, regs, regd)
+#define         punpckhwd_m2r(var,reg)      mmx_m2r (punpckhwd, var, reg)
+#define         punpckhwd_r2r(regs,regd)    mmx_r2r (punpckhwd, regs, regd)
+
+#define         punpcklbw_m2r(var,reg)      mmx_m2r (punpcklbw, var, reg)
+#define         punpcklbw_r2r(regs,regd)    mmx_r2r (punpcklbw, regs, regd)
+#define         punpckldq_m2r(var,reg)      mmx_m2r (punpckldq, var, reg)
+#define         punpckldq_r2r(regs,regd)    mmx_r2r (punpckldq, regs, regd)
+#define         punpcklwd_m2r(var,reg)      mmx_m2r (punpcklwd, var, reg)
+#define         punpcklwd_r2r(regs,regd)    mmx_r2r (punpcklwd, regs, regd)
+
+#define         pxor_m2r(var,reg)           mmx_m2r (pxor, var, reg)
+#define         pxor_r2r(regs,regd)         mmx_r2r (pxor, regs, regd)
 
 
 /* 3DNOW extensions */
 
-#define pavgusb_m2r(var,reg)	mmx_m2r (pavgusb, var, reg)
-#define pavgusb_r2r(regs,regd)	mmx_r2r (pavgusb, regs, regd)
+#define         pavgusb_m2r(var,reg)        mmx_m2r (pavgusb, var, reg)
+#define         pavgusb_r2r(regs,regd)      mmx_r2r (pavgusb, regs, regd)
 
 
 /* AMD MMX extensions - also available in intel SSE */
 
 
-#define mmx_m2ri(op,mem,reg,imm) \
+#define         mmx_m2ri(op,mem,reg,imm) \
         __asm__ __volatile__ (#op " %1, %0, %%" #reg \
                               : /* nothing */ \
                               : "X" (mem), "X" (imm))
-#define mmx_r2ri(op,regs,regd,imm) \
+#define         mmx_r2ri(op,regs,regd,imm) \
         __asm__ __volatile__ (#op " %0, %%" #regs ", %%" #regd \
                               : /* nothing */ \
                               : "X" (imm) )
 
-#define	mmx_fetch(mem,hint) \
-	__asm__ __volatile__ ("prefetch" #hint " %0" \
-			      : /* nothing */ \
-			      : "X" (mem))
+#define         mmx_fetch(mem,hint) \
+        __asm__ __volatile__ ("prefetch" #hint " %0" \
+                              : /* nothing */ \
+                              : "X" (mem))
 
 
-#define	maskmovq(regs,maskreg)		mmx_r2ri (maskmovq, regs, maskreg)
+#define         maskmovq(regs,maskreg)      mmx_r2ri (maskmovq, regs, maskreg)
 
-#define	movntq_r2m(mmreg,var)		mmx_r2m (movntq, mmreg, var)
+#define         movntq_r2m(mmreg,var)       mmx_r2m (movntq, mmreg, var)
 
-#define	pavgb_m2r(var,reg)		mmx_m2r (pavgb, var, reg)
-#define	pavgb_r2r(regs,regd)		mmx_r2r (pavgb, regs, regd)
-#define	pavgw_m2r(var,reg)		mmx_m2r (pavgw, var, reg)
-#define	pavgw_r2r(regs,regd)		mmx_r2r (pavgw, regs, regd)
+#define         pavgb_m2r(var,reg)          mmx_m2r (pavgb, var, reg)
+#define         pavgb_r2r(regs,regd)        mmx_r2r (pavgb, regs, regd)
+#define         pavgw_m2r(var,reg)          mmx_m2r (pavgw, var, reg)
+#define         pavgw_r2r(regs,regd)        mmx_r2r (pavgw, regs, regd)
 
-#define	pextrw_r2r(mmreg,reg,imm)	mmx_r2ri (pextrw, mmreg, reg, imm)
+#define         pextrw_r2r(mmreg,reg,imm)   mmx_r2ri (pextrw, mmreg, reg, imm)
 
-#define	pinsrw_r2r(reg,mmreg,imm)	mmx_r2ri (pinsrw, reg, mmreg, imm)
+#define         pinsrw_r2r(reg,mmreg,imm)   mmx_r2ri (pinsrw, reg, mmreg, imm)
 
-#define	pmaxsw_m2r(var,reg)		mmx_m2r (pmaxsw, var, reg)
-#define	pmaxsw_r2r(regs,regd)		mmx_r2r (pmaxsw, regs, regd)
+#define         pmaxsw_m2r(var,reg)         mmx_m2r (pmaxsw, var, reg)
+#define         pmaxsw_r2r(regs,regd)       mmx_r2r (pmaxsw, regs, regd)
 
-#define	pmaxub_m2r(var,reg)		mmx_m2r (pmaxub, var, reg)
-#define	pmaxub_r2r(regs,regd)		mmx_r2r (pmaxub, regs, regd)
+#define         pmaxub_m2r(var,reg)         mmx_m2r (pmaxub, var, reg)
+#define         pmaxub_r2r(regs,regd)       mmx_r2r (pmaxub, regs, regd)
 
-#define	pminsw_m2r(var,reg)		mmx_m2r (pminsw, var, reg)
-#define	pminsw_r2r(regs,regd)		mmx_r2r (pminsw, regs, regd)
+#define         pminsw_m2r(var,reg)         mmx_m2r (pminsw, var, reg)
+#define         pminsw_r2r(regs,regd)       mmx_r2r (pminsw, regs, regd)
 
-#define	pminub_m2r(var,reg)		mmx_m2r (pminub, var, reg)
-#define	pminub_r2r(regs,regd)		mmx_r2r (pminub, regs, regd)
+#define         pminub_m2r(var,reg)         mmx_m2r (pminub, var, reg)
+#define         pminub_r2r(regs,regd)       mmx_r2r (pminub, regs, regd)
 
-#define	pmovmskb(mmreg,reg) \
-	__asm__ __volatile__ ("movmskps %" #mmreg ", %" #reg)
+#define         pmovmskb(mmreg,reg) \
+        __asm__ __volatile__ ("movmskps %" #mmreg ", %" #reg)
 
-#define	pmulhuw_m2r(var,reg)		mmx_m2r (pmulhuw, var, reg)
-#define	pmulhuw_r2r(regs,regd)		mmx_r2r (pmulhuw, regs, regd)
+#define         pmulhuw_m2r(var,reg)        mmx_m2r (pmulhuw, var, reg)
+#define         pmulhuw_r2r(regs,regd)      mmx_r2r (pmulhuw, regs, regd)
 
-#define	prefetcht0(mem)			mmx_fetch (mem, t0)
-#define	prefetcht1(mem)			mmx_fetch (mem, t1)
-#define	prefetcht2(mem)			mmx_fetch (mem, t2)
-#define	prefetchnta(mem)		mmx_fetch (mem, nta)
+#define         prefetcht0(mem)             mmx_fetch (mem, t0)
+#define         prefetcht1(mem)             mmx_fetch (mem, t1)
+#define         prefetcht2(mem)             mmx_fetch (mem, t2)
+#define         prefetchnta(mem)            mmx_fetch (mem, nta)
 
-#define	psadbw_m2r(var,reg)		mmx_m2r (psadbw, var, reg)
-#define	psadbw_r2r(regs,regd)		mmx_r2r (psadbw, regs, regd)
+#define         psadbw_m2r(var,reg)         mmx_m2r (psadbw, var, reg)
+#define         psadbw_r2r(regs,regd)       mmx_r2r (psadbw, regs, regd)
 
-#define	pshufw_m2r(var,reg,imm)		mmx_m2ri(pshufw, var, reg, imm)
-#define	pshufw_r2r(regs,regd,imm)	mmx_r2ri(pshufw, regs, regd, imm)
+#define         pshufw_m2r(var,reg,imm)     mmx_m2ri(pshufw, var, reg, imm)
+#define         pshufw_r2r(regs,regd,imm)   mmx_r2ri(pshufw, regs, regd, imm)
 
-#define	sfence() __asm__ __volatile__ ("sfence\n\t")
+#define         sfence() __asm__ __volatile__ ("sfence\n\t")
 
 /* SSE2 */
-#define	pshufhw_m2r(var,reg,imm)	mmx_m2ri(pshufhw, var, reg, imm)
-#define	pshufhw_r2r(regs,regd,imm)	mmx_r2ri(pshufhw, regs, regd, imm)
-#define	pshuflw_m2r(var,reg,imm)	mmx_m2ri(pshuflw, var, reg, imm)
-#define	pshuflw_r2r(regs,regd,imm)	mmx_r2ri(pshuflw, regs, regd, imm)
+#define         pshufhw_m2r(var,reg,imm)    mmx_m2ri(pshufhw, var, reg, imm)
+#define         pshufhw_r2r(regs,regd,imm)  mmx_r2ri(pshufhw, regs, regd, imm)
+#define         pshuflw_m2r(var,reg,imm)    mmx_m2ri(pshuflw, var, reg, imm)
+#define         pshuflw_r2r(regs,regd,imm)  mmx_r2ri(pshuflw, regs, regd, imm)
 
-#define	pshufd_r2r(regs,regd,imm)	mmx_r2ri(pshufd, regs, regd, imm)
+#define         pshufd_r2r(regs,regd,imm)   mmx_r2ri(pshufd, regs, regd, imm)
 
-#define	movdqa_m2r(var,reg)		mmx_m2r (movdqa, var, reg)
-#define	movdqa_r2m(reg,var)		mmx_r2m (movdqa, reg, var)
-#define	movdqa_r2r(regs,regd)		mmx_r2r (movdqa, regs, regd)
-#define	movdqu_m2r(var,reg)		mmx_m2r (movdqu, var, reg)
-#define	movdqu_r2m(reg,var)		mmx_r2m (movdqu, reg, var)
-#define	movdqu_r2r(regs,regd)		mmx_r2r (movdqu, regs, regd)
+#define         movdqa_m2r(var,reg)         mmx_m2r (movdqa, var, reg)
+#define         movdqa_r2m(reg,var)         mmx_r2m (movdqa, reg, var)
+#define         movdqa_r2r(regs,regd)       mmx_r2r (movdqa, regs, regd)
+#define         movdqu_m2r(var,reg)         mmx_m2r (movdqu, var, reg)
+#define         movdqu_r2m(reg,var)         mmx_r2m (movdqu, reg, var)
+#define         movdqu_r2r(regs,regd)       mmx_r2r (movdqu, regs, regd)
 
-#define	pmullw_r2m(reg,var)		mmx_r2m (pmullw, reg, var)
+#define         pmullw_r2m(reg,var)         mmx_r2m (pmullw, reg, var)
 
-#define	pslldq_i2r(imm,reg)		mmx_i2r (pslldq, imm, reg)
-#define	psrldq_i2r(imm,reg)		mmx_i2r (psrldq, imm, reg)
+#define         pslldq_i2r(imm,reg)         mmx_i2r (pslldq, imm, reg)
+#define         psrldq_i2r(imm,reg)         mmx_i2r (psrldq, imm, reg)
 
-#define	punpcklqdq_r2r(regs,regd)	mmx_r2r (punpcklqdq, regs, regd)
-#define	punpckhqdq_r2r(regs,regd)	mmx_r2r (punpckhqdq, regs, regd)
+#define         punpcklqdq_r2r(regs,regd)   mmx_r2r (punpcklqdq, regs, regd)
+#define         punpckhqdq_r2r(regs,regd)   mmx_r2r (punpckhqdq, regs, regd)
 
 
 #endif /* AVCODEC_I386MMX_H */
diff --git a/libavcodec/i386/motion_est_mmx.c b/libavcodec/i386/motion_est_mmx.c
index 69e10f628b..51fdd33d56 100644
--- a/libavcodec/i386/motion_est_mmx.c
+++ b/libavcodec/i386/motion_est_mmx.c
@@ -34,33 +34,33 @@ static inline void sad8_1_mmx(uint8_t *blk1, uint8_t *blk2, int stride, int h)
 {
     long len= -(stride*h);
     asm volatile(
-        ".balign 16			\n\t"
-        "1:				\n\t"
-        "movq (%1, %%"REG_a"), %%mm0	\n\t"
-        "movq (%2, %%"REG_a"), %%mm2	\n\t"
-        "movq (%2, %%"REG_a"), %%mm4	\n\t"
-        "add %3, %%"REG_a"		\n\t"
-        "psubusb %%mm0, %%mm2		\n\t"
-        "psubusb %%mm4, %%mm0		\n\t"
-        "movq (%1, %%"REG_a"), %%mm1	\n\t"
-        "movq (%2, %%"REG_a"), %%mm3	\n\t"
-        "movq (%2, %%"REG_a"), %%mm5	\n\t"
-        "psubusb %%mm1, %%mm3		\n\t"
-        "psubusb %%mm5, %%mm1		\n\t"
-        "por %%mm2, %%mm0		\n\t"
-        "por %%mm1, %%mm3		\n\t"
-        "movq %%mm0, %%mm1		\n\t"
-        "movq %%mm3, %%mm2		\n\t"
-        "punpcklbw %%mm7, %%mm0		\n\t"
-        "punpckhbw %%mm7, %%mm1		\n\t"
-        "punpcklbw %%mm7, %%mm3		\n\t"
-        "punpckhbw %%mm7, %%mm2		\n\t"
-        "paddw %%mm1, %%mm0		\n\t"
-        "paddw %%mm3, %%mm2		\n\t"
-        "paddw %%mm2, %%mm0		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "add %3, %%"REG_a"		\n\t"
-        " js 1b				\n\t"
+        ".balign 16                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "movq (%2, %%"REG_a"), %%mm2    \n\t"
+        "movq (%2, %%"REG_a"), %%mm4    \n\t"
+        "add %3, %%"REG_a"              \n\t"
+        "psubusb %%mm0, %%mm2           \n\t"
+        "psubusb %%mm4, %%mm0           \n\t"
+        "movq (%1, %%"REG_a"), %%mm1    \n\t"
+        "movq (%2, %%"REG_a"), %%mm3    \n\t"
+        "movq (%2, %%"REG_a"), %%mm5    \n\t"
+        "psubusb %%mm1, %%mm3           \n\t"
+        "psubusb %%mm5, %%mm1           \n\t"
+        "por %%mm2, %%mm0               \n\t"
+        "por %%mm1, %%mm3               \n\t"
+        "movq %%mm0, %%mm1              \n\t"
+        "movq %%mm3, %%mm2              \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "punpcklbw %%mm7, %%mm3         \n\t"
+        "punpckhbw %%mm7, %%mm2         \n\t"
+        "paddw %%mm1, %%mm0             \n\t"
+        "paddw %%mm3, %%mm2             \n\t"
+        "paddw %%mm2, %%mm0             \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "add %3, %%"REG_a"              \n\t"
+        " js 1b                         \n\t"
         : "+a" (len)
         : "r" (blk1 - len), "r" (blk2 - len), "r" ((long)stride)
     );
@@ -70,19 +70,19 @@ static inline void sad8_1_mmx2(uint8_t *blk1, uint8_t *blk2, int stride, int h)
 {
     long len= -(stride*h);
     asm volatile(
-        ".balign 16			\n\t"
-        "1:				\n\t"
-        "movq (%1, %%"REG_a"), %%mm0	\n\t"
-        "movq (%2, %%"REG_a"), %%mm2	\n\t"
-        "psadbw %%mm2, %%mm0		\n\t"
-        "add %3, %%"REG_a"		\n\t"
-        "movq (%1, %%"REG_a"), %%mm1	\n\t"
-        "movq (%2, %%"REG_a"), %%mm3	\n\t"
-        "psadbw %%mm1, %%mm3		\n\t"
-        "paddw %%mm3, %%mm0		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "add %3, %%"REG_a"		\n\t"
-        " js 1b				\n\t"
+        ".balign 16                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "movq (%2, %%"REG_a"), %%mm2    \n\t"
+        "psadbw %%mm2, %%mm0            \n\t"
+        "add %3, %%"REG_a"              \n\t"
+        "movq (%1, %%"REG_a"), %%mm1    \n\t"
+        "movq (%2, %%"REG_a"), %%mm3    \n\t"
+        "psadbw %%mm1, %%mm3            \n\t"
+        "paddw %%mm3, %%mm0             \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "add %3, %%"REG_a"              \n\t"
+        " js 1b                         \n\t"
         : "+a" (len)
         : "r" (blk1 - len), "r" (blk2 - len), "r" ((long)stride)
     );
@@ -92,23 +92,23 @@ static inline void sad8_2_mmx2(uint8_t *blk1a, uint8_t *blk1b, uint8_t *blk2, in
 {
     long len= -(stride*h);
     asm volatile(
-        ".balign 16			\n\t"
-        "1:				\n\t"
-        "movq (%1, %%"REG_a"), %%mm0	\n\t"
-        "movq (%2, %%"REG_a"), %%mm2	\n\t"
-        "pavgb %%mm2, %%mm0		\n\t"
-        "movq (%3, %%"REG_a"), %%mm2	\n\t"
-        "psadbw %%mm2, %%mm0		\n\t"
-        "add %4, %%"REG_a"		\n\t"
-        "movq (%1, %%"REG_a"), %%mm1	\n\t"
-        "movq (%2, %%"REG_a"), %%mm3	\n\t"
-        "pavgb %%mm1, %%mm3		\n\t"
-        "movq (%3, %%"REG_a"), %%mm1	\n\t"
-        "psadbw %%mm1, %%mm3		\n\t"
-        "paddw %%mm3, %%mm0		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "add %4, %%"REG_a"		\n\t"
-        " js 1b				\n\t"
+        ".balign 16                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "movq (%2, %%"REG_a"), %%mm2    \n\t"
+        "pavgb %%mm2, %%mm0             \n\t"
+        "movq (%3, %%"REG_a"), %%mm2    \n\t"
+        "psadbw %%mm2, %%mm0            \n\t"
+        "add %4, %%"REG_a"              \n\t"
+        "movq (%1, %%"REG_a"), %%mm1    \n\t"
+        "movq (%2, %%"REG_a"), %%mm3    \n\t"
+        "pavgb %%mm1, %%mm3             \n\t"
+        "movq (%3, %%"REG_a"), %%mm1    \n\t"
+        "psadbw %%mm1, %%mm3            \n\t"
+        "paddw %%mm3, %%mm0             \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "add %4, %%"REG_a"              \n\t"
+        " js 1b                         \n\t"
         : "+a" (len)
         : "r" (blk1a - len), "r" (blk1b -len), "r" (blk2 - len), "r" ((long)stride)
     );
@@ -118,34 +118,34 @@ static inline void sad8_4_mmx2(uint8_t *blk1, uint8_t *blk2, int stride, int h)
 { //FIXME reuse src
     long len= -(stride*h);
     asm volatile(
-        ".balign 16			\n\t"
-        "movq "MANGLE(bone)", %%mm5	\n\t"
-        "1:				\n\t"
-        "movq (%1, %%"REG_a"), %%mm0	\n\t"
-        "movq (%2, %%"REG_a"), %%mm2	\n\t"
-        "movq 1(%1, %%"REG_a"), %%mm1	\n\t"
-        "movq 1(%2, %%"REG_a"), %%mm3	\n\t"
-        "pavgb %%mm2, %%mm0		\n\t"
-        "pavgb %%mm1, %%mm3		\n\t"
-        "psubusb %%mm5, %%mm3		\n\t"
-        "pavgb %%mm3, %%mm0		\n\t"
-        "movq (%3, %%"REG_a"), %%mm2	\n\t"
-        "psadbw %%mm2, %%mm0		\n\t"
-        "add %4, %%"REG_a"		\n\t"
-        "movq (%1, %%"REG_a"), %%mm1	\n\t"
-        "movq (%2, %%"REG_a"), %%mm3	\n\t"
-        "movq 1(%1, %%"REG_a"), %%mm2	\n\t"
-        "movq 1(%2, %%"REG_a"), %%mm4	\n\t"
-        "pavgb %%mm3, %%mm1		\n\t"
-        "pavgb %%mm4, %%mm2		\n\t"
-        "psubusb %%mm5, %%mm2		\n\t"
-        "pavgb %%mm1, %%mm2		\n\t"
-        "movq (%3, %%"REG_a"), %%mm1	\n\t"
-        "psadbw %%mm1, %%mm2		\n\t"
-        "paddw %%mm2, %%mm0		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "add %4, %%"REG_a"		\n\t"
-        " js 1b				\n\t"
+        ".balign 16                     \n\t"
+        "movq "MANGLE(bone)", %%mm5     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "movq (%2, %%"REG_a"), %%mm2    \n\t"
+        "movq 1(%1, %%"REG_a"), %%mm1   \n\t"
+        "movq 1(%2, %%"REG_a"), %%mm3   \n\t"
+        "pavgb %%mm2, %%mm0             \n\t"
+        "pavgb %%mm1, %%mm3             \n\t"
+        "psubusb %%mm5, %%mm3           \n\t"
+        "pavgb %%mm3, %%mm0             \n\t"
+        "movq (%3, %%"REG_a"), %%mm2    \n\t"
+        "psadbw %%mm2, %%mm0            \n\t"
+        "add %4, %%"REG_a"              \n\t"
+        "movq (%1, %%"REG_a"), %%mm1    \n\t"
+        "movq (%2, %%"REG_a"), %%mm3    \n\t"
+        "movq 1(%1, %%"REG_a"), %%mm2   \n\t"
+        "movq 1(%2, %%"REG_a"), %%mm4   \n\t"
+        "pavgb %%mm3, %%mm1             \n\t"
+        "pavgb %%mm4, %%mm2             \n\t"
+        "psubusb %%mm5, %%mm2           \n\t"
+        "pavgb %%mm1, %%mm2             \n\t"
+        "movq (%3, %%"REG_a"), %%mm1    \n\t"
+        "psadbw %%mm1, %%mm2            \n\t"
+        "paddw %%mm2, %%mm0             \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "add %4, %%"REG_a"              \n\t"
+        " js 1b                         \n\t"
         : "+a" (len)
         : "r" (blk1 - len), "r" (blk1 - len + stride), "r" (blk2 - len), "r" ((long)stride)
     );
@@ -155,35 +155,35 @@ static inline void sad8_2_mmx(uint8_t *blk1a, uint8_t *blk1b, uint8_t *blk2, int
 {
     long len= -(stride*h);
     asm volatile(
-        ".balign 16			\n\t"
-        "1:				\n\t"
-        "movq (%1, %%"REG_a"), %%mm0	\n\t"
-        "movq (%2, %%"REG_a"), %%mm1	\n\t"
-        "movq (%1, %%"REG_a"), %%mm2	\n\t"
-        "movq (%2, %%"REG_a"), %%mm3	\n\t"
-        "punpcklbw %%mm7, %%mm0		\n\t"
-        "punpcklbw %%mm7, %%mm1		\n\t"
-        "punpckhbw %%mm7, %%mm2		\n\t"
-        "punpckhbw %%mm7, %%mm3		\n\t"
-        "paddw %%mm0, %%mm1		\n\t"
-        "paddw %%mm2, %%mm3		\n\t"
-        "movq (%3, %%"REG_a"), %%mm4	\n\t"
-        "movq (%3, %%"REG_a"), %%mm2	\n\t"
-        "paddw %%mm5, %%mm1		\n\t"
-        "paddw %%mm5, %%mm3		\n\t"
-        "psrlw $1, %%mm1		\n\t"
-        "psrlw $1, %%mm3		\n\t"
-        "packuswb %%mm3, %%mm1		\n\t"
-        "psubusb %%mm1, %%mm4		\n\t"
-        "psubusb %%mm2, %%mm1		\n\t"
-        "por %%mm4, %%mm1		\n\t"
-        "movq %%mm1, %%mm0		\n\t"
-        "punpcklbw %%mm7, %%mm0		\n\t"
-        "punpckhbw %%mm7, %%mm1		\n\t"
-        "paddw %%mm1, %%mm0		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "add %4, %%"REG_a"		\n\t"
-        " js 1b				\n\t"
+        ".balign 16                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "movq (%2, %%"REG_a"), %%mm1    \n\t"
+        "movq (%1, %%"REG_a"), %%mm2    \n\t"
+        "movq (%2, %%"REG_a"), %%mm3    \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpcklbw %%mm7, %%mm1         \n\t"
+        "punpckhbw %%mm7, %%mm2         \n\t"
+        "punpckhbw %%mm7, %%mm3         \n\t"
+        "paddw %%mm0, %%mm1             \n\t"
+        "paddw %%mm2, %%mm3             \n\t"
+        "movq (%3, %%"REG_a"), %%mm4    \n\t"
+        "movq (%3, %%"REG_a"), %%mm2    \n\t"
+        "paddw %%mm5, %%mm1             \n\t"
+        "paddw %%mm5, %%mm3             \n\t"
+        "psrlw $1, %%mm1                \n\t"
+        "psrlw $1, %%mm3                \n\t"
+        "packuswb %%mm3, %%mm1          \n\t"
+        "psubusb %%mm1, %%mm4           \n\t"
+        "psubusb %%mm2, %%mm1           \n\t"
+        "por %%mm4, %%mm1               \n\t"
+        "movq %%mm1, %%mm0              \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "paddw %%mm1, %%mm0             \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "add %4, %%"REG_a"              \n\t"
+        " js 1b                         \n\t"
         : "+a" (len)
         : "r" (blk1a - len), "r" (blk1b -len), "r" (blk2 - len), "r" ((long)stride)
     );
@@ -193,47 +193,47 @@ static inline void sad8_4_mmx(uint8_t *blk1, uint8_t *blk2, int stride, int h)
 {
     long len= -(stride*h);
     asm volatile(
-        ".balign 16			\n\t"
-        "1:				\n\t"
-        "movq (%1, %%"REG_a"), %%mm0	\n\t"
-        "movq (%2, %%"REG_a"), %%mm1	\n\t"
-        "movq %%mm0, %%mm4		\n\t"
-        "movq %%mm1, %%mm2		\n\t"
-        "punpcklbw %%mm7, %%mm0		\n\t"
-        "punpcklbw %%mm7, %%mm1		\n\t"
-        "punpckhbw %%mm7, %%mm4		\n\t"
-        "punpckhbw %%mm7, %%mm2		\n\t"
-        "paddw %%mm1, %%mm0		\n\t"
-        "paddw %%mm2, %%mm4		\n\t"
-        "movq 1(%1, %%"REG_a"), %%mm2	\n\t"
-        "movq 1(%2, %%"REG_a"), %%mm3	\n\t"
-        "movq %%mm2, %%mm1		\n\t"
-        "punpcklbw %%mm7, %%mm2		\n\t"
-        "punpckhbw %%mm7, %%mm1		\n\t"
-        "paddw %%mm0, %%mm2		\n\t"
-        "paddw %%mm4, %%mm1		\n\t"
-        "movq %%mm3, %%mm4		\n\t"
-        "punpcklbw %%mm7, %%mm3		\n\t"
-        "punpckhbw %%mm7, %%mm4		\n\t"
-        "paddw %%mm3, %%mm2		\n\t"
-        "paddw %%mm4, %%mm1		\n\t"
-        "movq (%3, %%"REG_a"), %%mm3	\n\t"
-        "movq (%3, %%"REG_a"), %%mm4	\n\t"
-        "paddw %%mm5, %%mm2		\n\t"
-        "paddw %%mm5, %%mm1		\n\t"
-        "psrlw $2, %%mm2		\n\t"
-        "psrlw $2, %%mm1		\n\t"
-        "packuswb %%mm1, %%mm2		\n\t"
-        "psubusb %%mm2, %%mm3		\n\t"
-        "psubusb %%mm4, %%mm2		\n\t"
-        "por %%mm3, %%mm2		\n\t"
-        "movq %%mm2, %%mm0		\n\t"
-        "punpcklbw %%mm7, %%mm0		\n\t"
-        "punpckhbw %%mm7, %%mm2		\n\t"
-        "paddw %%mm2, %%mm0		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "add %4, %%"REG_a"		\n\t"
-        " js 1b				\n\t"
+        ".balign 16                     \n\t"
+        "1:                             \n\t"
+        "movq (%1, %%"REG_a"), %%mm0    \n\t"
+        "movq (%2, %%"REG_a"), %%mm1    \n\t"
+        "movq %%mm0, %%mm4              \n\t"
+        "movq %%mm1, %%mm2              \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpcklbw %%mm7, %%mm1         \n\t"
+        "punpckhbw %%mm7, %%mm4         \n\t"
+        "punpckhbw %%mm7, %%mm2         \n\t"
+        "paddw %%mm1, %%mm0             \n\t"
+        "paddw %%mm2, %%mm4             \n\t"
+        "movq 1(%1, %%"REG_a"), %%mm2   \n\t"
+        "movq 1(%2, %%"REG_a"), %%mm3   \n\t"
+        "movq %%mm2, %%mm1              \n\t"
+        "punpcklbw %%mm7, %%mm2         \n\t"
+        "punpckhbw %%mm7, %%mm1         \n\t"
+        "paddw %%mm0, %%mm2             \n\t"
+        "paddw %%mm4, %%mm1             \n\t"
+        "movq %%mm3, %%mm4              \n\t"
+        "punpcklbw %%mm7, %%mm3         \n\t"
+        "punpckhbw %%mm7, %%mm4         \n\t"
+        "paddw %%mm3, %%mm2             \n\t"
+        "paddw %%mm4, %%mm1             \n\t"
+        "movq (%3, %%"REG_a"), %%mm3    \n\t"
+        "movq (%3, %%"REG_a"), %%mm4    \n\t"
+        "paddw %%mm5, %%mm2             \n\t"
+        "paddw %%mm5, %%mm1             \n\t"
+        "psrlw $2, %%mm2                \n\t"
+        "psrlw $2, %%mm1                \n\t"
+        "packuswb %%mm1, %%mm2          \n\t"
+        "psubusb %%mm2, %%mm3           \n\t"
+        "psubusb %%mm4, %%mm2           \n\t"
+        "por %%mm3, %%mm2               \n\t"
+        "movq %%mm2, %%mm0              \n\t"
+        "punpcklbw %%mm7, %%mm0         \n\t"
+        "punpckhbw %%mm7, %%mm2         \n\t"
+        "paddw %%mm2, %%mm0             \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "add %4, %%"REG_a"              \n\t"
+        " js 1b                         \n\t"
         : "+a" (len)
         : "r" (blk1 - len), "r" (blk1 -len + stride), "r" (blk2 - len), "r" ((long)stride)
     );
@@ -243,13 +243,13 @@ static inline int sum_mmx(void)
 {
     int ret;
     asm volatile(
-        "movq %%mm6, %%mm0		\n\t"
-        "psrlq $32, %%mm6		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "movq %%mm6, %%mm0		\n\t"
-        "psrlq $16, %%mm6		\n\t"
-        "paddw %%mm0, %%mm6		\n\t"
-        "movd %%mm6, %0			\n\t"
+        "movq %%mm6, %%mm0              \n\t"
+        "psrlq $32, %%mm6               \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "movq %%mm6, %%mm0              \n\t"
+        "psrlq $16, %%mm6               \n\t"
+        "paddw %%mm0, %%mm6             \n\t"
+        "movd %%mm6, %0                 \n\t"
         : "=r" (ret)
     );
     return ret&0xFFFF;
@@ -259,7 +259,7 @@ static inline int sum_mmx2(void)
 {
     int ret;
     asm volatile(
-        "movd %%mm6, %0			\n\t"
+        "movd %%mm6, %0                 \n\t"
         : "=r" (ret)
     );
     return ret;
@@ -270,8 +270,8 @@ static inline int sum_mmx2(void)
 static int sad8_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
     assert(h==8);\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t":);\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t":);\
 \
     sad8_1_ ## suf(blk1, blk2, stride, 8);\
 \
@@ -280,9 +280,9 @@ static int sad8_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h
 static int sad8_x2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
     assert(h==8);\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t"\
-                 "movq %0, %%mm5		\n\t"\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t"\
+                 "movq %0, %%mm5        \n\t"\
                  :: "m"(round_tab[1]) \
                  );\
 \
@@ -294,9 +294,9 @@ static int sad8_x2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, in
 static int sad8_y2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
     assert(h==8);\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t"\
-                 "movq %0, %%mm5		\n\t"\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t"\
+                 "movq %0, %%mm5        \n\t"\
                  :: "m"(round_tab[1]) \
                  );\
 \
@@ -308,9 +308,9 @@ static int sad8_y2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, in
 static int sad8_xy2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
     assert(h==8);\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t"\
-                 "movq %0, %%mm5		\n\t"\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t"\
+                 "movq %0, %%mm5        \n\t"\
                  :: "m"(round_tab[2]) \
                  );\
 \
@@ -321,8 +321,8 @@ static int sad8_xy2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, i
 \
 static int sad16_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t":);\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t":);\
 \
     sad8_1_ ## suf(blk1  , blk2  , stride, h);\
     sad8_1_ ## suf(blk1+8, blk2+8, stride, h);\
@@ -331,9 +331,9 @@ static int sad16_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int
 }\
 static int sad16_x2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t"\
-                 "movq %0, %%mm5		\n\t"\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t"\
+                 "movq %0, %%mm5        \n\t"\
                  :: "m"(round_tab[1]) \
                  );\
 \
@@ -344,9 +344,9 @@ static int sad16_x2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, i
 }\
 static int sad16_y2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t"\
-                 "movq %0, %%mm5		\n\t"\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t"\
+                 "movq %0, %%mm5        \n\t"\
                  :: "m"(round_tab[1]) \
                  );\
 \
@@ -357,9 +357,9 @@ static int sad16_y2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, i
 }\
 static int sad16_xy2_ ## suf(void *v, uint8_t *blk2, uint8_t *blk1, int stride, int h)\
 {\
-    asm volatile("pxor %%mm7, %%mm7		\n\t"\
-                 "pxor %%mm6, %%mm6		\n\t"\
-                 "movq %0, %%mm5		\n\t"\
+    asm volatile("pxor %%mm7, %%mm7     \n\t"\
+                 "pxor %%mm6, %%mm6     \n\t"\
+                 "movq %0, %%mm5        \n\t"\
                  :: "m"(round_tab[2]) \
                  );\
 \
@@ -384,15 +384,15 @@ void dsputil_init_pix_mmx(DSPContext* c, AVCodecContext *avctx)
         c->pix_abs[1][2] = sad8_y2_mmx;
         c->pix_abs[1][3] = sad8_xy2_mmx;
 
-	c->sad[0]= sad16_mmx;
+        c->sad[0]= sad16_mmx;
         c->sad[1]= sad8_mmx;
     }
     if (mm_flags & MM_MMXEXT) {
-	c->pix_abs[0][0] = sad16_mmx2;
-	c->pix_abs[1][0] = sad8_mmx2;
+        c->pix_abs[0][0] = sad16_mmx2;
+        c->pix_abs[1][0] = sad8_mmx2;
 
-	c->sad[0]= sad16_mmx2;
-	c->sad[1]= sad8_mmx2;
+        c->sad[0]= sad16_mmx2;
+        c->sad[1]= sad8_mmx2;
 
         if(!(avctx->flags & CODEC_FLAG_BITEXACT)){
             c->pix_abs[0][1] = sad16_x2_mmx2;
diff --git a/libavcodec/i386/mpegvideo_mmx.c b/libavcodec/i386/mpegvideo_mmx.c
index af799b6b00..6899c3938c 100644
--- a/libavcodec/i386/mpegvideo_mmx.c
+++ b/libavcodec/i386/mpegvideo_mmx.c
@@ -57,52 +57,52 @@ static void dct_unquantize_h263_intra_mmx(MpegEncContext *s,
         nCoeffs= s->inter_scantable.raster_end[ s->block_last_index[n] ];
 //printf("%d %d  ", qmul, qadd);
 asm volatile(
-		"movd %1, %%mm6			\n\t" //qmul
-		"packssdw %%mm6, %%mm6		\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"movd %2, %%mm5			\n\t" //qadd
-		"pxor %%mm7, %%mm7		\n\t"
-		"packssdw %%mm5, %%mm5		\n\t"
-		"packssdw %%mm5, %%mm5		\n\t"
-		"psubw %%mm5, %%mm7		\n\t"
-		"pxor %%mm4, %%mm4		\n\t"
-		".balign 16\n\t"
-		"1:				\n\t"
-		"movq (%0, %3), %%mm0		\n\t"
-		"movq 8(%0, %3), %%mm1		\n\t"
-
-		"pmullw %%mm6, %%mm0		\n\t"
-		"pmullw %%mm6, %%mm1		\n\t"
-
-		"movq (%0, %3), %%mm2		\n\t"
-		"movq 8(%0, %3), %%mm3		\n\t"
-
-		"pcmpgtw %%mm4, %%mm2		\n\t" // block[i] < 0 ? -1 : 0
-		"pcmpgtw %%mm4, %%mm3		\n\t" // block[i] < 0 ? -1 : 0
-
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-
-		"paddw %%mm7, %%mm0		\n\t"
-		"paddw %%mm7, %%mm1		\n\t"
-
-		"pxor %%mm0, %%mm2		\n\t"
-		"pxor %%mm1, %%mm3		\n\t"
-
-		"pcmpeqw %%mm7, %%mm0		\n\t" // block[i] == 0 ? -1 : 0
-		"pcmpeqw %%mm7, %%mm1		\n\t" // block[i] == 0 ? -1 : 0
-
-		"pandn %%mm2, %%mm0		\n\t"
-		"pandn %%mm3, %%mm1		\n\t"
-
-		"movq %%mm0, (%0, %3)		\n\t"
-		"movq %%mm1, 8(%0, %3)		\n\t"
-
-		"add $16, %3			\n\t"
-		"jng 1b				\n\t"
-		::"r" (block+nCoeffs), "g"(qmul), "g" (qadd), "r" (2*(-nCoeffs))
-		: "memory"
-	);
+                "movd %1, %%mm6                 \n\t" //qmul
+                "packssdw %%mm6, %%mm6          \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "movd %2, %%mm5                 \n\t" //qadd
+                "pxor %%mm7, %%mm7              \n\t"
+                "packssdw %%mm5, %%mm5          \n\t"
+                "packssdw %%mm5, %%mm5          \n\t"
+                "psubw %%mm5, %%mm7             \n\t"
+                "pxor %%mm4, %%mm4              \n\t"
+                ".balign 16                     \n\t"
+                "1:                             \n\t"
+                "movq (%0, %3), %%mm0           \n\t"
+                "movq 8(%0, %3), %%mm1          \n\t"
+
+                "pmullw %%mm6, %%mm0            \n\t"
+                "pmullw %%mm6, %%mm1            \n\t"
+
+                "movq (%0, %3), %%mm2           \n\t"
+                "movq 8(%0, %3), %%mm3          \n\t"
+
+                "pcmpgtw %%mm4, %%mm2           \n\t" // block[i] < 0 ? -1 : 0
+                "pcmpgtw %%mm4, %%mm3           \n\t" // block[i] < 0 ? -1 : 0
+
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+
+                "paddw %%mm7, %%mm0             \n\t"
+                "paddw %%mm7, %%mm1             \n\t"
+
+                "pxor %%mm0, %%mm2              \n\t"
+                "pxor %%mm1, %%mm3              \n\t"
+
+                "pcmpeqw %%mm7, %%mm0           \n\t" // block[i] == 0 ? -1 : 0
+                "pcmpeqw %%mm7, %%mm1           \n\t" // block[i] == 0 ? -1 : 0
+
+                "pandn %%mm2, %%mm0             \n\t"
+                "pandn %%mm3, %%mm1             \n\t"
+
+                "movq %%mm0, (%0, %3)           \n\t"
+                "movq %%mm1, 8(%0, %3)          \n\t"
+
+                "add $16, %3                    \n\t"
+                "jng 1b                         \n\t"
+                ::"r" (block+nCoeffs), "g"(qmul), "g" (qadd), "r" (2*(-nCoeffs))
+                : "memory"
+        );
         block[0]= level;
 }
 
@@ -120,52 +120,52 @@ static void dct_unquantize_h263_inter_mmx(MpegEncContext *s,
     nCoeffs= s->inter_scantable.raster_end[ s->block_last_index[n] ];
 //printf("%d %d  ", qmul, qadd);
 asm volatile(
-		"movd %1, %%mm6			\n\t" //qmul
-		"packssdw %%mm6, %%mm6		\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"movd %2, %%mm5			\n\t" //qadd
-		"pxor %%mm7, %%mm7		\n\t"
-		"packssdw %%mm5, %%mm5		\n\t"
-		"packssdw %%mm5, %%mm5		\n\t"
-		"psubw %%mm5, %%mm7		\n\t"
-		"pxor %%mm4, %%mm4		\n\t"
-		".balign 16\n\t"
-		"1:				\n\t"
-		"movq (%0, %3), %%mm0		\n\t"
-		"movq 8(%0, %3), %%mm1		\n\t"
-
-		"pmullw %%mm6, %%mm0		\n\t"
-		"pmullw %%mm6, %%mm1		\n\t"
-
-		"movq (%0, %3), %%mm2		\n\t"
-		"movq 8(%0, %3), %%mm3		\n\t"
-
-		"pcmpgtw %%mm4, %%mm2		\n\t" // block[i] < 0 ? -1 : 0
-		"pcmpgtw %%mm4, %%mm3		\n\t" // block[i] < 0 ? -1 : 0
-
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-
-		"paddw %%mm7, %%mm0		\n\t"
-		"paddw %%mm7, %%mm1		\n\t"
-
-		"pxor %%mm0, %%mm2		\n\t"
-		"pxor %%mm1, %%mm3		\n\t"
-
-		"pcmpeqw %%mm7, %%mm0		\n\t" // block[i] == 0 ? -1 : 0
-		"pcmpeqw %%mm7, %%mm1		\n\t" // block[i] == 0 ? -1 : 0
-
-		"pandn %%mm2, %%mm0		\n\t"
-		"pandn %%mm3, %%mm1		\n\t"
-
-		"movq %%mm0, (%0, %3)		\n\t"
-		"movq %%mm1, 8(%0, %3)		\n\t"
-
-		"add $16, %3			\n\t"
-		"jng 1b				\n\t"
-		::"r" (block+nCoeffs), "g"(qmul), "g" (qadd), "r" (2*(-nCoeffs))
-		: "memory"
-	);
+                "movd %1, %%mm6                 \n\t" //qmul
+                "packssdw %%mm6, %%mm6          \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "movd %2, %%mm5                 \n\t" //qadd
+                "pxor %%mm7, %%mm7              \n\t"
+                "packssdw %%mm5, %%mm5          \n\t"
+                "packssdw %%mm5, %%mm5          \n\t"
+                "psubw %%mm5, %%mm7             \n\t"
+                "pxor %%mm4, %%mm4              \n\t"
+                ".balign 16                     \n\t"
+                "1:                             \n\t"
+                "movq (%0, %3), %%mm0           \n\t"
+                "movq 8(%0, %3), %%mm1          \n\t"
+
+                "pmullw %%mm6, %%mm0            \n\t"
+                "pmullw %%mm6, %%mm1            \n\t"
+
+                "movq (%0, %3), %%mm2           \n\t"
+                "movq 8(%0, %3), %%mm3          \n\t"
+
+                "pcmpgtw %%mm4, %%mm2           \n\t" // block[i] < 0 ? -1 : 0
+                "pcmpgtw %%mm4, %%mm3           \n\t" // block[i] < 0 ? -1 : 0
+
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+
+                "paddw %%mm7, %%mm0             \n\t"
+                "paddw %%mm7, %%mm1             \n\t"
+
+                "pxor %%mm0, %%mm2              \n\t"
+                "pxor %%mm1, %%mm3              \n\t"
+
+                "pcmpeqw %%mm7, %%mm0           \n\t" // block[i] == 0 ? -1 : 0
+                "pcmpeqw %%mm7, %%mm1           \n\t" // block[i] == 0 ? -1 : 0
+
+                "pandn %%mm2, %%mm0             \n\t"
+                "pandn %%mm3, %%mm1             \n\t"
+
+                "movq %%mm0, (%0, %3)           \n\t"
+                "movq %%mm1, 8(%0, %3)          \n\t"
+
+                "add $16, %3                    \n\t"
+                "jng 1b                         \n\t"
+                ::"r" (block+nCoeffs), "g"(qmul), "g" (qadd), "r" (2*(-nCoeffs))
+                : "memory"
+        );
 }
 
 
@@ -216,54 +216,54 @@ static void dct_unquantize_mpeg1_intra_mmx(MpegEncContext *s,
     /* XXX: only mpeg1 */
     quant_matrix = s->intra_matrix;
 asm volatile(
-		"pcmpeqw %%mm7, %%mm7		\n\t"
-		"psrlw $15, %%mm7		\n\t"
-		"movd %2, %%mm6			\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"mov %3, %%"REG_a"		\n\t"
-		".balign 16\n\t"
-		"1:				\n\t"
-		"movq (%0, %%"REG_a"), %%mm0	\n\t"
-		"movq 8(%0, %%"REG_a"), %%mm1	\n\t"
-		"movq (%1, %%"REG_a"), %%mm4	\n\t"
-		"movq 8(%1, %%"REG_a"), %%mm5	\n\t"
-		"pmullw %%mm6, %%mm4		\n\t" // q=qscale*quant_matrix[i]
-		"pmullw %%mm6, %%mm5		\n\t" // q=qscale*quant_matrix[i]
-		"pxor %%mm2, %%mm2		\n\t"
-		"pxor %%mm3, %%mm3		\n\t"
-		"pcmpgtw %%mm0, %%mm2		\n\t" // block[i] < 0 ? -1 : 0
-		"pcmpgtw %%mm1, %%mm3		\n\t" // block[i] < 0 ? -1 : 0
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t" // abs(block[i])
-		"psubw %%mm3, %%mm1		\n\t" // abs(block[i])
-		"pmullw %%mm4, %%mm0		\n\t" // abs(block[i])*q
-		"pmullw %%mm5, %%mm1		\n\t" // abs(block[i])*q
-		"pxor %%mm4, %%mm4		\n\t"
-		"pxor %%mm5, %%mm5		\n\t" // FIXME slow
-		"pcmpeqw (%0, %%"REG_a"), %%mm4	\n\t" // block[i] == 0 ? -1 : 0
-		"pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
-		"psraw $3, %%mm0		\n\t"
-		"psraw $3, %%mm1		\n\t"
-		"psubw %%mm7, %%mm0		\n\t"
-		"psubw %%mm7, %%mm1		\n\t"
-		"por %%mm7, %%mm0		\n\t"
-		"por %%mm7, %%mm1		\n\t"
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t"
-		"psubw %%mm3, %%mm1		\n\t"
-		"pandn %%mm0, %%mm4		\n\t"
-		"pandn %%mm1, %%mm5		\n\t"
-		"movq %%mm4, (%0, %%"REG_a")	\n\t"
-		"movq %%mm5, 8(%0, %%"REG_a")	\n\t"
-
-		"add $16, %%"REG_a"		\n\t"
-		"js 1b				\n\t"
-		::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "g" (-2*nCoeffs)
-		: "%"REG_a, "memory"
-	);
+                "pcmpeqw %%mm7, %%mm7           \n\t"
+                "psrlw $15, %%mm7               \n\t"
+                "movd %2, %%mm6                 \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "mov %3, %%"REG_a"              \n\t"
+                ".balign 16                     \n\t"
+                "1:                             \n\t"
+                "movq (%0, %%"REG_a"), %%mm0    \n\t"
+                "movq 8(%0, %%"REG_a"), %%mm1   \n\t"
+                "movq (%1, %%"REG_a"), %%mm4    \n\t"
+                "movq 8(%1, %%"REG_a"), %%mm5   \n\t"
+                "pmullw %%mm6, %%mm4            \n\t" // q=qscale*quant_matrix[i]
+                "pmullw %%mm6, %%mm5            \n\t" // q=qscale*quant_matrix[i]
+                "pxor %%mm2, %%mm2              \n\t"
+                "pxor %%mm3, %%mm3              \n\t"
+                "pcmpgtw %%mm0, %%mm2           \n\t" // block[i] < 0 ? -1 : 0
+                "pcmpgtw %%mm1, %%mm3           \n\t" // block[i] < 0 ? -1 : 0
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t" // abs(block[i])
+                "psubw %%mm3, %%mm1             \n\t" // abs(block[i])
+                "pmullw %%mm4, %%mm0            \n\t" // abs(block[i])*q
+                "pmullw %%mm5, %%mm1            \n\t" // abs(block[i])*q
+                "pxor %%mm4, %%mm4              \n\t"
+                "pxor %%mm5, %%mm5              \n\t" // FIXME slow
+                "pcmpeqw (%0, %%"REG_a"), %%mm4 \n\t" // block[i] == 0 ? -1 : 0
+                "pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
+                "psraw $3, %%mm0                \n\t"
+                "psraw $3, %%mm1                \n\t"
+                "psubw %%mm7, %%mm0             \n\t"
+                "psubw %%mm7, %%mm1             \n\t"
+                "por %%mm7, %%mm0               \n\t"
+                "por %%mm7, %%mm1               \n\t"
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t"
+                "psubw %%mm3, %%mm1             \n\t"
+                "pandn %%mm0, %%mm4             \n\t"
+                "pandn %%mm1, %%mm5             \n\t"
+                "movq %%mm4, (%0, %%"REG_a")    \n\t"
+                "movq %%mm5, 8(%0, %%"REG_a")   \n\t"
+
+                "add $16, %%"REG_a"             \n\t"
+                "js 1b                          \n\t"
+                ::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "g" (-2*nCoeffs)
+                : "%"REG_a, "memory"
+        );
     block[0]= block0;
 }
 
@@ -279,58 +279,58 @@ static void dct_unquantize_mpeg1_inter_mmx(MpegEncContext *s,
 
         quant_matrix = s->inter_matrix;
 asm volatile(
-		"pcmpeqw %%mm7, %%mm7		\n\t"
-		"psrlw $15, %%mm7		\n\t"
-		"movd %2, %%mm6			\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"mov %3, %%"REG_a"		\n\t"
-		".balign 16\n\t"
-		"1:				\n\t"
-		"movq (%0, %%"REG_a"), %%mm0	\n\t"
-		"movq 8(%0, %%"REG_a"), %%mm1	\n\t"
-		"movq (%1, %%"REG_a"), %%mm4	\n\t"
-		"movq 8(%1, %%"REG_a"), %%mm5	\n\t"
-		"pmullw %%mm6, %%mm4		\n\t" // q=qscale*quant_matrix[i]
-		"pmullw %%mm6, %%mm5		\n\t" // q=qscale*quant_matrix[i]
-		"pxor %%mm2, %%mm2		\n\t"
-		"pxor %%mm3, %%mm3		\n\t"
-		"pcmpgtw %%mm0, %%mm2		\n\t" // block[i] < 0 ? -1 : 0
-		"pcmpgtw %%mm1, %%mm3		\n\t" // block[i] < 0 ? -1 : 0
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t" // abs(block[i])
-		"psubw %%mm3, %%mm1		\n\t" // abs(block[i])
-		"paddw %%mm0, %%mm0		\n\t" // abs(block[i])*2
-		"paddw %%mm1, %%mm1		\n\t" // abs(block[i])*2
-		"paddw %%mm7, %%mm0		\n\t" // abs(block[i])*2 + 1
-		"paddw %%mm7, %%mm1		\n\t" // abs(block[i])*2 + 1
-		"pmullw %%mm4, %%mm0		\n\t" // (abs(block[i])*2 + 1)*q
-		"pmullw %%mm5, %%mm1		\n\t" // (abs(block[i])*2 + 1)*q
-		"pxor %%mm4, %%mm4		\n\t"
-		"pxor %%mm5, %%mm5		\n\t" // FIXME slow
-		"pcmpeqw (%0, %%"REG_a"), %%mm4	\n\t" // block[i] == 0 ? -1 : 0
-		"pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
-		"psraw $4, %%mm0		\n\t"
-		"psraw $4, %%mm1		\n\t"
-		"psubw %%mm7, %%mm0		\n\t"
-		"psubw %%mm7, %%mm1		\n\t"
-		"por %%mm7, %%mm0		\n\t"
-		"por %%mm7, %%mm1		\n\t"
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t"
-		"psubw %%mm3, %%mm1		\n\t"
-		"pandn %%mm0, %%mm4		\n\t"
-		"pandn %%mm1, %%mm5		\n\t"
-		"movq %%mm4, (%0, %%"REG_a")	\n\t"
-		"movq %%mm5, 8(%0, %%"REG_a")	\n\t"
-
-		"add $16, %%"REG_a"		\n\t"
-		"js 1b				\n\t"
-		::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "g" (-2*nCoeffs)
-		: "%"REG_a, "memory"
-	);
+                "pcmpeqw %%mm7, %%mm7           \n\t"
+                "psrlw $15, %%mm7               \n\t"
+                "movd %2, %%mm6                 \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "mov %3, %%"REG_a"              \n\t"
+                ".balign 16                     \n\t"
+                "1:                             \n\t"
+                "movq (%0, %%"REG_a"), %%mm0    \n\t"
+                "movq 8(%0, %%"REG_a"), %%mm1   \n\t"
+                "movq (%1, %%"REG_a"), %%mm4    \n\t"
+                "movq 8(%1, %%"REG_a"), %%mm5   \n\t"
+                "pmullw %%mm6, %%mm4            \n\t" // q=qscale*quant_matrix[i]
+                "pmullw %%mm6, %%mm5            \n\t" // q=qscale*quant_matrix[i]
+                "pxor %%mm2, %%mm2              \n\t"
+                "pxor %%mm3, %%mm3              \n\t"
+                "pcmpgtw %%mm0, %%mm2           \n\t" // block[i] < 0 ? -1 : 0
+                "pcmpgtw %%mm1, %%mm3           \n\t" // block[i] < 0 ? -1 : 0
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t" // abs(block[i])
+                "psubw %%mm3, %%mm1             \n\t" // abs(block[i])
+                "paddw %%mm0, %%mm0             \n\t" // abs(block[i])*2
+                "paddw %%mm1, %%mm1             \n\t" // abs(block[i])*2
+                "paddw %%mm7, %%mm0             \n\t" // abs(block[i])*2 + 1
+                "paddw %%mm7, %%mm1             \n\t" // abs(block[i])*2 + 1
+                "pmullw %%mm4, %%mm0            \n\t" // (abs(block[i])*2 + 1)*q
+                "pmullw %%mm5, %%mm1            \n\t" // (abs(block[i])*2 + 1)*q
+                "pxor %%mm4, %%mm4              \n\t"
+                "pxor %%mm5, %%mm5              \n\t" // FIXME slow
+                "pcmpeqw (%0, %%"REG_a"), %%mm4 \n\t" // block[i] == 0 ? -1 : 0
+                "pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
+                "psraw $4, %%mm0                \n\t"
+                "psraw $4, %%mm1                \n\t"
+                "psubw %%mm7, %%mm0             \n\t"
+                "psubw %%mm7, %%mm1             \n\t"
+                "por %%mm7, %%mm0               \n\t"
+                "por %%mm7, %%mm1               \n\t"
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t"
+                "psubw %%mm3, %%mm1             \n\t"
+                "pandn %%mm0, %%mm4             \n\t"
+                "pandn %%mm1, %%mm5             \n\t"
+                "movq %%mm4, (%0, %%"REG_a")    \n\t"
+                "movq %%mm5, 8(%0, %%"REG_a")   \n\t"
+
+                "add $16, %%"REG_a"             \n\t"
+                "js 1b                          \n\t"
+                ::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "g" (-2*nCoeffs)
+                : "%"REG_a, "memory"
+        );
 }
 
 static void dct_unquantize_mpeg2_intra_mmx(MpegEncContext *s,
@@ -351,50 +351,50 @@ static void dct_unquantize_mpeg2_intra_mmx(MpegEncContext *s,
         block0 = block[0] * s->c_dc_scale;
     quant_matrix = s->intra_matrix;
 asm volatile(
-		"pcmpeqw %%mm7, %%mm7		\n\t"
-		"psrlw $15, %%mm7		\n\t"
-		"movd %2, %%mm6			\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"mov %3, %%"REG_a"		\n\t"
-		".balign 16\n\t"
-		"1:				\n\t"
-		"movq (%0, %%"REG_a"), %%mm0	\n\t"
-		"movq 8(%0, %%"REG_a"), %%mm1	\n\t"
-		"movq (%1, %%"REG_a"), %%mm4	\n\t"
-		"movq 8(%1, %%"REG_a"), %%mm5	\n\t"
-		"pmullw %%mm6, %%mm4		\n\t" // q=qscale*quant_matrix[i]
-		"pmullw %%mm6, %%mm5		\n\t" // q=qscale*quant_matrix[i]
-		"pxor %%mm2, %%mm2		\n\t"
-		"pxor %%mm3, %%mm3		\n\t"
-		"pcmpgtw %%mm0, %%mm2		\n\t" // block[i] < 0 ? -1 : 0
-		"pcmpgtw %%mm1, %%mm3		\n\t" // block[i] < 0 ? -1 : 0
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t" // abs(block[i])
-		"psubw %%mm3, %%mm1		\n\t" // abs(block[i])
-		"pmullw %%mm4, %%mm0		\n\t" // abs(block[i])*q
-		"pmullw %%mm5, %%mm1		\n\t" // abs(block[i])*q
-		"pxor %%mm4, %%mm4		\n\t"
-		"pxor %%mm5, %%mm5		\n\t" // FIXME slow
-		"pcmpeqw (%0, %%"REG_a"), %%mm4	\n\t" // block[i] == 0 ? -1 : 0
-		"pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
-		"psraw $3, %%mm0		\n\t"
-		"psraw $3, %%mm1		\n\t"
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t"
-		"psubw %%mm3, %%mm1		\n\t"
-		"pandn %%mm0, %%mm4		\n\t"
-		"pandn %%mm1, %%mm5		\n\t"
-		"movq %%mm4, (%0, %%"REG_a")	\n\t"
-		"movq %%mm5, 8(%0, %%"REG_a")	\n\t"
-
-		"add $16, %%"REG_a"		\n\t"
-		"jng 1b				\n\t"
-		::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "g" (-2*nCoeffs)
-		: "%"REG_a, "memory"
-	);
+                "pcmpeqw %%mm7, %%mm7           \n\t"
+                "psrlw $15, %%mm7               \n\t"
+                "movd %2, %%mm6                 \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "mov %3, %%"REG_a"              \n\t"
+                ".balign 16                     \n\t"
+                "1:                             \n\t"
+                "movq (%0, %%"REG_a"), %%mm0    \n\t"
+                "movq 8(%0, %%"REG_a"), %%mm1   \n\t"
+                "movq (%1, %%"REG_a"), %%mm4    \n\t"
+                "movq 8(%1, %%"REG_a"), %%mm5   \n\t"
+                "pmullw %%mm6, %%mm4            \n\t" // q=qscale*quant_matrix[i]
+                "pmullw %%mm6, %%mm5            \n\t" // q=qscale*quant_matrix[i]
+                "pxor %%mm2, %%mm2              \n\t"
+                "pxor %%mm3, %%mm3              \n\t"
+                "pcmpgtw %%mm0, %%mm2           \n\t" // block[i] < 0 ? -1 : 0
+                "pcmpgtw %%mm1, %%mm3           \n\t" // block[i] < 0 ? -1 : 0
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t" // abs(block[i])
+                "psubw %%mm3, %%mm1             \n\t" // abs(block[i])
+                "pmullw %%mm4, %%mm0            \n\t" // abs(block[i])*q
+                "pmullw %%mm5, %%mm1            \n\t" // abs(block[i])*q
+                "pxor %%mm4, %%mm4              \n\t"
+                "pxor %%mm5, %%mm5              \n\t" // FIXME slow
+                "pcmpeqw (%0, %%"REG_a"), %%mm4 \n\t" // block[i] == 0 ? -1 : 0
+                "pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
+                "psraw $3, %%mm0                \n\t"
+                "psraw $3, %%mm1                \n\t"
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t"
+                "psubw %%mm3, %%mm1             \n\t"
+                "pandn %%mm0, %%mm4             \n\t"
+                "pandn %%mm1, %%mm5             \n\t"
+                "movq %%mm4, (%0, %%"REG_a")    \n\t"
+                "movq %%mm5, 8(%0, %%"REG_a")   \n\t"
+
+                "add $16, %%"REG_a"             \n\t"
+                "jng 1b                         \n\t"
+                ::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "g" (-2*nCoeffs)
+                : "%"REG_a, "memory"
+        );
     block[0]= block0;
         //Note, we dont do mismatch control for intra as errors cannot accumulate
 }
@@ -412,68 +412,68 @@ static void dct_unquantize_mpeg2_inter_mmx(MpegEncContext *s,
 
         quant_matrix = s->inter_matrix;
 asm volatile(
-		"pcmpeqw %%mm7, %%mm7		\n\t"
-                "psrlq $48, %%mm7		\n\t"
-		"movd %2, %%mm6			\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"packssdw %%mm6, %%mm6		\n\t"
-		"mov %3, %%"REG_a"		\n\t"
-		".balign 16\n\t"
-		"1:				\n\t"
-		"movq (%0, %%"REG_a"), %%mm0	\n\t"
-		"movq 8(%0, %%"REG_a"), %%mm1	\n\t"
-		"movq (%1, %%"REG_a"), %%mm4	\n\t"
-		"movq 8(%1, %%"REG_a"), %%mm5	\n\t"
-		"pmullw %%mm6, %%mm4		\n\t" // q=qscale*quant_matrix[i]
-		"pmullw %%mm6, %%mm5		\n\t" // q=qscale*quant_matrix[i]
-		"pxor %%mm2, %%mm2		\n\t"
-		"pxor %%mm3, %%mm3		\n\t"
-		"pcmpgtw %%mm0, %%mm2		\n\t" // block[i] < 0 ? -1 : 0
-		"pcmpgtw %%mm1, %%mm3		\n\t" // block[i] < 0 ? -1 : 0
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t" // abs(block[i])
-		"psubw %%mm3, %%mm1		\n\t" // abs(block[i])
-		"paddw %%mm0, %%mm0		\n\t" // abs(block[i])*2
-		"paddw %%mm1, %%mm1		\n\t" // abs(block[i])*2
-		"pmullw %%mm4, %%mm0		\n\t" // abs(block[i])*2*q
-		"pmullw %%mm5, %%mm1		\n\t" // abs(block[i])*2*q
-		"paddw %%mm4, %%mm0		\n\t" // (abs(block[i])*2 + 1)*q
-		"paddw %%mm5, %%mm1		\n\t" // (abs(block[i])*2 + 1)*q
-		"pxor %%mm4, %%mm4		\n\t"
-		"pxor %%mm5, %%mm5		\n\t" // FIXME slow
-		"pcmpeqw (%0, %%"REG_a"), %%mm4	\n\t" // block[i] == 0 ? -1 : 0
-		"pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
-		"psrlw $4, %%mm0		\n\t"
-		"psrlw $4, %%mm1		\n\t"
-		"pxor %%mm2, %%mm0		\n\t"
-		"pxor %%mm3, %%mm1		\n\t"
-		"psubw %%mm2, %%mm0		\n\t"
-		"psubw %%mm3, %%mm1		\n\t"
-		"pandn %%mm0, %%mm4		\n\t"
-		"pandn %%mm1, %%mm5		\n\t"
-                "pxor %%mm4, %%mm7		\n\t"
-                "pxor %%mm5, %%mm7		\n\t"
-		"movq %%mm4, (%0, %%"REG_a")	\n\t"
-		"movq %%mm5, 8(%0, %%"REG_a")	\n\t"
-
-		"add $16, %%"REG_a"		\n\t"
-		"jng 1b				\n\t"
-                "movd 124(%0, %3), %%mm0	\n\t"
-                "movq %%mm7, %%mm6		\n\t"
-                "psrlq $32, %%mm7		\n\t"
-                "pxor %%mm6, %%mm7		\n\t"
-                "movq %%mm7, %%mm6		\n\t"
-                "psrlq $16, %%mm7		\n\t"
-                "pxor %%mm6, %%mm7		\n\t"
-                "pslld $31, %%mm7		\n\t"
-                "psrlq $15, %%mm7		\n\t"
-                "pxor %%mm7, %%mm0		\n\t"
-                "movd %%mm0, 124(%0, %3)	\n\t"
-
-		::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "r" (-2*nCoeffs)
-		: "%"REG_a, "memory"
-	);
+                "pcmpeqw %%mm7, %%mm7           \n\t"
+                "psrlq $48, %%mm7               \n\t"
+                "movd %2, %%mm6                 \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "packssdw %%mm6, %%mm6          \n\t"
+                "mov %3, %%"REG_a"              \n\t"
+                ".balign 16                     \n\t"
+                "1:                             \n\t"
+                "movq (%0, %%"REG_a"), %%mm0    \n\t"
+                "movq 8(%0, %%"REG_a"), %%mm1   \n\t"
+                "movq (%1, %%"REG_a"), %%mm4    \n\t"
+                "movq 8(%1, %%"REG_a"), %%mm5   \n\t"
+                "pmullw %%mm6, %%mm4            \n\t" // q=qscale*quant_matrix[i]
+                "pmullw %%mm6, %%mm5            \n\t" // q=qscale*quant_matrix[i]
+                "pxor %%mm2, %%mm2              \n\t"
+                "pxor %%mm3, %%mm3              \n\t"
+                "pcmpgtw %%mm0, %%mm2           \n\t" // block[i] < 0 ? -1 : 0
+                "pcmpgtw %%mm1, %%mm3           \n\t" // block[i] < 0 ? -1 : 0
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t" // abs(block[i])
+                "psubw %%mm3, %%mm1             \n\t" // abs(block[i])
+                "paddw %%mm0, %%mm0             \n\t" // abs(block[i])*2
+                "paddw %%mm1, %%mm1             \n\t" // abs(block[i])*2
+                "pmullw %%mm4, %%mm0            \n\t" // abs(block[i])*2*q
+                "pmullw %%mm5, %%mm1            \n\t" // abs(block[i])*2*q
+                "paddw %%mm4, %%mm0             \n\t" // (abs(block[i])*2 + 1)*q
+                "paddw %%mm5, %%mm1             \n\t" // (abs(block[i])*2 + 1)*q
+                "pxor %%mm4, %%mm4              \n\t"
+                "pxor %%mm5, %%mm5              \n\t" // FIXME slow
+                "pcmpeqw (%0, %%"REG_a"), %%mm4 \n\t" // block[i] == 0 ? -1 : 0
+                "pcmpeqw 8(%0, %%"REG_a"), %%mm5\n\t" // block[i] == 0 ? -1 : 0
+                "psrlw $4, %%mm0                \n\t"
+                "psrlw $4, %%mm1                \n\t"
+                "pxor %%mm2, %%mm0              \n\t"
+                "pxor %%mm3, %%mm1              \n\t"
+                "psubw %%mm2, %%mm0             \n\t"
+                "psubw %%mm3, %%mm1             \n\t"
+                "pandn %%mm0, %%mm4             \n\t"
+                "pandn %%mm1, %%mm5             \n\t"
+                "pxor %%mm4, %%mm7              \n\t"
+                "pxor %%mm5, %%mm7              \n\t"
+                "movq %%mm4, (%0, %%"REG_a")    \n\t"
+                "movq %%mm5, 8(%0, %%"REG_a")   \n\t"
+
+                "add $16, %%"REG_a"             \n\t"
+                "jng 1b                         \n\t"
+                "movd 124(%0, %3), %%mm0        \n\t"
+                "movq %%mm7, %%mm6              \n\t"
+                "psrlq $32, %%mm7               \n\t"
+                "pxor %%mm6, %%mm7              \n\t"
+                "movq %%mm7, %%mm6              \n\t"
+                "psrlq $16, %%mm7               \n\t"
+                "pxor %%mm6, %%mm7              \n\t"
+                "pslld $31, %%mm7               \n\t"
+                "psrlq $15, %%mm7               \n\t"
+                "pxor %%mm7, %%mm0              \n\t"
+                "movd %%mm0, 124(%0, %3)        \n\t"
+
+                ::"r" (block+nCoeffs), "r"(quant_matrix+nCoeffs), "g" (qscale), "r" (-2*nCoeffs)
+                : "%"REG_a, "memory"
+        );
 }
 
 /* draw the edges of width 'w' of an image of size width, height
@@ -488,79 +488,79 @@ static void draw_edges_mmx(uint8_t *buf, int wrap, int width, int height, int w)
     ptr = buf;
     if(w==8)
     {
-	asm volatile(
-		"1:				\n\t"
-		"movd (%0), %%mm0		\n\t"
-		"punpcklbw %%mm0, %%mm0		\n\t"
-		"punpcklwd %%mm0, %%mm0		\n\t"
-		"punpckldq %%mm0, %%mm0		\n\t"
-		"movq %%mm0, -8(%0)		\n\t"
-		"movq -8(%0, %2), %%mm1		\n\t"
-		"punpckhbw %%mm1, %%mm1		\n\t"
-		"punpckhwd %%mm1, %%mm1		\n\t"
-		"punpckhdq %%mm1, %%mm1		\n\t"
-		"movq %%mm1, (%0, %2)		\n\t"
-		"add %1, %0			\n\t"
-		"cmp %3, %0			\n\t"
-		" jb 1b				\n\t"
-		: "+r" (ptr)
-		: "r" ((long)wrap), "r" ((long)width), "r" (ptr + wrap*height)
-	);
+        asm volatile(
+                "1:                             \n\t"
+                "movd (%0), %%mm0               \n\t"
+                "punpcklbw %%mm0, %%mm0         \n\t"
+                "punpcklwd %%mm0, %%mm0         \n\t"
+                "punpckldq %%mm0, %%mm0         \n\t"
+                "movq %%mm0, -8(%0)             \n\t"
+                "movq -8(%0, %2), %%mm1         \n\t"
+                "punpckhbw %%mm1, %%mm1         \n\t"
+                "punpckhwd %%mm1, %%mm1         \n\t"
+                "punpckhdq %%mm1, %%mm1         \n\t"
+                "movq %%mm1, (%0, %2)           \n\t"
+                "add %1, %0                     \n\t"
+                "cmp %3, %0                     \n\t"
+                " jb 1b                         \n\t"
+                : "+r" (ptr)
+                : "r" ((long)wrap), "r" ((long)width), "r" (ptr + wrap*height)
+        );
     }
     else
     {
-	asm volatile(
-		"1:				\n\t"
-		"movd (%0), %%mm0		\n\t"
-		"punpcklbw %%mm0, %%mm0		\n\t"
-		"punpcklwd %%mm0, %%mm0		\n\t"
-		"punpckldq %%mm0, %%mm0		\n\t"
-		"movq %%mm0, -8(%0)		\n\t"
-		"movq %%mm0, -16(%0)		\n\t"
-		"movq -8(%0, %2), %%mm1		\n\t"
-		"punpckhbw %%mm1, %%mm1		\n\t"
-		"punpckhwd %%mm1, %%mm1		\n\t"
-		"punpckhdq %%mm1, %%mm1		\n\t"
-		"movq %%mm1, (%0, %2)		\n\t"
-		"movq %%mm1, 8(%0, %2)		\n\t"
-		"add %1, %0			\n\t"
-		"cmp %3, %0			\n\t"
-		" jb 1b				\n\t"
-		: "+r" (ptr)
-		: "r" ((long)wrap), "r" ((long)width), "r" (ptr + wrap*height)
-	);
+        asm volatile(
+                "1:                             \n\t"
+                "movd (%0), %%mm0               \n\t"
+                "punpcklbw %%mm0, %%mm0         \n\t"
+                "punpcklwd %%mm0, %%mm0         \n\t"
+                "punpckldq %%mm0, %%mm0         \n\t"
+                "movq %%mm0, -8(%0)             \n\t"
+                "movq %%mm0, -16(%0)            \n\t"
+                "movq -8(%0, %2), %%mm1         \n\t"
+                "punpckhbw %%mm1, %%mm1         \n\t"
+                "punpckhwd %%mm1, %%mm1         \n\t"
+                "punpckhdq %%mm1, %%mm1         \n\t"
+                "movq %%mm1, (%0, %2)           \n\t"
+                "movq %%mm1, 8(%0, %2)          \n\t"
+                "add %1, %0                     \n\t"
+                "cmp %3, %0                     \n\t"
+                " jb 1b                         \n\t"
+                : "+r" (ptr)
+                : "r" ((long)wrap), "r" ((long)width), "r" (ptr + wrap*height)
+        );
     }
 
     for(i=0;i<w;i+=4) {
         /* top and bottom (and hopefully also the corners) */
-	ptr= buf - (i + 1) * wrap - w;
-	asm volatile(
-		"1:				\n\t"
-		"movq (%1, %0), %%mm0		\n\t"
-		"movq %%mm0, (%0)		\n\t"
-		"movq %%mm0, (%0, %2)		\n\t"
-		"movq %%mm0, (%0, %2, 2)	\n\t"
-		"movq %%mm0, (%0, %3)		\n\t"
-		"add $8, %0			\n\t"
-		"cmp %4, %0			\n\t"
-		" jb 1b				\n\t"
-		: "+r" (ptr)
-		: "r" ((long)buf - (long)ptr - w), "r" ((long)-wrap), "r" ((long)-wrap*3), "r" (ptr+width+2*w)
-	);
-	ptr= last_line + (i + 1) * wrap - w;
-	asm volatile(
-		"1:				\n\t"
-		"movq (%1, %0), %%mm0		\n\t"
-		"movq %%mm0, (%0)		\n\t"
-		"movq %%mm0, (%0, %2)		\n\t"
-		"movq %%mm0, (%0, %2, 2)	\n\t"
-		"movq %%mm0, (%0, %3)		\n\t"
-		"add $8, %0			\n\t"
-		"cmp %4, %0			\n\t"
-		" jb 1b				\n\t"
-		: "+r" (ptr)
-		: "r" ((long)last_line - (long)ptr - w), "r" ((long)wrap), "r" ((long)wrap*3), "r" (ptr+width+2*w)
-	);
+        ptr= buf - (i + 1) * wrap - w;
+        asm volatile(
+                "1:                             \n\t"
+                "movq (%1, %0), %%mm0           \n\t"
+                "movq %%mm0, (%0)               \n\t"
+                "movq %%mm0, (%0, %2)           \n\t"
+                "movq %%mm0, (%0, %2, 2)        \n\t"
+                "movq %%mm0, (%0, %3)           \n\t"
+                "add $8, %0                     \n\t"
+                "cmp %4, %0                     \n\t"
+                " jb 1b                         \n\t"
+                : "+r" (ptr)
+                : "r" ((long)buf - (long)ptr - w), "r" ((long)-wrap), "r" ((long)-wrap*3), "r" (ptr+width+2*w)
+        );
+        ptr= last_line + (i + 1) * wrap - w;
+        asm volatile(
+                "1:                             \n\t"
+                "movq (%1, %0), %%mm0           \n\t"
+                "movq %%mm0, (%0)               \n\t"
+                "movq %%mm0, (%0, %2)           \n\t"
+                "movq %%mm0, (%0, %2, 2)        \n\t"
+                "movq %%mm0, (%0, %3)           \n\t"
+                "add $8, %0                     \n\t"
+                "cmp %4, %0                     \n\t"
+                " jb 1b                         \n\t"
+                : "+r" (ptr)
+                : "r" ((long)last_line - (long)ptr - w), "r" ((long)wrap), "r" ((long)wrap*3), "r" (ptr+width+2*w)
+        );
     }
 }
 
@@ -572,47 +572,47 @@ static void  denoise_dct_mmx(MpegEncContext *s, DCTELEM *block){
     s->dct_count[intra]++;
 
     asm volatile(
-        "pxor %%mm7, %%mm7		\n\t"
-        "1:				\n\t"
-        "pxor %%mm0, %%mm0		\n\t"
-        "pxor %%mm1, %%mm1		\n\t"
-        "movq (%0), %%mm2		\n\t"
-        "movq 8(%0), %%mm3		\n\t"
-        "pcmpgtw %%mm2, %%mm0		\n\t"
-        "pcmpgtw %%mm3, %%mm1		\n\t"
-        "pxor %%mm0, %%mm2		\n\t"
-        "pxor %%mm1, %%mm3		\n\t"
-        "psubw %%mm0, %%mm2		\n\t"
-        "psubw %%mm1, %%mm3		\n\t"
-        "movq %%mm2, %%mm4		\n\t"
-        "movq %%mm3, %%mm5		\n\t"
-        "psubusw (%2), %%mm2		\n\t"
-        "psubusw 8(%2), %%mm3		\n\t"
-        "pxor %%mm0, %%mm2		\n\t"
-        "pxor %%mm1, %%mm3		\n\t"
-        "psubw %%mm0, %%mm2		\n\t"
-        "psubw %%mm1, %%mm3		\n\t"
-        "movq %%mm2, (%0)		\n\t"
-        "movq %%mm3, 8(%0)		\n\t"
-        "movq %%mm4, %%mm2		\n\t"
-        "movq %%mm5, %%mm3		\n\t"
-        "punpcklwd %%mm7, %%mm4		\n\t"
-        "punpckhwd %%mm7, %%mm2		\n\t"
-        "punpcklwd %%mm7, %%mm5		\n\t"
-        "punpckhwd %%mm7, %%mm3		\n\t"
-        "paddd (%1), %%mm4		\n\t"
-        "paddd 8(%1), %%mm2		\n\t"
-        "paddd 16(%1), %%mm5		\n\t"
-        "paddd 24(%1), %%mm3		\n\t"
-        "movq %%mm4, (%1)		\n\t"
-        "movq %%mm2, 8(%1)		\n\t"
-        "movq %%mm5, 16(%1)		\n\t"
-        "movq %%mm3, 24(%1)		\n\t"
-        "add $16, %0			\n\t"
-        "add $32, %1			\n\t"
-        "add $16, %2			\n\t"
-        "cmp %3, %0			\n\t"
-            " jb 1b			\n\t"
+        "pxor %%mm7, %%mm7                      \n\t"
+        "1:                                     \n\t"
+        "pxor %%mm0, %%mm0                      \n\t"
+        "pxor %%mm1, %%mm1                      \n\t"
+        "movq (%0), %%mm2                       \n\t"
+        "movq 8(%0), %%mm3                      \n\t"
+        "pcmpgtw %%mm2, %%mm0                   \n\t"
+        "pcmpgtw %%mm3, %%mm1                   \n\t"
+        "pxor %%mm0, %%mm2                      \n\t"
+        "pxor %%mm1, %%mm3                      \n\t"
+        "psubw %%mm0, %%mm2                     \n\t"
+        "psubw %%mm1, %%mm3                     \n\t"
+        "movq %%mm2, %%mm4                      \n\t"
+        "movq %%mm3, %%mm5                      \n\t"
+        "psubusw (%2), %%mm2                    \n\t"
+        "psubusw 8(%2), %%mm3                   \n\t"
+        "pxor %%mm0, %%mm2                      \n\t"
+        "pxor %%mm1, %%mm3                      \n\t"
+        "psubw %%mm0, %%mm2                     \n\t"
+        "psubw %%mm1, %%mm3                     \n\t"
+        "movq %%mm2, (%0)                       \n\t"
+        "movq %%mm3, 8(%0)                      \n\t"
+        "movq %%mm4, %%mm2                      \n\t"
+        "movq %%mm5, %%mm3                      \n\t"
+        "punpcklwd %%mm7, %%mm4                 \n\t"
+        "punpckhwd %%mm7, %%mm2                 \n\t"
+        "punpcklwd %%mm7, %%mm5                 \n\t"
+        "punpckhwd %%mm7, %%mm3                 \n\t"
+        "paddd (%1), %%mm4                      \n\t"
+        "paddd 8(%1), %%mm2                     \n\t"
+        "paddd 16(%1), %%mm5                    \n\t"
+        "paddd 24(%1), %%mm3                    \n\t"
+        "movq %%mm4, (%1)                       \n\t"
+        "movq %%mm2, 8(%1)                      \n\t"
+        "movq %%mm5, 16(%1)                     \n\t"
+        "movq %%mm3, 24(%1)                     \n\t"
+        "add $16, %0                            \n\t"
+        "add $32, %1                            \n\t"
+        "add $16, %2                            \n\t"
+        "cmp %3, %0                             \n\t"
+            " jb 1b                             \n\t"
         : "+r" (block), "+r" (sum), "+r" (offset)
         : "r"(block+64)
     );
@@ -626,47 +626,47 @@ static void  denoise_dct_sse2(MpegEncContext *s, DCTELEM *block){
     s->dct_count[intra]++;
 
     asm volatile(
-        "pxor %%xmm7, %%xmm7		\n\t"
-        "1:				\n\t"
-        "pxor %%xmm0, %%xmm0		\n\t"
-        "pxor %%xmm1, %%xmm1		\n\t"
-        "movdqa (%0), %%xmm2		\n\t"
-        "movdqa 16(%0), %%xmm3		\n\t"
-        "pcmpgtw %%xmm2, %%xmm0		\n\t"
-        "pcmpgtw %%xmm3, %%xmm1		\n\t"
-        "pxor %%xmm0, %%xmm2		\n\t"
-        "pxor %%xmm1, %%xmm3		\n\t"
-        "psubw %%xmm0, %%xmm2		\n\t"
-        "psubw %%xmm1, %%xmm3		\n\t"
-        "movdqa %%xmm2, %%xmm4		\n\t"
-        "movdqa %%xmm3, %%xmm5		\n\t"
-        "psubusw (%2), %%xmm2		\n\t"
-        "psubusw 16(%2), %%xmm3		\n\t"
-        "pxor %%xmm0, %%xmm2		\n\t"
-        "pxor %%xmm1, %%xmm3		\n\t"
-        "psubw %%xmm0, %%xmm2		\n\t"
-        "psubw %%xmm1, %%xmm3		\n\t"
-        "movdqa %%xmm2, (%0)		\n\t"
-        "movdqa %%xmm3, 16(%0)		\n\t"
-        "movdqa %%xmm4, %%xmm6		\n\t"
-        "movdqa %%xmm5, %%xmm0		\n\t"
-        "punpcklwd %%xmm7, %%xmm4	\n\t"
-        "punpckhwd %%xmm7, %%xmm6	\n\t"
-        "punpcklwd %%xmm7, %%xmm5	\n\t"
-        "punpckhwd %%xmm7, %%xmm0	\n\t"
-        "paddd (%1), %%xmm4		\n\t"
-        "paddd 16(%1), %%xmm6		\n\t"
-        "paddd 32(%1), %%xmm5		\n\t"
-        "paddd 48(%1), %%xmm0		\n\t"
-        "movdqa %%xmm4, (%1)		\n\t"
-        "movdqa %%xmm6, 16(%1)		\n\t"
-        "movdqa %%xmm5, 32(%1)		\n\t"
-        "movdqa %%xmm0, 48(%1)		\n\t"
-        "add $32, %0			\n\t"
-        "add $64, %1			\n\t"
-        "add $32, %2			\n\t"
-        "cmp %3, %0			\n\t"
-            " jb 1b			\n\t"
+        "pxor %%xmm7, %%xmm7                    \n\t"
+        "1:                                     \n\t"
+        "pxor %%xmm0, %%xmm0                    \n\t"
+        "pxor %%xmm1, %%xmm1                    \n\t"
+        "movdqa (%0), %%xmm2                    \n\t"
+        "movdqa 16(%0), %%xmm3                  \n\t"
+        "pcmpgtw %%xmm2, %%xmm0                 \n\t"
+        "pcmpgtw %%xmm3, %%xmm1                 \n\t"
+        "pxor %%xmm0, %%xmm2                    \n\t"
+        "pxor %%xmm1, %%xmm3                    \n\t"
+        "psubw %%xmm0, %%xmm2                   \n\t"
+        "psubw %%xmm1, %%xmm3                   \n\t"
+        "movdqa %%xmm2, %%xmm4                  \n\t"
+        "movdqa %%xmm3, %%xmm5                  \n\t"
+        "psubusw (%2), %%xmm2                   \n\t"
+        "psubusw 16(%2), %%xmm3                 \n\t"
+        "pxor %%xmm0, %%xmm2                    \n\t"
+        "pxor %%xmm1, %%xmm3                    \n\t"
+        "psubw %%xmm0, %%xmm2                   \n\t"
+        "psubw %%xmm1, %%xmm3                   \n\t"
+        "movdqa %%xmm2, (%0)                    \n\t"
+        "movdqa %%xmm3, 16(%0)                  \n\t"
+        "movdqa %%xmm4, %%xmm6                  \n\t"
+        "movdqa %%xmm5, %%xmm0                  \n\t"
+        "punpcklwd %%xmm7, %%xmm4               \n\t"
+        "punpckhwd %%xmm7, %%xmm6               \n\t"
+        "punpcklwd %%xmm7, %%xmm5               \n\t"
+        "punpckhwd %%xmm7, %%xmm0               \n\t"
+        "paddd (%1), %%xmm4                     \n\t"
+        "paddd 16(%1), %%xmm6                   \n\t"
+        "paddd 32(%1), %%xmm5                   \n\t"
+        "paddd 48(%1), %%xmm0                   \n\t"
+        "movdqa %%xmm4, (%1)                    \n\t"
+        "movdqa %%xmm6, 16(%1)                  \n\t"
+        "movdqa %%xmm5, 32(%1)                  \n\t"
+        "movdqa %%xmm0, 48(%1)                  \n\t"
+        "add $32, %0                            \n\t"
+        "add $64, %1                            \n\t"
+        "add $32, %2                            \n\t"
+        "cmp %3, %0                             \n\t"
+            " jb 1b                             \n\t"
         : "+r" (block), "+r" (sum), "+r" (offset)
         : "r"(block+64)
     );
@@ -705,10 +705,10 @@ void MPV_common_init_mmx(MpegEncContext *s)
         draw_edges = draw_edges_mmx;
 
         if (mm_flags & MM_SSE2) {
-	    s->denoise_dct= denoise_dct_sse2;
-	} else {
-    	    s->denoise_dct= denoise_dct_mmx;
-	}
+            s->denoise_dct= denoise_dct_sse2;
+        } else {
+                s->denoise_dct= denoise_dct_mmx;
+        }
 
         if(dct_algo==FF_DCT_AUTO || dct_algo==FF_DCT_MMX){
             if(mm_flags & MM_SSE2){
diff --git a/libavcodec/i386/mpegvideo_mmx_template.c b/libavcodec/i386/mpegvideo_mmx_template.c
index 28afdeef0c..01eb3b95e6 100644
--- a/libavcodec/i386/mpegvideo_mmx_template.c
+++ b/libavcodec/i386/mpegvideo_mmx_template.c
@@ -21,26 +21,26 @@
 #undef PMAXW
 #ifdef HAVE_MMX2
 #define SPREADW(a) "pshufw $0, " #a ", " #a " \n\t"
-#define PMAXW(a,b) "pmaxsw " #a ", " #b " \n\t"
+#define PMAXW(a,b) "pmaxsw " #a ", " #b "     \n\t"
 #define PMAX(a,b) \
-            "pshufw $0x0E," #a ", " #b "		\n\t"\
-	    PMAXW(b, a)\
-            "pshufw $0x01," #a ", " #b "		\n\t"\
-	    PMAXW(b, a)
+            "pshufw $0x0E," #a ", " #b "        \n\t"\
+            PMAXW(b, a)\
+            "pshufw $0x01," #a ", " #b "        \n\t"\
+            PMAXW(b, a)
 #else
 #define SPREADW(a) \
-	"punpcklwd " #a ", " #a " \n\t"\
-	"punpcklwd " #a ", " #a " \n\t"
+        "punpcklwd " #a ", " #a " \n\t"\
+        "punpcklwd " #a ", " #a " \n\t"
 #define PMAXW(a,b) \
-	"psubusw " #a ", " #b " \n\t"\
-	"paddw " #a ", " #b " \n\t"
+        "psubusw " #a ", " #b " \n\t"\
+        "paddw " #a ", " #b "   \n\t"
 #define PMAX(a,b)  \
-            "movq " #a ", " #b "		\n\t"\
-            "psrlq $32, " #a "			\n\t"\
-	    PMAXW(b, a)\
-            "movq " #a ", " #b "		\n\t"\
-            "psrlq $16, " #a "			\n\t"\
-	    PMAXW(b, a)
+            "movq " #a ", " #b "                \n\t"\
+            "psrlq $32, " #a "                  \n\t"\
+            PMAXW(b, a)\
+            "movq " #a ", " #b "                \n\t"\
+            "psrlq $16, " #a "                  \n\t"\
+            PMAXW(b, a)
 
 #endif
 
@@ -71,18 +71,18 @@ static int RENAME(dct_quantize)(MpegEncContext *s,
         if (!s->h263_aic) {
 #if 1
         asm volatile (
-        	"mul %%ecx		\n\t"
-        	: "=d" (level), "=a"(dummy)
-        	: "a" ((block[0]>>2) + q), "c" (inverse[q<<1])
+                "mul %%ecx                \n\t"
+                : "=d" (level), "=a"(dummy)
+                : "a" ((block[0]>>2) + q), "c" (inverse[q<<1])
         );
 #else
         asm volatile (
-        	"xorl %%edx, %%edx	\n\t"
-        	"divw %%cx		\n\t"
-        	"movzwl %%ax, %%eax	\n\t"
-        	: "=a" (level)
-        	: "a" ((block[0]>>2) + q), "c" (q<<1)
-        	: "%edx"
+                "xorl %%edx, %%edx        \n\t"
+                "divw %%cx                \n\t"
+                "movzwl %%ax, %%eax       \n\t"
+                : "=a" (level)
+                : "a" ((block[0]>>2) + q), "c" (q<<1)
+                : "%edx"
         );
 #endif
         } else
@@ -103,94 +103,94 @@ static int RENAME(dct_quantize)(MpegEncContext *s,
     if((s->out_format == FMT_H263 || s->out_format == FMT_H261) && s->mpeg_quant==0){
 
         asm volatile(
-            "movd %%"REG_a", %%mm3		\n\t" // last_non_zero_p1
+            "movd %%"REG_a", %%mm3              \n\t" // last_non_zero_p1
             SPREADW(%%mm3)
-            "pxor %%mm7, %%mm7			\n\t" // 0
-            "pxor %%mm4, %%mm4			\n\t" // 0
-            "movq (%2), %%mm5			\n\t" // qmat[0]
-            "pxor %%mm6, %%mm6			\n\t"
-            "psubw (%3), %%mm6			\n\t" // -bias[0]
-            "mov $-128, %%"REG_a"		\n\t"
-            ".balign 16				\n\t"
-            "1:					\n\t"
-            "pxor %%mm1, %%mm1			\n\t" // 0
-            "movq (%1, %%"REG_a"), %%mm0	\n\t" // block[i]
-            "pcmpgtw %%mm0, %%mm1		\n\t" // block[i] <= 0 ? 0xFF : 0x00
-            "pxor %%mm1, %%mm0			\n\t"
-            "psubw %%mm1, %%mm0			\n\t" // ABS(block[i])
-            "psubusw %%mm6, %%mm0		\n\t" // ABS(block[i]) + bias[0]
-            "pmulhw %%mm5, %%mm0		\n\t" // (ABS(block[i])*qmat[0] - bias[0]*qmat[0])>>16
-            "por %%mm0, %%mm4			\n\t"
-            "pxor %%mm1, %%mm0			\n\t"
-            "psubw %%mm1, %%mm0			\n\t" // out=((ABS(block[i])*qmat[0] - bias[0]*qmat[0])>>16)*sign(block[i])
-            "movq %%mm0, (%5, %%"REG_a")	\n\t"
-            "pcmpeqw %%mm7, %%mm0		\n\t" // out==0 ? 0xFF : 0x00
-            "movq (%4, %%"REG_a"), %%mm1	\n\t"
-            "movq %%mm7, (%1, %%"REG_a")	\n\t" // 0
-            "pandn %%mm1, %%mm0			\n\t"
-	    PMAXW(%%mm0, %%mm3)
-            "add $8, %%"REG_a"			\n\t"
-            " js 1b				\n\t"
-	    PMAX(%%mm3, %%mm0)
-            "movd %%mm3, %%"REG_a"		\n\t"
-            "movzb %%al, %%"REG_a"		\n\t" // last_non_zero_p1
-	    : "+a" (last_non_zero_p1)
+            "pxor %%mm7, %%mm7                  \n\t" // 0
+            "pxor %%mm4, %%mm4                  \n\t" // 0
+            "movq (%2), %%mm5                   \n\t" // qmat[0]
+            "pxor %%mm6, %%mm6                  \n\t"
+            "psubw (%3), %%mm6                  \n\t" // -bias[0]
+            "mov $-128, %%"REG_a"               \n\t"
+            ".balign 16                         \n\t"
+            "1:                                 \n\t"
+            "pxor %%mm1, %%mm1                  \n\t" // 0
+            "movq (%1, %%"REG_a"), %%mm0        \n\t" // block[i]
+            "pcmpgtw %%mm0, %%mm1               \n\t" // block[i] <= 0 ? 0xFF : 0x00
+            "pxor %%mm1, %%mm0                  \n\t"
+            "psubw %%mm1, %%mm0                 \n\t" // ABS(block[i])
+            "psubusw %%mm6, %%mm0               \n\t" // ABS(block[i]) + bias[0]
+            "pmulhw %%mm5, %%mm0                \n\t" // (ABS(block[i])*qmat[0] - bias[0]*qmat[0])>>16
+            "por %%mm0, %%mm4                   \n\t"
+            "pxor %%mm1, %%mm0                  \n\t"
+            "psubw %%mm1, %%mm0                 \n\t" // out=((ABS(block[i])*qmat[0] - bias[0]*qmat[0])>>16)*sign(block[i])
+            "movq %%mm0, (%5, %%"REG_a")        \n\t"
+            "pcmpeqw %%mm7, %%mm0               \n\t" // out==0 ? 0xFF : 0x00
+            "movq (%4, %%"REG_a"), %%mm1        \n\t"
+            "movq %%mm7, (%1, %%"REG_a")        \n\t" // 0
+            "pandn %%mm1, %%mm0                 \n\t"
+            PMAXW(%%mm0, %%mm3)
+            "add $8, %%"REG_a"                  \n\t"
+            " js 1b                             \n\t"
+            PMAX(%%mm3, %%mm0)
+            "movd %%mm3, %%"REG_a"              \n\t"
+            "movzb %%al, %%"REG_a"              \n\t" // last_non_zero_p1
+            : "+a" (last_non_zero_p1)
             : "r" (block+64), "r" (qmat), "r" (bias),
               "r" (inv_zigzag_direct16+64), "r" (temp_block+64)
         );
         // note the asm is split cuz gcc doesnt like that many operands ...
         asm volatile(
-            "movd %1, %%mm1			\n\t" // max_qcoeff
-	    SPREADW(%%mm1)
-            "psubusw %%mm1, %%mm4		\n\t"
-            "packuswb %%mm4, %%mm4		\n\t"
-            "movd %%mm4, %0			\n\t" // *overflow
+            "movd %1, %%mm1                     \n\t" // max_qcoeff
+            SPREADW(%%mm1)
+            "psubusw %%mm1, %%mm4               \n\t"
+            "packuswb %%mm4, %%mm4              \n\t"
+            "movd %%mm4, %0                     \n\t" // *overflow
         : "=g" (*overflow)
         : "g" (s->max_qcoeff)
         );
     }else{ // FMT_H263
         asm volatile(
-            "movd %%"REG_a", %%mm3		\n\t" // last_non_zero_p1
+            "movd %%"REG_a", %%mm3              \n\t" // last_non_zero_p1
             SPREADW(%%mm3)
-            "pxor %%mm7, %%mm7			\n\t" // 0
-            "pxor %%mm4, %%mm4			\n\t" // 0
-            "mov $-128, %%"REG_a"		\n\t"
-            ".balign 16				\n\t"
-            "1:					\n\t"
-            "pxor %%mm1, %%mm1			\n\t" // 0
-            "movq (%1, %%"REG_a"), %%mm0	\n\t" // block[i]
-            "pcmpgtw %%mm0, %%mm1		\n\t" // block[i] <= 0 ? 0xFF : 0x00
-            "pxor %%mm1, %%mm0			\n\t"
-            "psubw %%mm1, %%mm0			\n\t" // ABS(block[i])
-            "movq (%3, %%"REG_a"), %%mm6	\n\t" // bias[0]
-            "paddusw %%mm6, %%mm0		\n\t" // ABS(block[i]) + bias[0]
-            "movq (%2, %%"REG_a"), %%mm5		\n\t" // qmat[i]
-            "pmulhw %%mm5, %%mm0		\n\t" // (ABS(block[i])*qmat[0] + bias[0]*qmat[0])>>16
-            "por %%mm0, %%mm4			\n\t"
-            "pxor %%mm1, %%mm0			\n\t"
-            "psubw %%mm1, %%mm0			\n\t" // out=((ABS(block[i])*qmat[0] - bias[0]*qmat[0])>>16)*sign(block[i])
-            "movq %%mm0, (%5, %%"REG_a")	\n\t"
-            "pcmpeqw %%mm7, %%mm0		\n\t" // out==0 ? 0xFF : 0x00
-            "movq (%4, %%"REG_a"), %%mm1		\n\t"
-            "movq %%mm7, (%1, %%"REG_a")		\n\t" // 0
-            "pandn %%mm1, %%mm0			\n\t"
-	    PMAXW(%%mm0, %%mm3)
-            "add $8, %%"REG_a"			\n\t"
-            " js 1b				\n\t"
-	    PMAX(%%mm3, %%mm0)
-            "movd %%mm3, %%"REG_a"		\n\t"
-            "movzb %%al, %%"REG_a"		\n\t" // last_non_zero_p1
-	    : "+a" (last_non_zero_p1)
+            "pxor %%mm7, %%mm7                  \n\t" // 0
+            "pxor %%mm4, %%mm4                  \n\t" // 0
+            "mov $-128, %%"REG_a"               \n\t"
+            ".balign 16                         \n\t"
+            "1:                                 \n\t"
+            "pxor %%mm1, %%mm1                  \n\t" // 0
+            "movq (%1, %%"REG_a"), %%mm0        \n\t" // block[i]
+            "pcmpgtw %%mm0, %%mm1               \n\t" // block[i] <= 0 ? 0xFF : 0x00
+            "pxor %%mm1, %%mm0                  \n\t"
+            "psubw %%mm1, %%mm0                 \n\t" // ABS(block[i])
+            "movq (%3, %%"REG_a"), %%mm6        \n\t" // bias[0]
+            "paddusw %%mm6, %%mm0               \n\t" // ABS(block[i]) + bias[0]
+            "movq (%2, %%"REG_a"), %%mm5        \n\t" // qmat[i]
+            "pmulhw %%mm5, %%mm0                \n\t" // (ABS(block[i])*qmat[0] + bias[0]*qmat[0])>>16
+            "por %%mm0, %%mm4                   \n\t"
+            "pxor %%mm1, %%mm0                  \n\t"
+            "psubw %%mm1, %%mm0                 \n\t" // out=((ABS(block[i])*qmat[0] - bias[0]*qmat[0])>>16)*sign(block[i])
+            "movq %%mm0, (%5, %%"REG_a")        \n\t"
+            "pcmpeqw %%mm7, %%mm0               \n\t" // out==0 ? 0xFF : 0x00
+            "movq (%4, %%"REG_a"), %%mm1        \n\t"
+            "movq %%mm7, (%1, %%"REG_a")        \n\t" // 0
+            "pandn %%mm1, %%mm0                 \n\t"
+            PMAXW(%%mm0, %%mm3)
+            "add $8, %%"REG_a"                  \n\t"
+            " js 1b                             \n\t"
+            PMAX(%%mm3, %%mm0)
+            "movd %%mm3, %%"REG_a"              \n\t"
+            "movzb %%al, %%"REG_a"              \n\t" // last_non_zero_p1
+            : "+a" (last_non_zero_p1)
             : "r" (block+64), "r" (qmat+64), "r" (bias+64),
               "r" (inv_zigzag_direct16+64), "r" (temp_block+64)
         );
         // note the asm is split cuz gcc doesnt like that many operands ...
         asm volatile(
-            "movd %1, %%mm1			\n\t" // max_qcoeff
-	    SPREADW(%%mm1)
-            "psubusw %%mm1, %%mm4		\n\t"
-            "packuswb %%mm4, %%mm4		\n\t"
-            "movd %%mm4, %0			\n\t" // *overflow
+            "movd %1, %%mm1                     \n\t" // max_qcoeff
+            SPREADW(%%mm1)
+            "psubusw %%mm1, %%mm4               \n\t"
+            "packuswb %%mm4, %%mm4              \n\t"
+            "movd %%mm4, %0                     \n\t" // *overflow
         : "=g" (*overflow)
         : "g" (s->max_qcoeff)
         );
diff --git a/libavcodec/i386/simple_idct_mmx.c b/libavcodec/i386/simple_idct_mmx.c
index 7b5084c7eb..b814fabb35 100644
--- a/libavcodec/i386/simple_idct_mmx.c
+++ b/libavcodec/i386/simple_idct_mmx.c
@@ -40,8 +40,8 @@
 #define C4 16383 //cos(i*M_PI/16)*sqrt(2)*(1<<14) - 0.5
 #endif
 #define C5 12873 //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-#define C6 8867 //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-#define C7 4520 //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+#define C6 8867  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+#define C7 4520  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
 
 #define ROW_SHIFT 11
 #define COL_SHIFT 20 // 6
@@ -50,13 +50,13 @@ static const uint64_t attribute_used __attribute__((aligned(8))) wm1010= 0xFFFF0
 static const uint64_t attribute_used __attribute__((aligned(8))) d40000= 0x0000000000040000ULL;
 
 static const int16_t __attribute__((aligned(8))) coeffs[]= {
-	1<<(ROW_SHIFT-1), 0, 1<<(ROW_SHIFT-1), 0,
-//	1<<(COL_SHIFT-1), 0, 1<<(COL_SHIFT-1), 0,
-//	0, 1<<(COL_SHIFT-1-16), 0, 1<<(COL_SHIFT-1-16),
-	1<<(ROW_SHIFT-1), 1, 1<<(ROW_SHIFT-1), 0,
-	// the 1 = ((1<<(COL_SHIFT-1))/C4)<<ROW_SHIFT :)
-//	0, 0, 0, 0,
-//	0, 0, 0, 0,
+        1<<(ROW_SHIFT-1), 0, 1<<(ROW_SHIFT-1), 0,
+//        1<<(COL_SHIFT-1), 0, 1<<(COL_SHIFT-1), 0,
+//        0, 1<<(COL_SHIFT-1-16), 0, 1<<(COL_SHIFT-1-16),
+        1<<(ROW_SHIFT-1), 1, 1<<(ROW_SHIFT-1), 0,
+        // the 1 = ((1<<(COL_SHIFT-1))/C4)<<ROW_SHIFT :)
+//        0, 0, 0, 0,
+//        0, 0, 0, 0,
 
  C4,  C4,  C4,  C4,
  C4, -C4,  C4, -C4,
@@ -79,8 +79,8 @@ static const int16_t __attribute__((aligned(8))) coeffs[]= {
 
 #if 0
 static void unused_var_killer(){
-	int a= wm1010 + d40000;
-	temp[0]=a;
+        int a= wm1010 + d40000;
+        temp[0]=a;
 }
 
 static void inline idctCol (int16_t * col, int16_t *input)
@@ -93,21 +93,21 @@ static void inline idctCol (int16_t * col, int16_t *input)
 #undef C5
 #undef C6
 #undef C7
-	int a0, a1, a2, a3, b0, b1, b2, b3;
-	const int C0 = 23170; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C1 = 22725; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C2 = 21407; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C3 = 19266; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C4 = 16383; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C5 = 12873; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C6 = 8867; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C7 = 4520; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        int a0, a1, a2, a3, b0, b1, b2, b3;
+        const int C0 = 23170; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C1 = 22725; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C2 = 21407; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C3 = 19266; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C4 = 16383; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C5 = 12873; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C6 = 8867;  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C7 = 4520;  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
 /*
-	if( !(col[8*1] | col[8*2] |col[8*3] |col[8*4] |col[8*5] |col[8*6] | col[8*7])) {
-		col[8*0] = col[8*1] = col[8*2] = col[8*3] = col[8*4] =
-			col[8*5] = col[8*6] = col[8*7] = col[8*0]<<3;
-		return;
-	}*/
+        if( !(col[8*1] | col[8*2] |col[8*3] |col[8*4] |col[8*5] |col[8*6] | col[8*7])) {
+                col[8*0] = col[8*1] = col[8*2] = col[8*3] = col[8*4] =
+                        col[8*5] = col[8*6] = col[8*7] = col[8*0]<<3;
+                return;
+        }*/
 
 col[8*0] = input[8*0 + 0];
 col[8*1] = input[8*2 + 0];
@@ -118,39 +118,39 @@ col[8*5] = input[8*6 + 0];
 col[8*6] = input[8*4 + 1];
 col[8*7] = input[8*6 + 1];
 
-	a0 = C4*col[8*0] + C2*col[8*2] + C4*col[8*4] + C6*col[8*6] + (1<<(COL_SHIFT-1));
-	a1 = C4*col[8*0] + C6*col[8*2] - C4*col[8*4] - C2*col[8*6] + (1<<(COL_SHIFT-1));
-	a2 = C4*col[8*0] - C6*col[8*2] - C4*col[8*4] + C2*col[8*6] + (1<<(COL_SHIFT-1));
-	a3 = C4*col[8*0] - C2*col[8*2] + C4*col[8*4] - C6*col[8*6] + (1<<(COL_SHIFT-1));
-
-	b0 = C1*col[8*1] + C3*col[8*3] + C5*col[8*5] + C7*col[8*7];
-	b1 = C3*col[8*1] - C7*col[8*3] - C1*col[8*5] - C5*col[8*7];
-	b2 = C5*col[8*1] - C1*col[8*3] + C7*col[8*5] + C3*col[8*7];
-	b3 = C7*col[8*1] - C5*col[8*3] + C3*col[8*5] - C1*col[8*7];
-
-	col[8*0] = (a0 + b0) >> COL_SHIFT;
-	col[8*1] = (a1 + b1) >> COL_SHIFT;
-	col[8*2] = (a2 + b2) >> COL_SHIFT;
-	col[8*3] = (a3 + b3) >> COL_SHIFT;
-	col[8*4] = (a3 - b3) >> COL_SHIFT;
-	col[8*5] = (a2 - b2) >> COL_SHIFT;
-	col[8*6] = (a1 - b1) >> COL_SHIFT;
-	col[8*7] = (a0 - b0) >> COL_SHIFT;
+        a0 = C4*col[8*0] + C2*col[8*2] + C4*col[8*4] + C6*col[8*6] + (1<<(COL_SHIFT-1));
+        a1 = C4*col[8*0] + C6*col[8*2] - C4*col[8*4] - C2*col[8*6] + (1<<(COL_SHIFT-1));
+        a2 = C4*col[8*0] - C6*col[8*2] - C4*col[8*4] + C2*col[8*6] + (1<<(COL_SHIFT-1));
+        a3 = C4*col[8*0] - C2*col[8*2] + C4*col[8*4] - C6*col[8*6] + (1<<(COL_SHIFT-1));
+
+        b0 = C1*col[8*1] + C3*col[8*3] + C5*col[8*5] + C7*col[8*7];
+        b1 = C3*col[8*1] - C7*col[8*3] - C1*col[8*5] - C5*col[8*7];
+        b2 = C5*col[8*1] - C1*col[8*3] + C7*col[8*5] + C3*col[8*7];
+        b3 = C7*col[8*1] - C5*col[8*3] + C3*col[8*5] - C1*col[8*7];
+
+        col[8*0] = (a0 + b0) >> COL_SHIFT;
+        col[8*1] = (a1 + b1) >> COL_SHIFT;
+        col[8*2] = (a2 + b2) >> COL_SHIFT;
+        col[8*3] = (a3 + b3) >> COL_SHIFT;
+        col[8*4] = (a3 - b3) >> COL_SHIFT;
+        col[8*5] = (a2 - b2) >> COL_SHIFT;
+        col[8*6] = (a1 - b1) >> COL_SHIFT;
+        col[8*7] = (a0 - b0) >> COL_SHIFT;
 }
 
 static void inline idctRow (int16_t * output, int16_t * input)
 {
-	int16_t row[8];
-
-	int a0, a1, a2, a3, b0, b1, b2, b3;
-	const int C0 = 23170; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C1 = 22725; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C2 = 21407; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C3 = 19266; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C4 = 16383; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C5 = 12873; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C6 = 8867; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
-	const int C7 = 4520; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        int16_t row[8];
+
+        int a0, a1, a2, a3, b0, b1, b2, b3;
+        const int C0 = 23170; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C1 = 22725; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C2 = 21407; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C3 = 19266; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C4 = 16383; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C5 = 12873; //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C6 = 8867;  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
+        const int C7 = 4520;  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
 
 row[0] = input[0];
 row[2] = input[1];
@@ -161,290 +161,290 @@ row[3] = input[9];
 row[5] = input[12];
 row[7] = input[13];
 
-	if( !(row[1] | row[2] |row[3] |row[4] |row[5] |row[6] | row[7]) ) {
-		row[0] = row[1] = row[2] = row[3] = row[4] =
-			row[5] = row[6] = row[7] = row[0]<<3;
-	output[0] = row[0];
-	output[2] = row[1];
-	output[4] = row[2];
-	output[6] = row[3];
-	output[8] = row[4];
-	output[10] = row[5];
-	output[12] = row[6];
-	output[14] = row[7];
-		return;
-	}
-
-	a0 = C4*row[0] + C2*row[2] + C4*row[4] + C6*row[6] + (1<<(ROW_SHIFT-1));
-	a1 = C4*row[0] + C6*row[2] - C4*row[4] - C2*row[6] + (1<<(ROW_SHIFT-1));
-	a2 = C4*row[0] - C6*row[2] - C4*row[4] + C2*row[6] + (1<<(ROW_SHIFT-1));
-	a3 = C4*row[0] - C2*row[2] + C4*row[4] - C6*row[6] + (1<<(ROW_SHIFT-1));
-
-	b0 = C1*row[1] + C3*row[3] + C5*row[5] + C7*row[7];
-	b1 = C3*row[1] - C7*row[3] - C1*row[5] - C5*row[7];
-	b2 = C5*row[1] - C1*row[3] + C7*row[5] + C3*row[7];
-	b3 = C7*row[1] - C5*row[3] + C3*row[5] - C1*row[7];
-
-	row[0] = (a0 + b0) >> ROW_SHIFT;
-	row[1] = (a1 + b1) >> ROW_SHIFT;
-	row[2] = (a2 + b2) >> ROW_SHIFT;
-	row[3] = (a3 + b3) >> ROW_SHIFT;
-	row[4] = (a3 - b3) >> ROW_SHIFT;
-	row[5] = (a2 - b2) >> ROW_SHIFT;
-	row[6] = (a1 - b1) >> ROW_SHIFT;
-	row[7] = (a0 - b0) >> ROW_SHIFT;
-
-	output[0] = row[0];
-	output[2] = row[1];
-	output[4] = row[2];
-	output[6] = row[3];
-	output[8] = row[4];
-	output[10] = row[5];
-	output[12] = row[6];
-	output[14] = row[7];
+        if( !(row[1] | row[2] |row[3] |row[4] |row[5] |row[6] | row[7]) ) {
+                row[0] = row[1] = row[2] = row[3] = row[4] =
+                        row[5] = row[6] = row[7] = row[0]<<3;
+        output[0]  = row[0];
+        output[2]  = row[1];
+        output[4]  = row[2];
+        output[6]  = row[3];
+        output[8]  = row[4];
+        output[10] = row[5];
+        output[12] = row[6];
+        output[14] = row[7];
+                return;
+        }
+
+        a0 = C4*row[0] + C2*row[2] + C4*row[4] + C6*row[6] + (1<<(ROW_SHIFT-1));
+        a1 = C4*row[0] + C6*row[2] - C4*row[4] - C2*row[6] + (1<<(ROW_SHIFT-1));
+        a2 = C4*row[0] - C6*row[2] - C4*row[4] + C2*row[6] + (1<<(ROW_SHIFT-1));
+        a3 = C4*row[0] - C2*row[2] + C4*row[4] - C6*row[6] + (1<<(ROW_SHIFT-1));
+
+        b0 = C1*row[1] + C3*row[3] + C5*row[5] + C7*row[7];
+        b1 = C3*row[1] - C7*row[3] - C1*row[5] - C5*row[7];
+        b2 = C5*row[1] - C1*row[3] + C7*row[5] + C3*row[7];
+        b3 = C7*row[1] - C5*row[3] + C3*row[5] - C1*row[7];
+
+        row[0] = (a0 + b0) >> ROW_SHIFT;
+        row[1] = (a1 + b1) >> ROW_SHIFT;
+        row[2] = (a2 + b2) >> ROW_SHIFT;
+        row[3] = (a3 + b3) >> ROW_SHIFT;
+        row[4] = (a3 - b3) >> ROW_SHIFT;
+        row[5] = (a2 - b2) >> ROW_SHIFT;
+        row[6] = (a1 - b1) >> ROW_SHIFT;
+        row[7] = (a0 - b0) >> ROW_SHIFT;
+
+        output[0]  = row[0];
+        output[2]  = row[1];
+        output[4]  = row[2];
+        output[6]  = row[3];
+        output[8]  = row[4];
+        output[10] = row[5];
+        output[12] = row[6];
+        output[14] = row[7];
 }
 #endif
 
 static inline void idct(int16_t *block)
 {
-	int64_t __attribute__((aligned(8))) align_tmp[16];
-	int16_t * const temp= (int16_t*)align_tmp;
+        int64_t __attribute__((aligned(8))) align_tmp[16];
+        int16_t * const temp= (int16_t*)align_tmp;
 
-	asm volatile(
+        asm volatile(
 #if 0 //Alternative, simpler variant
 
 #define ROW_IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq 56(%2), %%mm5			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	#rounder ", %%mm0			\n\t"\
-	"paddd %%mm0, %%mm1			\n\t" /* A1		a1 */\
-	"paddd %%mm0, %%mm0			\n\t" \
-	"psubd %%mm1, %%mm0			\n\t" /* A2		a2 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm5, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm5			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm5			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm1, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm5, %%mm1			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm5, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm1, %%mm7			\n\t" /* A1+B1	a1+b1	A0+B0	a0+b0 */\
-	"packssdw %%mm4, %%mm2			\n\t" /* A0-B0	a0-b0	A1-B1	a1-b1 */\
-	"movq %%mm7, " #dst "			\n\t"\
-	"movq " #src1 ", %%mm1			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"movq %%mm2, 24+" #dst "		\n\t"\
-	"pmaddwd %%mm1, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm1			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm0, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm0			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm1, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"packssdw %%mm6, %%mm2			\n\t" /* A3+B3	a3+b3	A2+B2	a2+b2 */\
-	"movq %%mm2, 8+" #dst "			\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm0, %%mm4			\n\t" /* A2-B2	a2-b2	A3-B3	a3-b3 */\
-	"movq %%mm4, 16+" #dst "		\n\t"\
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq 56(%2), %%mm5             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        #rounder ", %%mm0               \n\t"\
+        "paddd %%mm0, %%mm1             \n\t" /* A1             a1 */\
+        "paddd %%mm0, %%mm0             \n\t" \
+        "psubd %%mm1, %%mm0             \n\t" /* A2             a2 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm5, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm5             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm5             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm1, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm5, %%mm1             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm5, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm1, %%mm7          \n\t" /* A1+B1  a1+b1   A0+B0   a0+b0 */\
+        "packssdw %%mm4, %%mm2          \n\t" /* A0-B0  a0-b0   A1-B1   a1-b1 */\
+        "movq %%mm7, " #dst "           \n\t"\
+        "movq " #src1 ", %%mm1          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "movq %%mm2, 24+" #dst "        \n\t"\
+        "pmaddwd %%mm1, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm1          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm0, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm0             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm1, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "packssdw %%mm6, %%mm2          \n\t" /* A3+B3  a3+b3   A2+B2   a2+b2 */\
+        "movq %%mm2, 8+" #dst "         \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm0, %%mm4          \n\t" /* A2-B2  a2-b2   A3-B3   a3-b3 */\
+        "movq %%mm4, 16+" #dst "        \n\t"\
 
 #define COL_IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	#rounder ", %%mm0			\n\t"\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1		a1 */\
-	"psubd %%mm1, %%mm5			\n\t" /* A2		a2 */\
-	"movq 56(%2), %%mm1			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm1, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm1			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm1			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm0, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm1, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm7, %%mm7			\n\t" /* A0+B0	a0+b0 */\
-	"movd %%mm7, " #dst "			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t" /* A1+B1	a1+b1 */\
-	"movd %%mm0, 16+" #dst "		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A1-B1	a1-b1 */\
-	"movd %%mm2, 96+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A0-B0	a0-b0 */\
-	"movd %%mm4, 112+" #dst "		\n\t"\
-	"movq " #src1 ", %%mm0			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm0			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm5, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm5			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm0, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A2+B2	a2+b2 */\
-	"packssdw %%mm6, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movd %%mm2, 32+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A3-B3	a3-b3 */\
-	"packssdw %%mm5, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movd %%mm6, 48+" #dst "		\n\t"\
-	"movd %%mm4, 64+" #dst "		\n\t"\
-	"movd %%mm5, 80+" #dst "		\n\t"\
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        #rounder ", %%mm0               \n\t"\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1             a1 */\
+        "psubd %%mm1, %%mm5             \n\t" /* A2             a2 */\
+        "movq 56(%2), %%mm1             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm1, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm1             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm1             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm0, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm1, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm7, %%mm7          \n\t" /* A0+B0  a0+b0 */\
+        "movd %%mm7, " #dst "           \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t" /* A1+B1  a1+b1 */\
+        "movd %%mm0, 16+" #dst "        \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A1-B1  a1-b1 */\
+        "movd %%mm2, 96+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A0-B0  a0-b0 */\
+        "movd %%mm4, 112+" #dst "       \n\t"\
+        "movq " #src1 ", %%mm0          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm0          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm5, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm5             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm0, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A2+B2  a2+b2 */\
+        "packssdw %%mm6, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movd %%mm2, 32+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A3-B3  a3-b3 */\
+        "packssdw %%mm5, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movd %%mm6, 48+" #dst "        \n\t"\
+        "movd %%mm4, 64+" #dst "        \n\t"\
+        "movd %%mm5, 80+" #dst "        \n\t"\
 
 
 #define DC_COND_ROW_IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq "MANGLE(wm1010)", %%mm4		\n\t"\
-	"pand %%mm0, %%mm4			\n\t"\
-	"por %%mm1, %%mm4			\n\t"\
-	"por %%mm2, %%mm4			\n\t"\
-	"por %%mm3, %%mm4			\n\t"\
-	"packssdw %%mm4,%%mm4			\n\t"\
-	"movd %%mm4, %%eax			\n\t"\
-	"orl %%eax, %%eax			\n\t"\
-	"jz 1f					\n\t"\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq 56(%2), %%mm5			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	#rounder ", %%mm0			\n\t"\
-	"paddd %%mm0, %%mm1			\n\t" /* A1		a1 */\
-	"paddd %%mm0, %%mm0			\n\t" \
-	"psubd %%mm1, %%mm0			\n\t" /* A2		a2 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm5, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm5			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm5			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm1, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm5, %%mm1			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm5, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm1, %%mm7			\n\t" /* A1+B1	a1+b1	A0+B0	a0+b0 */\
-	"packssdw %%mm4, %%mm2			\n\t" /* A0-B0	a0-b0	A1-B1	a1-b1 */\
-	"movq %%mm7, " #dst "			\n\t"\
-	"movq " #src1 ", %%mm1			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"movq %%mm2, 24+" #dst "		\n\t"\
-	"pmaddwd %%mm1, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm1			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm0, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm0			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm1, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"packssdw %%mm6, %%mm2			\n\t" /* A3+B3	a3+b3	A2+B2	a2+b2 */\
-	"movq %%mm2, 8+" #dst "			\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm0, %%mm4			\n\t" /* A2-B2	a2-b2	A3-B3	a3-b3 */\
-	"movq %%mm4, 16+" #dst "		\n\t"\
-	"jmp 2f					\n\t"\
-	"1:					\n\t"\
-	"pslld $16, %%mm0			\n\t"\
-	"#paddd "MANGLE(d40000)", %%mm0		\n\t"\
-	"psrad $13, %%mm0			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t"\
-	"movq %%mm0, " #dst "			\n\t"\
-	"movq %%mm0, 8+" #dst "			\n\t"\
-	"movq %%mm0, 16+" #dst "		\n\t"\
-	"movq %%mm0, 24+" #dst "		\n\t"\
-	"2:					\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq "MANGLE(wm1010)", %%mm4   \n\t"\
+        "pand %%mm0, %%mm4              \n\t"\
+        "por %%mm1, %%mm4               \n\t"\
+        "por %%mm2, %%mm4               \n\t"\
+        "por %%mm3, %%mm4               \n\t"\
+        "packssdw %%mm4,%%mm4           \n\t"\
+        "movd %%mm4, %%eax              \n\t"\
+        "orl %%eax, %%eax               \n\t"\
+        "jz 1f                          \n\t"\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq 56(%2), %%mm5             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        #rounder ", %%mm0               \n\t"\
+        "paddd %%mm0, %%mm1             \n\t" /* A1             a1 */\
+        "paddd %%mm0, %%mm0             \n\t" \
+        "psubd %%mm1, %%mm0             \n\t" /* A2             a2 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm5, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm5             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm5             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm1, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm5, %%mm1             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm5, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm1, %%mm7          \n\t" /* A1+B1  a1+b1   A0+B0   a0+b0 */\
+        "packssdw %%mm4, %%mm2          \n\t" /* A0-B0  a0-b0   A1-B1   a1-b1 */\
+        "movq %%mm7, " #dst "           \n\t"\
+        "movq " #src1 ", %%mm1          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "movq %%mm2, 24+" #dst "        \n\t"\
+        "pmaddwd %%mm1, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm1          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm0, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm0             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm1, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "packssdw %%mm6, %%mm2          \n\t" /* A3+B3  a3+b3   A2+B2   a2+b2 */\
+        "movq %%mm2, 8+" #dst "         \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm0, %%mm4          \n\t" /* A2-B2  a2-b2   A3-B3   a3-b3 */\
+        "movq %%mm4, 16+" #dst "        \n\t"\
+        "jmp 2f                         \n\t"\
+        "1:                             \n\t"\
+        "pslld $16, %%mm0               \n\t"\
+        "#paddd "MANGLE(d40000)", %%mm0 \n\t"\
+        "psrad $13, %%mm0               \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t"\
+        "movq %%mm0, " #dst "           \n\t"\
+        "movq %%mm0, 8+" #dst "         \n\t"\
+        "movq %%mm0, 16+" #dst "        \n\t"\
+        "movq %%mm0, 24+" #dst "        \n\t"\
+        "2:                             \n\t"
 
 
 //IDCT(      src0,   src4,   src1,   src5,    dst,    rounder, shift)
@@ -467,236 +467,236 @@ COL_IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
 #else
 
 #define DC_COND_IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq "MANGLE(wm1010)", %%mm4		\n\t"\
-	"pand %%mm0, %%mm4			\n\t"\
-	"por %%mm1, %%mm4			\n\t"\
-	"por %%mm2, %%mm4			\n\t"\
-	"por %%mm3, %%mm4			\n\t"\
-	"packssdw %%mm4,%%mm4			\n\t"\
-	"movd %%mm4, %%eax			\n\t"\
-	"orl %%eax, %%eax			\n\t"\
-	"jz 1f					\n\t"\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq 56(%2), %%mm5			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	#rounder ", %%mm0			\n\t"\
-	"paddd %%mm0, %%mm1			\n\t" /* A1		a1 */\
-	"paddd %%mm0, %%mm0			\n\t" \
-	"psubd %%mm1, %%mm0			\n\t" /* A2		a2 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm5, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm5			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm5			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm1, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm5, %%mm1			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm5, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm1, %%mm7			\n\t" /* A1+B1	a1+b1	A0+B0	a0+b0 */\
-	"packssdw %%mm4, %%mm2			\n\t" /* A0-B0	a0-b0	A1-B1	a1-b1 */\
-	"movq %%mm7, " #dst "			\n\t"\
-	"movq " #src1 ", %%mm1			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"movq %%mm2, 24+" #dst "		\n\t"\
-	"pmaddwd %%mm1, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm1			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm0, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm0			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm1, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"packssdw %%mm6, %%mm2			\n\t" /* A3+B3	a3+b3	A2+B2	a2+b2 */\
-	"movq %%mm2, 8+" #dst "			\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm0, %%mm4			\n\t" /* A2-B2	a2-b2	A3-B3	a3-b3 */\
-	"movq %%mm4, 16+" #dst "		\n\t"\
-	"jmp 2f					\n\t"\
-	"1:					\n\t"\
-	"pslld $16, %%mm0			\n\t"\
-	"paddd "MANGLE(d40000)", %%mm0		\n\t"\
-	"psrad $13, %%mm0			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t"\
-	"movq %%mm0, " #dst "			\n\t"\
-	"movq %%mm0, 8+" #dst "			\n\t"\
-	"movq %%mm0, 16+" #dst "		\n\t"\
-	"movq %%mm0, 24+" #dst "		\n\t"\
-	"2:					\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq "MANGLE(wm1010)", %%mm4   \n\t"\
+        "pand %%mm0, %%mm4              \n\t"\
+        "por %%mm1, %%mm4               \n\t"\
+        "por %%mm2, %%mm4               \n\t"\
+        "por %%mm3, %%mm4               \n\t"\
+        "packssdw %%mm4,%%mm4           \n\t"\
+        "movd %%mm4, %%eax              \n\t"\
+        "orl %%eax, %%eax               \n\t"\
+        "jz 1f                          \n\t"\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq 56(%2), %%mm5             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        #rounder ", %%mm0               \n\t"\
+        "paddd %%mm0, %%mm1             \n\t" /* A1             a1 */\
+        "paddd %%mm0, %%mm0             \n\t" \
+        "psubd %%mm1, %%mm0             \n\t" /* A2             a2 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm5, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm5             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm5             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm1, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm5, %%mm1             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm5, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm1, %%mm7          \n\t" /* A1+B1  a1+b1   A0+B0   a0+b0 */\
+        "packssdw %%mm4, %%mm2          \n\t" /* A0-B0  a0-b0   A1-B1   a1-b1 */\
+        "movq %%mm7, " #dst "           \n\t"\
+        "movq " #src1 ", %%mm1          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "movq %%mm2, 24+" #dst "        \n\t"\
+        "pmaddwd %%mm1, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm1          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm0, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm0             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm1, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "packssdw %%mm6, %%mm2          \n\t" /* A3+B3  a3+b3   A2+B2   a2+b2 */\
+        "movq %%mm2, 8+" #dst "         \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm0, %%mm4          \n\t" /* A2-B2  a2-b2   A3-B3   a3-b3 */\
+        "movq %%mm4, 16+" #dst "        \n\t"\
+        "jmp 2f                         \n\t"\
+        "1:                             \n\t"\
+        "pslld $16, %%mm0               \n\t"\
+        "paddd "MANGLE(d40000)", %%mm0  \n\t"\
+        "psrad $13, %%mm0               \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t"\
+        "movq %%mm0, " #dst "           \n\t"\
+        "movq %%mm0, 8+" #dst "         \n\t"\
+        "movq %%mm0, 16+" #dst "        \n\t"\
+        "movq %%mm0, 24+" #dst "        \n\t"\
+        "2:                             \n\t"
 
 #define Z_COND_IDCT(src0, src4, src1, src5, dst, rounder, shift, bt) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq %%mm0, %%mm4			\n\t"\
-	"por %%mm1, %%mm4			\n\t"\
-	"por %%mm2, %%mm4			\n\t"\
-	"por %%mm3, %%mm4			\n\t"\
-	"packssdw %%mm4,%%mm4			\n\t"\
-	"movd %%mm4, %%eax			\n\t"\
-	"orl %%eax, %%eax			\n\t"\
-	"jz " #bt "				\n\t"\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq 56(%2), %%mm5			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	#rounder ", %%mm0			\n\t"\
-	"paddd %%mm0, %%mm1			\n\t" /* A1		a1 */\
-	"paddd %%mm0, %%mm0			\n\t" \
-	"psubd %%mm1, %%mm0			\n\t" /* A2		a2 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm5, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm5			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm5			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm1, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm5, %%mm1			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm5, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm1, %%mm7			\n\t" /* A1+B1	a1+b1	A0+B0	a0+b0 */\
-	"packssdw %%mm4, %%mm2			\n\t" /* A0-B0	a0-b0	A1-B1	a1-b1 */\
-	"movq %%mm7, " #dst "			\n\t"\
-	"movq " #src1 ", %%mm1			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"movq %%mm2, 24+" #dst "		\n\t"\
-	"pmaddwd %%mm1, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm1			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm0, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm0			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm1, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"packssdw %%mm6, %%mm2			\n\t" /* A3+B3	a3+b3	A2+B2	a2+b2 */\
-	"movq %%mm2, 8+" #dst "			\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm0, %%mm4			\n\t" /* A2-B2	a2-b2	A3-B3	a3-b3 */\
-	"movq %%mm4, 16+" #dst "		\n\t"\
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq %%mm0, %%mm4              \n\t"\
+        "por %%mm1, %%mm4               \n\t"\
+        "por %%mm2, %%mm4               \n\t"\
+        "por %%mm3, %%mm4               \n\t"\
+        "packssdw %%mm4,%%mm4           \n\t"\
+        "movd %%mm4, %%eax              \n\t"\
+        "orl %%eax, %%eax               \n\t"\
+        "jz " #bt "                     \n\t"\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq 56(%2), %%mm5             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        #rounder ", %%mm0               \n\t"\
+        "paddd %%mm0, %%mm1             \n\t" /* A1             a1 */\
+        "paddd %%mm0, %%mm0             \n\t" \
+        "psubd %%mm1, %%mm0             \n\t" /* A2             a2 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm5, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm5             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm5             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm1, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm5, %%mm1             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm5, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm1, %%mm7          \n\t" /* A1+B1  a1+b1   A0+B0   a0+b0 */\
+        "packssdw %%mm4, %%mm2          \n\t" /* A0-B0  a0-b0   A1-B1   a1-b1 */\
+        "movq %%mm7, " #dst "           \n\t"\
+        "movq " #src1 ", %%mm1          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "movq %%mm2, 24+" #dst "        \n\t"\
+        "pmaddwd %%mm1, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm1          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm0, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm0             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm1, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "packssdw %%mm6, %%mm2          \n\t" /* A3+B3  a3+b3   A2+B2   a2+b2 */\
+        "movq %%mm2, 8+" #dst "         \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm0, %%mm4          \n\t" /* A2-B2  a2-b2   A3-B3   a3-b3 */\
+        "movq %%mm4, 16+" #dst "        \n\t"\
 
 #define ROW_IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq 56(%2), %%mm5			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	#rounder ", %%mm0			\n\t"\
-	"paddd %%mm0, %%mm1			\n\t" /* A1		a1 */\
-	"paddd %%mm0, %%mm0			\n\t" \
-	"psubd %%mm1, %%mm0			\n\t" /* A2		a2 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm5, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm5			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm5			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm5			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm1, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm5, %%mm1			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm5, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm1, %%mm7			\n\t" /* A1+B1	a1+b1	A0+B0	a0+b0 */\
-	"packssdw %%mm4, %%mm2			\n\t" /* A0-B0	a0-b0	A1-B1	a1-b1 */\
-	"movq %%mm7, " #dst "			\n\t"\
-	"movq " #src1 ", %%mm1			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"movq %%mm2, 24+" #dst "		\n\t"\
-	"pmaddwd %%mm1, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm1			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm0, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm0			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm1, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"packssdw %%mm6, %%mm2			\n\t" /* A3+B3	a3+b3	A2+B2	a2+b2 */\
-	"movq %%mm2, 8+" #dst "			\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm0, %%mm4			\n\t" /* A2-B2	a2-b2	A3-B3	a3-b3 */\
-	"movq %%mm4, 16+" #dst "		\n\t"\
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq 56(%2), %%mm5             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        #rounder ", %%mm0               \n\t"\
+        "paddd %%mm0, %%mm1             \n\t" /* A1             a1 */\
+        "paddd %%mm0, %%mm0             \n\t" \
+        "psubd %%mm1, %%mm0             \n\t" /* A2             a2 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm5, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm5             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm5           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm5             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm1, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm5, %%mm1             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm5, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm1, %%mm7          \n\t" /* A1+B1  a1+b1   A0+B0   a0+b0 */\
+        "packssdw %%mm4, %%mm2          \n\t" /* A0-B0  a0-b0   A1-B1   a1-b1 */\
+        "movq %%mm7, " #dst "           \n\t"\
+        "movq " #src1 ", %%mm1          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "movq %%mm2, 24+" #dst "        \n\t"\
+        "pmaddwd %%mm1, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm1          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm0, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm0             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm1, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "packssdw %%mm6, %%mm2          \n\t" /* A3+B3  a3+b3   A2+B2   a2+b2 */\
+        "movq %%mm2, 8+" #dst "         \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm0, %%mm4          \n\t" /* A2-B2  a2-b2   A3-B3   a3-b3 */\
+        "movq %%mm4, 16+" #dst "        \n\t"\
 
 //IDCT(         src0,   src4,   src1,   src5,    dst,   rounder, shift)
 DC_COND_IDCT(  0(%0),  8(%0), 16(%0), 24(%0),  0(%1),paddd 8(%2), 11)
@@ -706,80 +706,80 @@ Z_COND_IDCT(  96(%0),104(%0),112(%0),120(%0), 96(%1),paddd (%2), 11, 1f)
 
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	#rounder ", %%mm0			\n\t"\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1		a1 */\
-	"psubd %%mm1, %%mm5			\n\t" /* A2		a2 */\
-	"movq 56(%2), %%mm1			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm1, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm1			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm1			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm0, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm1, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm7, %%mm7			\n\t" /* A0+B0	a0+b0 */\
-	"movd %%mm7, " #dst "			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t" /* A1+B1	a1+b1 */\
-	"movd %%mm0, 16+" #dst "		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A1-B1	a1-b1 */\
-	"movd %%mm2, 96+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A0-B0	a0-b0 */\
-	"movd %%mm4, 112+" #dst "		\n\t"\
-	"movq " #src1 ", %%mm0			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm0			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm5, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm5			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm0, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A2+B2	a2+b2 */\
-	"packssdw %%mm6, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movd %%mm2, 32+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A3-B3	a3-b3 */\
-	"packssdw %%mm5, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movd %%mm6, 48+" #dst "		\n\t"\
-	"movd %%mm4, 64+" #dst "		\n\t"\
-	"movd %%mm5, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        #rounder ", %%mm0               \n\t"\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1             a1 */\
+        "psubd %%mm1, %%mm5             \n\t" /* A2             a2 */\
+        "movq 56(%2), %%mm1             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm1, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm1             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm1             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm0, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm1, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm7, %%mm7          \n\t" /* A0+B0  a0+b0 */\
+        "movd %%mm7, " #dst "           \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t" /* A1+B1  a1+b1 */\
+        "movd %%mm0, 16+" #dst "        \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A1-B1  a1-b1 */\
+        "movd %%mm2, 96+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A0-B0  a0-b0 */\
+        "movd %%mm4, 112+" #dst "       \n\t"\
+        "movq " #src1 ", %%mm0          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm0          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm5, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm5             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm0, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A2+B2  a2+b2 */\
+        "packssdw %%mm6, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movd %%mm2, 32+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A3-B3  a3-b3 */\
+        "packssdw %%mm5, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movd %%mm6, 48+" #dst "        \n\t"\
+        "movd %%mm4, 64+" #dst "        \n\t"\
+        "movd %%mm5, 80+" #dst "        \n\t"
 
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
@@ -787,144 +787,144 @@ IDCT(    (%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
 IDCT(   8(%1), 72(%1), 40(%1), 104(%1),  4(%0),/nop, 20)
 IDCT(  16(%1), 80(%1), 48(%1), 112(%1),  8(%0),/nop, 20)
 IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
-	"jmp 9f					\n\t"
+        "jmp 9f                         \n\t"
 
-	"#.balign 16				\n\t"\
-	"4:					\n\t"
+        "#.balign 16                    \n\t"\
+        "4:                             \n\t"
 Z_COND_IDCT(  64(%0), 72(%0), 80(%0), 88(%0), 64(%1),paddd (%2), 11, 6f)
 Z_COND_IDCT(  96(%0),104(%0),112(%0),120(%0), 96(%1),paddd (%2), 11, 5f)
 
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	#rounder ", %%mm0			\n\t"\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1		a1 */\
-	"psubd %%mm1, %%mm5			\n\t" /* A2		a2 */\
-	"movq 56(%2), %%mm1			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	"movq 72(%2), %%mm7			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm1			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm1, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm0, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm7, %%mm0			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm7, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm1, %%mm1			\n\t" /* A0+B0	a0+b0 */\
-	"movd %%mm1, " #dst "			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t" /* A1+B1	a1+b1 */\
-	"movd %%mm0, 16+" #dst "		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A1-B1	a1-b1 */\
-	"movd %%mm2, 96+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A0-B0	a0-b0 */\
-	"movd %%mm4, 112+" #dst "		\n\t"\
-	"movq 88(%2), %%mm1			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm5, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm1, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm1, %%mm5			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"movq %%mm6, %%mm1			\n\t" /* A3		a3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm1			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A2+B2	a2+b2 */\
-	"packssdw %%mm6, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movd %%mm2, 32+" #dst "		\n\t"\
-	"packssdw %%mm1, %%mm1			\n\t" /* A3-B3	a3-b3 */\
-	"packssdw %%mm5, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movd %%mm6, 48+" #dst "		\n\t"\
-	"movd %%mm1, 64+" #dst "		\n\t"\
-	"movd %%mm5, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        #rounder ", %%mm0               \n\t"\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1             a1 */\
+        "psubd %%mm1, %%mm5             \n\t" /* A2             a2 */\
+        "movq 56(%2), %%mm1             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        "movq 72(%2), %%mm7             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm1             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm1, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm0, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm7, %%mm0             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm7, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm1, %%mm1          \n\t" /* A0+B0  a0+b0 */\
+        "movd %%mm1, " #dst "           \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t" /* A1+B1  a1+b1 */\
+        "movd %%mm0, 16+" #dst "        \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A1-B1  a1-b1 */\
+        "movd %%mm2, 96+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A0-B0  a0-b0 */\
+        "movd %%mm4, 112+" #dst "       \n\t"\
+        "movq 88(%2), %%mm1             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm5, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm1, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm1, %%mm5             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "movq %%mm6, %%mm1              \n\t" /* A3             a3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm1             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A2+B2  a2+b2 */\
+        "packssdw %%mm6, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movd %%mm2, 32+" #dst "        \n\t"\
+        "packssdw %%mm1, %%mm1          \n\t" /* A3-B3  a3-b3 */\
+        "packssdw %%mm5, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movd %%mm6, 48+" #dst "        \n\t"\
+        "movd %%mm1, 64+" #dst "        \n\t"\
+        "movd %%mm5, 80+" #dst "        \n\t"
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
 IDCT(    (%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
 IDCT(   8(%1), 72(%1), 40(%1), 104(%1),  4(%0),/nop, 20)
 IDCT(  16(%1), 80(%1), 48(%1), 112(%1),  8(%0),/nop, 20)
 IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
-	"jmp 9f					\n\t"
+        "jmp 9f                         \n\t"
 
-	"#.balign 16				\n\t"\
-	"6:					\n\t"
+        "#.balign 16                    \n\t"\
+        "6:                             \n\t"
 Z_COND_IDCT(  96(%0),104(%0),112(%0),120(%0), 96(%1),paddd (%2), 11, 7f)
 
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	#rounder ", %%mm0			\n\t"\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 56(%2), %%mm1			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	"movq 72(%2), %%mm7			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm1			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm1, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm0, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm7, %%mm0			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm7, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm1, %%mm1			\n\t" /* A0+B0	a0+b0 */\
-	"movd %%mm1, " #dst "			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t" /* A1+B1	a1+b1 */\
-	"movd %%mm0, 16+" #dst "		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A1-B1	a1-b1 */\
-	"movd %%mm2, 96+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A0-B0	a0-b0 */\
-	"movd %%mm4, 112+" #dst "		\n\t"\
-	"movq 88(%2), %%mm1			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm5, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm1, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm1, %%mm5			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"movq %%mm6, %%mm1			\n\t" /* A3		a3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm1			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A2+B2	a2+b2 */\
-	"packssdw %%mm6, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movd %%mm2, 32+" #dst "		\n\t"\
-	"packssdw %%mm1, %%mm1			\n\t" /* A3-B3	a3-b3 */\
-	"packssdw %%mm5, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movd %%mm6, 48+" #dst "		\n\t"\
-	"movd %%mm1, 64+" #dst "		\n\t"\
-	"movd %%mm5, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        #rounder ", %%mm0               \n\t"\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 56(%2), %%mm1             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        "movq 72(%2), %%mm7             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm1             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm1, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm0, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm7, %%mm0             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm7, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm1, %%mm1          \n\t" /* A0+B0  a0+b0 */\
+        "movd %%mm1, " #dst "           \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t" /* A1+B1  a1+b1 */\
+        "movd %%mm0, 16+" #dst "        \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A1-B1  a1-b1 */\
+        "movd %%mm2, 96+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A0-B0  a0-b0 */\
+        "movd %%mm4, 112+" #dst "       \n\t"\
+        "movq 88(%2), %%mm1             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm5, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm1, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm1, %%mm5             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "movq %%mm6, %%mm1              \n\t" /* A3             a3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm1             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A2+B2  a2+b2 */\
+        "packssdw %%mm6, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movd %%mm2, 32+" #dst "        \n\t"\
+        "packssdw %%mm1, %%mm1          \n\t" /* A3-B3  a3-b3 */\
+        "packssdw %%mm5, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movd %%mm6, 48+" #dst "        \n\t"\
+        "movd %%mm1, 64+" #dst "        \n\t"\
+        "movd %%mm5, 80+" #dst "        \n\t"
 
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
@@ -932,144 +932,144 @@ IDCT(    (%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
 IDCT(   8(%1), 72(%1), 40(%1), 104(%1),  4(%0),/nop, 20)
 IDCT(  16(%1), 80(%1), 48(%1), 112(%1),  8(%0),/nop, 20)
 IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
-	"jmp 9f					\n\t"
+        "jmp 9f                         \n\t"
 
-	"#.balign 16				\n\t"\
-	"2:					\n\t"
+        "#.balign 16                    \n\t"\
+        "2:                             \n\t"
 Z_COND_IDCT(  96(%0),104(%0),112(%0),120(%0), 96(%1),paddd (%2), 11, 3f)
 
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq " #src5 ", %%mm3			\n\t" /* R7	R5	r7	r5 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	#rounder ", %%mm0			\n\t"\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 56(%2), %%mm1			\n\t" /* C7	C5	C7	C5 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* C7R7+C5R5	C7r7+C5r5 */\
-	"pmaddwd 64(%2), %%mm2			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm1, %%mm7			\n\t" /* B0		b0 */\
-	"movq 72(%2), %%mm1			\n\t" /* -C5	-C1	-C5	-C1 */\
-	"pmaddwd %%mm3, %%mm1			\n\t" /* -C5R7-C1R5	-C5r7-C1r5 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"paddd %%mm2, %%mm1			\n\t" /* B1		b1 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm0, %%mm2			\n\t" /* A1		a1 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm1, %%mm2			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm7, %%mm7			\n\t" /* A0+B0	a0+b0 */\
-	"movd %%mm7, " #dst "			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t" /* A1+B1	a1+b1 */\
-	"movd %%mm0, 16+" #dst "		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A1-B1	a1-b1 */\
-	"movd %%mm2, 96+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A0-B0	a0-b0 */\
-	"movd %%mm4, 112+" #dst "		\n\t"\
-	"movq " #src1 ", %%mm0			\n\t" /* R3	R1	r3	r1 */\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"movq 88(%2), %%mm7			\n\t" /* C3	C7	C3 	C7 */\
-	"pmaddwd 96(%2), %%mm0			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C3R7+C7R5	C3r7+C7r5 */\
-	"movq %%mm5, %%mm2			\n\t" /* A2		a2 */\
-	"pmaddwd 104(%2), %%mm3			\n\t" /* -C1R7+C3R5	-C1r7+C3r5 */\
-	"paddd %%mm7, %%mm4			\n\t" /* B2		b2 */\
-	"paddd %%mm4, %%mm2			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm5			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm0, %%mm3			\n\t" /* B3		b3 */\
-	"paddd %%mm3, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm3, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm2, %%mm2			\n\t" /* A2+B2	a2+b2 */\
-	"packssdw %%mm6, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movd %%mm2, 32+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A3-B3	a3-b3 */\
-	"packssdw %%mm5, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movd %%mm6, 48+" #dst "		\n\t"\
-	"movd %%mm4, 64+" #dst "		\n\t"\
-	"movd %%mm5, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq " #src5 ", %%mm3          \n\t" /* R7     R5      r7      r5 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        #rounder ", %%mm0               \n\t"\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 56(%2), %%mm1             \n\t" /* C7     C5      C7      C5 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* C7R7+C5R5      C7r7+C5r5 */\
+        "pmaddwd 64(%2), %%mm2          \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm1, %%mm7             \n\t" /* B0             b0 */\
+        "movq 72(%2), %%mm1             \n\t" /* -C5    -C1     -C5     -C1 */\
+        "pmaddwd %%mm3, %%mm1           \n\t" /* -C5R7-C1R5     -C5r7-C1r5 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "paddd %%mm2, %%mm1             \n\t" /* B1             b1 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm0, %%mm2              \n\t" /* A1             a1 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm1, %%mm2             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm7, %%mm7          \n\t" /* A0+B0  a0+b0 */\
+        "movd %%mm7, " #dst "           \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t" /* A1+B1  a1+b1 */\
+        "movd %%mm0, 16+" #dst "        \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A1-B1  a1-b1 */\
+        "movd %%mm2, 96+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A0-B0  a0-b0 */\
+        "movd %%mm4, 112+" #dst "       \n\t"\
+        "movq " #src1 ", %%mm0          \n\t" /* R3     R1      r3      r1 */\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "movq 88(%2), %%mm7             \n\t" /* C3     C7      C3      C7 */\
+        "pmaddwd 96(%2), %%mm0          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C3R7+C7R5      C3r7+C7r5 */\
+        "movq %%mm5, %%mm2              \n\t" /* A2             a2 */\
+        "pmaddwd 104(%2), %%mm3         \n\t" /* -C1R7+C3R5     -C1r7+C3r5 */\
+        "paddd %%mm7, %%mm4             \n\t" /* B2             b2 */\
+        "paddd %%mm4, %%mm2             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm5             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm0, %%mm3             \n\t" /* B3             b3 */\
+        "paddd %%mm3, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm3, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm2, %%mm2          \n\t" /* A2+B2  a2+b2 */\
+        "packssdw %%mm6, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movd %%mm2, 32+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A3-B3  a3-b3 */\
+        "packssdw %%mm5, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movd %%mm6, 48+" #dst "        \n\t"\
+        "movd %%mm4, 64+" #dst "        \n\t"\
+        "movd %%mm5, 80+" #dst "        \n\t"
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
 IDCT(    (%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
 IDCT(   8(%1), 72(%1), 40(%1), 104(%1),  4(%0),/nop, 20)
 IDCT(  16(%1), 80(%1), 48(%1), 112(%1),  8(%0),/nop, 20)
 IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
-	"jmp 9f					\n\t"
+        "jmp 9f                         \n\t"
 
-	"#.balign 16				\n\t"\
-	"3:					\n\t"
+        "#.balign 16                    \n\t"\
+        "3:                             \n\t"
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	#rounder ", %%mm0			\n\t"\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 64(%2), %%mm3			\n\t"\
-	"pmaddwd %%mm2, %%mm3			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm0, %%mm1			\n\t" /* A1		a1 */\
-	"paddd %%mm3, %%mm0			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm3, %%mm1			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"packssdw %%mm7, %%mm7			\n\t" /* A0+B0	a0+b0 */\
-	"movd %%mm7, " #dst "			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t" /* A1+B1	a1+b1 */\
-	"movd %%mm0, 16+" #dst "		\n\t"\
-	"packssdw %%mm1, %%mm1			\n\t" /* A1-B1	a1-b1 */\
-	"movd %%mm1, 96+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A0-B0	a0-b0 */\
-	"movd %%mm4, 112+" #dst "		\n\t"\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"pmaddwd %%mm2, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"pmaddwd 96(%2), %%mm2			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"movq %%mm5, %%mm1			\n\t" /* A2		a2 */\
-	"paddd %%mm4, %%mm1			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm5			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm2, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm2, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm1, %%mm1			\n\t" /* A2+B2	a2+b2 */\
-	"packssdw %%mm6, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movd %%mm1, 32+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A3-B3	a3-b3 */\
-	"packssdw %%mm5, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movd %%mm6, 48+" #dst "		\n\t"\
-	"movd %%mm4, 64+" #dst "		\n\t"\
-	"movd %%mm5, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        #rounder ", %%mm0               \n\t"\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 64(%2), %%mm3             \n\t"\
+        "pmaddwd %%mm2, %%mm3           \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm0, %%mm1              \n\t" /* A1             a1 */\
+        "paddd %%mm3, %%mm0             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm3, %%mm1             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "packssdw %%mm7, %%mm7          \n\t" /* A0+B0  a0+b0 */\
+        "movd %%mm7, " #dst "           \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t" /* A1+B1  a1+b1 */\
+        "movd %%mm0, 16+" #dst "        \n\t"\
+        "packssdw %%mm1, %%mm1          \n\t" /* A1-B1  a1-b1 */\
+        "movd %%mm1, 96+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A0-B0  a0-b0 */\
+        "movd %%mm4, 112+" #dst "       \n\t"\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "pmaddwd %%mm2, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "pmaddwd 96(%2), %%mm2          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "movq %%mm5, %%mm1              \n\t" /* A2             a2 */\
+        "paddd %%mm4, %%mm1             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm5             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm2, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm2, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm1, %%mm1          \n\t" /* A2+B2  a2+b2 */\
+        "packssdw %%mm6, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movd %%mm1, 32+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A3-B3  a3-b3 */\
+        "packssdw %%mm5, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movd %%mm6, 48+" #dst "        \n\t"\
+        "movd %%mm4, 64+" #dst "        \n\t"\
+        "movd %%mm5, 80+" #dst "        \n\t"
 
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
@@ -1077,67 +1077,67 @@ IDCT(    (%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
 IDCT(   8(%1), 72(%1), 40(%1), 104(%1),  4(%0),/nop, 20)
 IDCT(  16(%1), 80(%1), 48(%1), 112(%1),  8(%0),/nop, 20)
 IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
-	"jmp 9f					\n\t"
+        "jmp 9f                         \n\t"
 
-	"#.balign 16				\n\t"\
-	"5:					\n\t"
+        "#.balign 16                    \n\t"\
+        "5:                             \n\t"
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	#rounder ", %%mm0			\n\t"\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1		a1 */\
-	"psubd %%mm1, %%mm5			\n\t" /* A2		a2 */\
-	"movq 8+" #src0 ", %%mm2		\n\t" /* R4	R0	r4	r0 */\
-	"movq 8+" #src4 ", %%mm3		\n\t" /* R6	R2	r6	r2 */\
-	"movq 16(%2), %%mm1			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm2, %%mm1			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm7			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm7, %%mm2			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm7			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm3, %%mm7			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"pmaddwd 40(%2), %%mm3			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	#rounder ", %%mm1			\n\t"\
-	"paddd %%mm1, %%mm7			\n\t" /* A0		a0 */\
-	"paddd %%mm1, %%mm1			\n\t" /* 2C0		2c0 */\
-	#rounder ", %%mm2			\n\t"\
-	"psubd %%mm7, %%mm1			\n\t" /* A3		a3 */\
-	"paddd %%mm2, %%mm3			\n\t" /* A1		a1 */\
-	"paddd %%mm2, %%mm2			\n\t" /* 2C1		2c1 */\
-	"psubd %%mm3, %%mm2			\n\t" /* A2		a2 */\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm3		\n\t"\
-	"packssdw %%mm7, %%mm4			\n\t" /* A0	a0 */\
-	"movq %%mm4, " #dst "			\n\t"\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"packssdw %%mm3, %%mm0			\n\t" /* A1	a1 */\
-	"movq %%mm0, 16+" #dst "		\n\t"\
-	"movq %%mm0, 96+" #dst "		\n\t"\
-	"movq %%mm4, 112+" #dst "		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm2, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movq %%mm5, 32+" #dst "		\n\t"\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"packssdw %%mm1, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movq %%mm6, 48+" #dst "		\n\t"\
-	"movq %%mm6, 64+" #dst "		\n\t"\
-	"movq %%mm5, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        #rounder ", %%mm0               \n\t"\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1             a1 */\
+        "psubd %%mm1, %%mm5             \n\t" /* A2             a2 */\
+        "movq 8+" #src0 ", %%mm2        \n\t" /* R4     R0      r4      r0 */\
+        "movq 8+" #src4 ", %%mm3        \n\t" /* R6     R2      r6      r2 */\
+        "movq 16(%2), %%mm1             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm2, %%mm1           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm7             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm7, %%mm2           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm7             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm3, %%mm7           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "pmaddwd 40(%2), %%mm3          \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        #rounder ", %%mm1               \n\t"\
+        "paddd %%mm1, %%mm7             \n\t" /* A0             a0 */\
+        "paddd %%mm1, %%mm1             \n\t" /* 2C0            2c0 */\
+        #rounder ", %%mm2               \n\t"\
+        "psubd %%mm7, %%mm1             \n\t" /* A3             a3 */\
+        "paddd %%mm2, %%mm3             \n\t" /* A1             a1 */\
+        "paddd %%mm2, %%mm2             \n\t" /* 2C1            2c1 */\
+        "psubd %%mm3, %%mm2             \n\t" /* A2             a2 */\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm3       \n\t"\
+        "packssdw %%mm7, %%mm4          \n\t" /* A0     a0 */\
+        "movq %%mm4, " #dst "           \n\t"\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "packssdw %%mm3, %%mm0          \n\t" /* A1     a1 */\
+        "movq %%mm0, 16+" #dst "        \n\t"\
+        "movq %%mm0, 96+" #dst "        \n\t"\
+        "movq %%mm4, 112+" #dst "       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm2, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movq %%mm5, 32+" #dst "        \n\t"\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "packssdw %%mm1, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movq %%mm6, 48+" #dst "        \n\t"\
+        "movq %%mm6, 64+" #dst "        \n\t"\
+        "movq %%mm5, 80+" #dst "        \n\t"
 
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
@@ -1145,75 +1145,75 @@ IDCT(    0(%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
 //IDCT(   8(%1), 72(%1), 40(%1), 104(%1),  4(%0),/nop, 20)
 IDCT(  16(%1), 80(%1), 48(%1), 112(%1),  8(%0),/nop, 20)
 //IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
-	"jmp 9f					\n\t"
+        "jmp 9f                         \n\t"
 
 
-	"#.balign 16				\n\t"\
-	"1:					\n\t"
+        "#.balign 16                    \n\t"\
+        "1:                             \n\t"
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq " #src4 ", %%mm1			\n\t" /* R6	R2	r6	r2 */\
-	"movq " #src1 ", %%mm2			\n\t" /* R3	R1	r3	r1 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm5			\n\t" /* C6	C2	C6	C2 */\
-	"pmaddwd %%mm1, %%mm5			\n\t" /* C6R6+C2R2	C6r6+C2r2 */\
-	"movq 40(%2), %%mm6			\n\t" /* -C2	C6	-C2	C6 */\
-	"pmaddwd %%mm6, %%mm1			\n\t" /* -C2R6+C6R2	-C2r6+C6r2 */\
-	#rounder ", %%mm4			\n\t"\
-	"movq %%mm4, %%mm6			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 48(%2), %%mm7			\n\t" /* C3	C1	C3	C1 */\
-	#rounder ", %%mm0			\n\t"\
-	"pmaddwd %%mm2, %%mm7			\n\t" /* C3R3+C1R1	C3r3+C1r1 */\
-	"paddd %%mm5, %%mm4			\n\t" /* A0		a0 */\
-	"psubd %%mm5, %%mm6			\n\t" /* A3		a3 */\
-	"movq %%mm0, %%mm5			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1		a1 */\
-	"psubd %%mm1, %%mm5			\n\t" /* A2		a2 */\
-	"movq 64(%2), %%mm1			\n\t"\
-	"pmaddwd %%mm2, %%mm1			\n\t" /* -C7R3+C3R1	-C7r3+C3r1 */\
-	"paddd %%mm4, %%mm7			\n\t" /* A0+B0		a0+b0 */\
-	"paddd %%mm4, %%mm4			\n\t" /* 2A0		2a0 */\
-	"psubd %%mm7, %%mm4			\n\t" /* A0-B0		a0-b0 */\
-	"psrad $" #shift ", %%mm7		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"movq %%mm0, %%mm3			\n\t" /* A1		a1 */\
-	"paddd %%mm1, %%mm0			\n\t" /* A1+B1		a1+b1 */\
-	"psubd %%mm1, %%mm3			\n\t" /* A1-B1		a1-b1 */\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"psrad $" #shift ", %%mm3		\n\t"\
-	"packssdw %%mm7, %%mm7			\n\t" /* A0+B0	a0+b0 */\
-	"movd %%mm7, " #dst "			\n\t"\
-	"packssdw %%mm0, %%mm0			\n\t" /* A1+B1	a1+b1 */\
-	"movd %%mm0, 16+" #dst "		\n\t"\
-	"packssdw %%mm3, %%mm3			\n\t" /* A1-B1	a1-b1 */\
-	"movd %%mm3, 96+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A0-B0	a0-b0 */\
-	"movd %%mm4, 112+" #dst "		\n\t"\
-	"movq 80(%2), %%mm4			\n\t" /* -C1	C5	-C1 	C5 */\
-	"pmaddwd %%mm2, %%mm4			\n\t" /* -C1R3+C5R1	-C1r3+C5r1 */\
-	"pmaddwd 96(%2), %%mm2			\n\t" /* -C5R3+C7R1	-C5r3+C7r1 */\
-	"movq %%mm5, %%mm3			\n\t" /* A2		a2 */\
-	"paddd %%mm4, %%mm3			\n\t" /* A2+B2		a2+b2 */\
-	"psubd %%mm4, %%mm5			\n\t" /* a2-B2		a2-b2 */\
-	"psrad $" #shift ", %%mm3		\n\t"\
-	"psrad $" #shift ", %%mm5		\n\t"\
-	"movq %%mm6, %%mm4			\n\t" /* A3		a3 */\
-	"paddd %%mm2, %%mm6			\n\t" /* A3+B3		a3+b3 */\
-	"psubd %%mm2, %%mm4			\n\t" /* a3-B3		a3-b3 */\
-	"psrad $" #shift ", %%mm6		\n\t"\
-	"packssdw %%mm3, %%mm3			\n\t" /* A2+B2	a2+b2 */\
-	"movd %%mm3, 32+" #dst "		\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"packssdw %%mm6, %%mm6			\n\t" /* A3+B3	a3+b3 */\
-	"movd %%mm6, 48+" #dst "		\n\t"\
-	"packssdw %%mm4, %%mm4			\n\t" /* A3-B3	a3-b3 */\
-	"packssdw %%mm5, %%mm5			\n\t" /* A2-B2	a2-b2 */\
-	"movd %%mm4, 64+" #dst "		\n\t"\
-	"movd %%mm5, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq " #src4 ", %%mm1          \n\t" /* R6     R2      r6      r2 */\
+        "movq " #src1 ", %%mm2          \n\t" /* R3     R1      r3      r1 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm5             \n\t" /* C6     C2      C6      C2 */\
+        "pmaddwd %%mm1, %%mm5           \n\t" /* C6R6+C2R2      C6r6+C2r2 */\
+        "movq 40(%2), %%mm6             \n\t" /* -C2    C6      -C2     C6 */\
+        "pmaddwd %%mm6, %%mm1           \n\t" /* -C2R6+C6R2     -C2r6+C6r2 */\
+        #rounder ", %%mm4               \n\t"\
+        "movq %%mm4, %%mm6              \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 48(%2), %%mm7             \n\t" /* C3     C1      C3      C1 */\
+        #rounder ", %%mm0               \n\t"\
+        "pmaddwd %%mm2, %%mm7           \n\t" /* C3R3+C1R1      C3r3+C1r1 */\
+        "paddd %%mm5, %%mm4             \n\t" /* A0             a0 */\
+        "psubd %%mm5, %%mm6             \n\t" /* A3             a3 */\
+        "movq %%mm0, %%mm5              \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1             a1 */\
+        "psubd %%mm1, %%mm5             \n\t" /* A2             a2 */\
+        "movq 64(%2), %%mm1             \n\t"\
+        "pmaddwd %%mm2, %%mm1           \n\t" /* -C7R3+C3R1     -C7r3+C3r1 */\
+        "paddd %%mm4, %%mm7             \n\t" /* A0+B0          a0+b0 */\
+        "paddd %%mm4, %%mm4             \n\t" /* 2A0            2a0 */\
+        "psubd %%mm7, %%mm4             \n\t" /* A0-B0          a0-b0 */\
+        "psrad $" #shift ", %%mm7       \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "movq %%mm0, %%mm3              \n\t" /* A1             a1 */\
+        "paddd %%mm1, %%mm0             \n\t" /* A1+B1          a1+b1 */\
+        "psubd %%mm1, %%mm3             \n\t" /* A1-B1          a1-b1 */\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "psrad $" #shift ", %%mm3       \n\t"\
+        "packssdw %%mm7, %%mm7          \n\t" /* A0+B0  a0+b0 */\
+        "movd %%mm7, " #dst "           \n\t"\
+        "packssdw %%mm0, %%mm0          \n\t" /* A1+B1  a1+b1 */\
+        "movd %%mm0, 16+" #dst "        \n\t"\
+        "packssdw %%mm3, %%mm3          \n\t" /* A1-B1  a1-b1 */\
+        "movd %%mm3, 96+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A0-B0  a0-b0 */\
+        "movd %%mm4, 112+" #dst "       \n\t"\
+        "movq 80(%2), %%mm4             \n\t" /* -C1    C5      -C1     C5 */\
+        "pmaddwd %%mm2, %%mm4           \n\t" /* -C1R3+C5R1     -C1r3+C5r1 */\
+        "pmaddwd 96(%2), %%mm2          \n\t" /* -C5R3+C7R1     -C5r3+C7r1 */\
+        "movq %%mm5, %%mm3              \n\t" /* A2             a2 */\
+        "paddd %%mm4, %%mm3             \n\t" /* A2+B2          a2+b2 */\
+        "psubd %%mm4, %%mm5             \n\t" /* a2-B2          a2-b2 */\
+        "psrad $" #shift ", %%mm3       \n\t"\
+        "psrad $" #shift ", %%mm5       \n\t"\
+        "movq %%mm6, %%mm4              \n\t" /* A3             a3 */\
+        "paddd %%mm2, %%mm6             \n\t" /* A3+B3          a3+b3 */\
+        "psubd %%mm2, %%mm4             \n\t" /* a3-B3          a3-b3 */\
+        "psrad $" #shift ", %%mm6       \n\t"\
+        "packssdw %%mm3, %%mm3          \n\t" /* A2+B2  a2+b2 */\
+        "movd %%mm3, 32+" #dst "        \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "packssdw %%mm6, %%mm6          \n\t" /* A3+B3  a3+b3 */\
+        "movd %%mm6, 48+" #dst "        \n\t"\
+        "packssdw %%mm4, %%mm4          \n\t" /* A3-B3  a3-b3 */\
+        "packssdw %%mm5, %%mm5          \n\t" /* A2-B2  a2-b2 */\
+        "movd %%mm4, 64+" #dst "        \n\t"\
+        "movd %%mm5, 80+" #dst "        \n\t"
 
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
@@ -1221,42 +1221,42 @@ IDCT(    (%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
 IDCT(   8(%1), 72(%1), 40(%1), 104(%1),  4(%0),/nop, 20)
 IDCT(  16(%1), 80(%1), 48(%1), 112(%1),  8(%0),/nop, 20)
 IDCT(  24(%1), 88(%1), 56(%1), 120(%1), 12(%0),/nop, 20)
-	"jmp 9f					\n\t"
+        "jmp 9f                         \n\t"
 
 
-	"#.balign 16				\n\t"
-	"7:					\n\t"
+        "#.balign 16                    \n\t"
+        "7:                             \n\t"
 #undef IDCT
 #define IDCT(src0, src4, src1, src5, dst, rounder, shift) \
-	"movq " #src0 ", %%mm0			\n\t" /* R4	R0	r4	r0 */\
-	"movq 16(%2), %%mm4			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm0, %%mm4			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm5			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm5, %%mm0			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	#rounder ", %%mm4			\n\t"\
-	#rounder ", %%mm0			\n\t"\
-	"psrad $" #shift ", %%mm4		\n\t"\
-	"psrad $" #shift ", %%mm0		\n\t"\
-	"movq 8+" #src0 ", %%mm2		\n\t" /* R4	R0	r4	r0 */\
-	"movq 16(%2), %%mm1			\n\t" /* C4	C4	C4	C4 */\
-	"pmaddwd %%mm2, %%mm1			\n\t" /* C4R4+C4R0	C4r4+C4r0 */\
-	"movq 24(%2), %%mm7			\n\t" /* -C4	C4	-C4	C4 */\
-	"pmaddwd %%mm7, %%mm2			\n\t" /* -C4R4+C4R0	-C4r4+C4r0 */\
-	"movq 32(%2), %%mm7			\n\t" /* C6	C2	C6	C2 */\
-	#rounder ", %%mm1			\n\t"\
-	#rounder ", %%mm2			\n\t"\
-	"psrad $" #shift ", %%mm1		\n\t"\
-	"packssdw %%mm1, %%mm4			\n\t" /* A0	a0 */\
-	"movq %%mm4, " #dst "			\n\t"\
-	"psrad $" #shift ", %%mm2		\n\t"\
-	"packssdw %%mm2, %%mm0			\n\t" /* A1	a1 */\
-	"movq %%mm0, 16+" #dst "		\n\t"\
-	"movq %%mm0, 96+" #dst "		\n\t"\
-	"movq %%mm4, 112+" #dst "		\n\t"\
-	"movq %%mm0, 32+" #dst "		\n\t"\
-	"movq %%mm4, 48+" #dst "		\n\t"\
-	"movq %%mm4, 64+" #dst "		\n\t"\
-	"movq %%mm0, 80+" #dst "		\n\t"
+        "movq " #src0 ", %%mm0          \n\t" /* R4     R0      r4      r0 */\
+        "movq 16(%2), %%mm4             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm0, %%mm4           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm5             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm5, %%mm0           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        #rounder ", %%mm4               \n\t"\
+        #rounder ", %%mm0               \n\t"\
+        "psrad $" #shift ", %%mm4       \n\t"\
+        "psrad $" #shift ", %%mm0       \n\t"\
+        "movq 8+" #src0 ", %%mm2        \n\t" /* R4     R0      r4      r0 */\
+        "movq 16(%2), %%mm1             \n\t" /* C4     C4      C4      C4 */\
+        "pmaddwd %%mm2, %%mm1           \n\t" /* C4R4+C4R0      C4r4+C4r0 */\
+        "movq 24(%2), %%mm7             \n\t" /* -C4    C4      -C4     C4 */\
+        "pmaddwd %%mm7, %%mm2           \n\t" /* -C4R4+C4R0     -C4r4+C4r0 */\
+        "movq 32(%2), %%mm7             \n\t" /* C6     C2      C6      C2 */\
+        #rounder ", %%mm1               \n\t"\
+        #rounder ", %%mm2               \n\t"\
+        "psrad $" #shift ", %%mm1       \n\t"\
+        "packssdw %%mm1, %%mm4          \n\t" /* A0     a0 */\
+        "movq %%mm4, " #dst "           \n\t"\
+        "psrad $" #shift ", %%mm2       \n\t"\
+        "packssdw %%mm2, %%mm0          \n\t" /* A1     a1 */\
+        "movq %%mm0, 16+" #dst "        \n\t"\
+        "movq %%mm0, 96+" #dst "        \n\t"\
+        "movq %%mm4, 112+" #dst "       \n\t"\
+        "movq %%mm0, 32+" #dst "        \n\t"\
+        "movq %%mm4, 48+" #dst "        \n\t"\
+        "movq %%mm4, 64+" #dst "        \n\t"\
+        "movq %%mm0, 80+" #dst "        \n\t"
 
 //IDCT(  src0,   src4,   src1,    src5,    dst, rounder, shift)
 IDCT(   0(%1), 64(%1), 32(%1),  96(%1),  0(%0),/nop, 20)
@@ -1290,9 +1290,9 @@ Temp
 */
 
 "9: \n\t"
-		:: "r" (block), "r" (temp), "r" (coeffs)
-		: "%eax"
-	);
+                :: "r" (block), "r" (temp), "r" (coeffs)
+                : "%eax"
+        );
 }
 
 void ff_simple_idct_mmx(int16_t *block)
author	Diego Biurrun <diego@biurrun.de>	2005-12-22 01:10:11 +0000
committer	Diego Biurrun <diego@biurrun.de>	2005-12-22 01:10:11 +0000
commit	bb270c0896b39e1ae9277355e3c120ed3feb64a3 (patch)
tree	fc2fc2b1216d19acb3879abb6ea5a3b400f43fe4 /libavcodec/i386
parent	50827fcf44f34521df4708cdb633809b56fb9df3 (diff)