Get in touch
or send us a question?
CONTACT

MiniMax M2.7 so với Claude Opus 4.6

MiniMax M2.7 ra mắt vào ngày 18 tháng 3 với điểm số 56.22% trên SWE-Pro, ngang ngửa Claude Opus 4.6. Chúng tôi đã chạy cả hai mô hình qua ba nhiệm vụ lập trình thực tế trong Kilo Code để xem liệu số điểm benchmark có phản ánh đúng hiệu suất thực tế hay không.

Về giá cả, MiniMax M2.7 có mức giá $0.30 / $1.20 mỗi triệu token (input/output), so với $5 / $25 của Claude Opus 4.6 — tức là rẻ hơn khoảng 17 lần ở input và 21 lần ở output.

TL;DR: Cả hai mô hình đều tìm ra toàn bộ 6 bug10 lỗ hổng bảo mật trong bài kiểm tra. Claude Opus 4.6 đưa ra các bản fix chi tiết hơn và viết gấp 2 lần số lượng test. MiniMax M2.7 đạt 90% chất lượng so với Claude chỉ với 7% chi phí ($0.27 so với $3.67).

Thiết kế bài kiểm tra

Chúng tôi tạo ra ba codebase TypeScript và chạy cả hai mô hình ở chế độ Code mode trong Kilo Code (extension cho VS Code). Mỗi mô hình nhận cùng một prompt, không có gợi ý thêm. Chúng tôi chấm điểm độc lập sau khi hoàn thành tất cả các bài kiểm tra.

  • Test 1: Hệ thống xử lý sự kiện Full-Stack (35 điểm) — Xây dựng toàn bộ hệ thống từ spec, bao gồm pipeline async, streaming WebSocket và rate limiting.
  • Test 2: Điều tra Bug từ triệu chứng (30 điểm) — Trace 6 bug từ log production đến nguyên nhân gốc rễ và sửa chúng.
  • Test 3: Kiểm toán Bảo mật (35 điểm) — Tìm và sửa 10 lỗ hổng bảo mật đã được trồng sẵn trong một API hợp tác nhóm.

Test 1: Hệ thống xử lý sự kiện Full-Stack

Chúng tôi đưa cho cả hai mô hình prompt sau:

“Build a real-time event processing system in TypeScript from the specification in @SPEC.md. Use Hono for the web framework, Prisma with SQLite for the database, Zod for input validation, and ws for WebSocket support.”

Spec yêu cầu 7 thành phần: API tiếp nhận sự kiện với xác thực API key, pipeline xử lý async có retry exponential backoff, lưu trữ sự kiện kèm lịch sử xử lý, API query có phân trang và lọc, endpoint WebSocket để stream thời gian thực, rate limiting theo từng key, và các endpoint health/metrics.

Cả hai mô hình đều triển khai đủ 7 thành phần. Sự khác biệt nằm ở tổ chức code và độ phủ của test.

Kiến trúc

Claude Opus 4.6 tạo cấu trúc thư mục modular với các thư mục riêng biệt cho routes, pipeline, middleware và quản lý WebSocket. Nó tách logic xử lý thành các file riêng cho queue management (có retry scheduling và dead-letter routing) và event handlers theo từng loại. Nó còn thêm graceful shutdown kèm cleanup timer.

MiniMax M2.7 dùng cấu trúc phẳng hơn với ít file hơn. Toàn bộ routing nằm trong một file entry, và processor đơn giản hơn, không có quản lý shutdown hay theo dõi timer.

Độ phủ test

Claude Opus 4.6 viết 41 integration tests với database test riêng và cleanup đúng cách giữa các test. Các test này thực hiện HTTP request thật để kiểm tra toàn bộ middleware chain end-to-end.

MiniMax M2.7 viết 20 unit tests chỉ kiểm tra trực tiếp Zod schemas và các handler functions. Những test này bao quát logic cốt lõi nhưng không kiểm tra API endpoints hay middleware qua HTTP, nên lỗi routing hoặc middleware có thể bị sót.

Điểm Test 1

Claude Opus 4.6 bị trừ 2 điểm vì không sinh README (spec có yêu cầu). MiniMax M2.7 có sinh README nhưng bị trừ điểm về kiến trúc và độ phủ test.

Test 2: Điều tra Bug từ triệu chứng

Chúng tôi xây dựng một hệ thống xử lý đơn hàng với 4 module liên kết nhau (gateway, orders, inventory, notifications) và trồng sẵn 6 bug. Chúng tôi đưa cho cả hai mô hình toàn bộ codebase, file log production hiển thị triệu chứng, và memory profile cho thấy tình trạng tăng bộ nhớ. Prompt liệt kê 6 triệu chứng và yêu cầu tìm nguyên nhân gốc rễ rồi sửa.

Cả hai mô hình đều tìm ra toàn bộ 6 nguyên nhân gốc rễ.

Bug #1: Race Condition trong Inventory

Kiểm tra stock trước, sau đó reserve trong một transaction riêng. Hai đơn hàng đồng thời có thể cùng vượt qua bước kiểm tra trước khi reserve. Cả hai mô hình đều phát hiện từ log và sửa bằng cách làm cho việc reserve trở nên atomic.

  • Claude Opus 4.6 còn thêm rollback logic: nếu reserve stock cho một món trong đơn hàng nhiều món thất bại, nó sẽ release các món đã reserve thành công và đánh dấu đơn hàng là “failed”.
  • MiniMax M2.7 chỉ làm atomic mà không có rollback, nên partial failure có thể để lại reservation “mồ côi”.

Bug #4: Tính tổng bằng Floating-Point

Việc tính tổng đơn hàng dùng số thực thông thường, dẫn đến kết quả như 159.92000000000002. Log hiển thị nhiều cảnh báo “Total validation warning”.

  • Claude Opus 4.6 làm tròn kết quả sau khi tính.
  • MiniMax M2.7 chuyển sang dùng toán học số nguyên (cents), triệt tiêu hoàn toàn vấn đề độ chính xác.

→ Cách làm của MiniMax M2.7 ở bug này thực sự tốt hơn.

Các bug còn lại

Cả hai mô hình sửa 4 bug còn lại theo cách tương tự:

  • Bug #2 (Notification ordering): Thêm kiểm tra status trước khi gửi email xác nhận.
  • Bug #3 (Memory leak): Xóa event listener không được cleanup.
  • Bug #5 (Stale inventory cache): Thêm cache invalidation sau khi cập nhật stock.
  • Bug #6 (Token revocation bypass): Xóa tối ưu hóa “5 phút” bỏ qua kiểm tra revocation.

Cả hai đều verify fix bằng cách chạy curl request.

Test 3: Kiểm toán Bảo mật

Chúng tôi xây dựng một Team Collaboration API (Hono + Prisma + SQLite) với 10 lỗ hổng bảo mật được trồng sẵn. Chúng tôi yêu cầu cả hai mô hình audit codebase, phân loại theo OWASP, giải thích vector tấn công, đánh giá độ nghiêm trọng và đưa ra bản fix.

Cả hai mô hình đều tìm ra đủ 10 lỗ hổng với phân loại OWASP đúng. Khoảng cách 4 điểm hoàn toàn nằm ở chất lượng bản fix.

Những điểm khác biệt trong cách fix

  • Password hashing: Claude dùng scrypt + random salt + timing-safe compare. MiniMax dùng SHA-256 với JWT secret làm salt và tự nhận xét rằng nên dùng bcrypt.
  • Insecure deserialization: Cả hai đều bỏ eval(). Claude thay bằng hệ thống mapping JSON an toàn. MiniMax thì tắt luôn chức năng transform.
  • SSRF protection: Claude validate webhook URL ở cả lúc tạo, cập nhật và gửi. MiniMax chỉ validate lúc gửi.
  • Rate limiting: Claude áp dụng giới hạn riêng cho từng endpoint (login, register, password reset). MiniMax chỉ giới hạn endpoint login.
  • JWT fix: Cả hai đều chuyển secret cứng sang biến môi trường. Claude dùng cơ chế hết hạn có sẵn của jwt.verify(). MiniMax sửa phần so sánh thủ công (vẫn hoạt động nhưng thừa).

Kết quả tổng thể

Bức tranh lớn hơn

Chúng tôi đã thử nghiệm các mô hình MiniMax từ phiên bản M2 vào tháng 11 năm ngoái. Các phiên bản trước cạnh tranh với các mô hình open-weight khác như GLM-4.7 và GLM-5. Mỗi lần ra phiên bản mới, điểm số tăng dần trong khi chi phí vẫn rất thấp.

Hiện tại, MiniMax M2.5 là mô hình được sử dụng nhiều nhất trên Kilo Code (vượt cả Claude Opus 4.6, GLM-5 và GPT-5.4). Trong Code mode chiếm 37% tổng usage, Ask mode chiếm 35%.

MiniMax M2.7 là phiên bản đầu tiên mà chúng tôi cảm thấy nên so sánh trực tiếp với các frontier model thay vì chỉ so với các mô hình open-weight khác. Nó đã bắt kịp tỷ lệ phát hiện của Claude Opus 4.6 trên mọi bài kiểm tra, tìm ra cùng các bug và cùng các lỗ hổng bảo mật.


Kết luận ngầm của bài viết: MiniMax M2.7 mang lại hiệu suất gần bằng Claude Opus 4.6 (khoảng 90%) với chi phí chỉ bằng ~7%, đây là một bước tiến rất đáng kể về mặt giá trị (value for money) trong lĩnh vực mô hình AI lập trình. Các mô hình không còn cách biệt nhau quá lớn và việc các nhà cung cấp liên tục ép hạn mức quota, việc sử dụng các mô hình yếu hơn 1 chút chỉ giảm 10% hiệu năng nhưng lại cải thiện 80% về giá là rất đáng cân nhắc.

Link bài viết gốc có thể tham khảo : https://blog.kilo.ai/p/we-tested-minimax-m27-against-claude