MiniMax M2.7 ra mắt vào ngày 18 tháng 3 với điểm số 56.22% trên SWE-Pro, ngang ngửa Claude Opus 4.6. Chúng tôi đã chạy cả hai mô hình qua ba nhiệm vụ lập trình thực tế trong Kilo Code để xem liệu số điểm benchmark có phản ánh đúng hiệu suất thực tế hay không.
Về giá cả, MiniMax M2.7 có mức giá $0.30 / $1.20 mỗi triệu token (input/output), so với $5 / $25 của Claude Opus 4.6 — tức là rẻ hơn khoảng 17 lần ở input và 21 lần ở output.
TL;DR: Cả hai mô hình đều tìm ra toàn bộ 6 bug và 10 lỗ hổng bảo mật trong bài kiểm tra. Claude Opus 4.6 đưa ra các bản fix chi tiết hơn và viết gấp 2 lần số lượng test. MiniMax M2.7 đạt 90% chất lượng so với Claude chỉ với 7% chi phí ($0.27 so với $3.67).
Chúng tôi tạo ra ba codebase TypeScript và chạy cả hai mô hình ở chế độ Code mode trong Kilo Code (extension cho VS Code). Mỗi mô hình nhận cùng một prompt, không có gợi ý thêm. Chúng tôi chấm điểm độc lập sau khi hoàn thành tất cả các bài kiểm tra.
Chúng tôi đưa cho cả hai mô hình prompt sau:
“Build a real-time event processing system in TypeScript from the specification in @SPEC.md. Use Hono for the web framework, Prisma with SQLite for the database, Zod for input validation, and ws for WebSocket support.”
Spec yêu cầu 7 thành phần: API tiếp nhận sự kiện với xác thực API key, pipeline xử lý async có retry exponential backoff, lưu trữ sự kiện kèm lịch sử xử lý, API query có phân trang và lọc, endpoint WebSocket để stream thời gian thực, rate limiting theo từng key, và các endpoint health/metrics.
Cả hai mô hình đều triển khai đủ 7 thành phần. Sự khác biệt nằm ở tổ chức code và độ phủ của test.
Claude Opus 4.6 tạo cấu trúc thư mục modular với các thư mục riêng biệt cho routes, pipeline, middleware và quản lý WebSocket. Nó tách logic xử lý thành các file riêng cho queue management (có retry scheduling và dead-letter routing) và event handlers theo từng loại. Nó còn thêm graceful shutdown kèm cleanup timer.
MiniMax M2.7 dùng cấu trúc phẳng hơn với ít file hơn. Toàn bộ routing nằm trong một file entry, và processor đơn giản hơn, không có quản lý shutdown hay theo dõi timer.
Claude Opus 4.6 viết 41 integration tests với database test riêng và cleanup đúng cách giữa các test. Các test này thực hiện HTTP request thật để kiểm tra toàn bộ middleware chain end-to-end.
MiniMax M2.7 viết 20 unit tests chỉ kiểm tra trực tiếp Zod schemas và các handler functions. Những test này bao quát logic cốt lõi nhưng không kiểm tra API endpoints hay middleware qua HTTP, nên lỗi routing hoặc middleware có thể bị sót.
Claude Opus 4.6 bị trừ 2 điểm vì không sinh README (spec có yêu cầu). MiniMax M2.7 có sinh README nhưng bị trừ điểm về kiến trúc và độ phủ test.
Chúng tôi xây dựng một hệ thống xử lý đơn hàng với 4 module liên kết nhau (gateway, orders, inventory, notifications) và trồng sẵn 6 bug. Chúng tôi đưa cho cả hai mô hình toàn bộ codebase, file log production hiển thị triệu chứng, và memory profile cho thấy tình trạng tăng bộ nhớ. Prompt liệt kê 6 triệu chứng và yêu cầu tìm nguyên nhân gốc rễ rồi sửa.
Cả hai mô hình đều tìm ra toàn bộ 6 nguyên nhân gốc rễ.
Kiểm tra stock trước, sau đó reserve trong một transaction riêng. Hai đơn hàng đồng thời có thể cùng vượt qua bước kiểm tra trước khi reserve. Cả hai mô hình đều phát hiện từ log và sửa bằng cách làm cho việc reserve trở nên atomic.
Việc tính tổng đơn hàng dùng số thực thông thường, dẫn đến kết quả như 159.92000000000002. Log hiển thị nhiều cảnh báo “Total validation warning”.
→ Cách làm của MiniMax M2.7 ở bug này thực sự tốt hơn.
Cả hai mô hình sửa 4 bug còn lại theo cách tương tự:
Cả hai đều verify fix bằng cách chạy curl request.
Chúng tôi xây dựng một Team Collaboration API (Hono + Prisma + SQLite) với 10 lỗ hổng bảo mật được trồng sẵn. Chúng tôi yêu cầu cả hai mô hình audit codebase, phân loại theo OWASP, giải thích vector tấn công, đánh giá độ nghiêm trọng và đưa ra bản fix.
Cả hai mô hình đều tìm ra đủ 10 lỗ hổng với phân loại OWASP đúng. Khoảng cách 4 điểm hoàn toàn nằm ở chất lượng bản fix.
Chúng tôi đã thử nghiệm các mô hình MiniMax từ phiên bản M2 vào tháng 11 năm ngoái. Các phiên bản trước cạnh tranh với các mô hình open-weight khác như GLM-4.7 và GLM-5. Mỗi lần ra phiên bản mới, điểm số tăng dần trong khi chi phí vẫn rất thấp.
Hiện tại, MiniMax M2.5 là mô hình được sử dụng nhiều nhất trên Kilo Code (vượt cả Claude Opus 4.6, GLM-5 và GPT-5.4). Trong Code mode chiếm 37% tổng usage, Ask mode chiếm 35%.
MiniMax M2.7 là phiên bản đầu tiên mà chúng tôi cảm thấy nên so sánh trực tiếp với các frontier model thay vì chỉ so với các mô hình open-weight khác. Nó đã bắt kịp tỷ lệ phát hiện của Claude Opus 4.6 trên mọi bài kiểm tra, tìm ra cùng các bug và cùng các lỗ hổng bảo mật.
Kết luận ngầm của bài viết: MiniMax M2.7 mang lại hiệu suất gần bằng Claude Opus 4.6 (khoảng 90%) với chi phí chỉ bằng ~7%, đây là một bước tiến rất đáng kể về mặt giá trị (value for money) trong lĩnh vực mô hình AI lập trình. Các mô hình không còn cách biệt nhau quá lớn và việc các nhà cung cấp liên tục ép hạn mức quota, việc sử dụng các mô hình yếu hơn 1 chút chỉ giảm 10% hiệu năng nhưng lại cải thiện 80% về giá là rất đáng cân nhắc.
Link bài viết gốc có thể tham khảo : https://blog.kilo.ai/p/we-tested-minimax-m27-against-claude
You need to login in order to like this post: click here
YOU MIGHT ALSO LIKE