1. Bài Viết
  2. Trí tuệ nhân tạo AlphaStar đánh bại con người trong tựa game chiến thuật StarCraft

Trí tuệ nhân tạo AlphaStar đánh bại con người trong tựa game chiến thuật StarCraft

Trí tuệ nhân tạo AlphaStar đánh bại con người trong tựa game chiến thuật StarCraft

Các nghiên cứu gần đây cho thấy rằng nhiều người dân Mỹ lo sợ công việc của họ sẽ bị thay thế bởi robot và trí tuệ nhân tạo, từ những công việc đơn giản như lái xe, giao hàng, lễ tân hay thậm chí cả kỹ sư phần mềm. Một trận thi đấu đối kháng diễn ra trong ngày hôm qua tiếp tục gợi ý về một công việc đang bị đe dọa bởi sự vươn lên của AI, đó chính là những game thủ chuyên nghiệp.

Trong một màn phô diễn đáng kinh ngạc để thấy rằng trí tuệ nhân tạo đã tiến xa đến đâu, AlphaStar – hệ thống trí tuệ nhân tạo được nghiên cứu và phát triển bởi dự án DeepMind thuộc Google, đã so tài với các game thủ chuyên nghiệp trong tựa game StarCraft. StarCraft là một tựa game chiến thuật phức tạp, đòi hỏi người chơi phải đưa ra quyết định trong số hàng trăm khả năng có thể xảy ra ở từng khoảnh khắc phải đưa ra chiến lược chơi đi kèm những sự đánh đổi và thích ứng với những diễn biến luôn thay đổi xuyên suốt trong trận đấu.

Số lượng khả năng có thể xảy ra trong một trận đấu là 10^1685, trong khi cờ vây chỉ là 10^170 và cờ vua là 10^47. Starcraft hiện đang có đến 200,000 trận đấu được chơi mỗi ngày bởi cộng đồng người chơi trên toàn thế giới.

No photo description available.

Kết quả cuối cùng của màn so tài giữa AI và các game thủ StarCraft chuyên nghiệp thật bất ngờ: AlphaStar giành chiến thắng 10 trên tổng số 11 trận trước hai game thủ chuyên nghiệp TLO và Mana của châu Âu.

Đa phần các hệ thống trí tuệ nhân tạo truyền thống sẽ tận dụng khả năng phản ứng nhanh nhạy và khả năng thực hiện nhiều thao tác hơn trong cùng một phút của máy tính (APM), ngược lại đội ngũ DeepMind đã giới hạn những yếu tố này và phát triển AlphaStar theo hướng giống với phản xạ người thường hơn (phản ứng chậm hơn và thực hiện ít thao tác hơn trên mỗi phút).

Trong các trận đấu với game thủ chuyên nghiệp, dù mắc phải một số sai sót, AlphaStar đã giành chiến thắng nhờ vào việc linh hoạt sử dụng nhiều chiến thuật chơi khác nhau cũng như thể hiện sự thấu hiểu những khía cạnh trừu tượng trong một trận đấu Starcraft như do thám. AlphaStar cũng có khả năng tự nhận thức lúc nào mình đang có lợi thế để thực hiện pha tấn công cũng như rút lui khi bị thất thế.

StarCraft được đánh giá là một trò chơi có mức độ phức tạp cao hơn cả cờ vua. Mặc dù AlphaStar chưa đối đầu với game thủ giỏi nhất thế giới, nhưng trận đấu này có sự tương đồng với cặp đấu giữa AI Deep Blue của IBM và kỳ thủ Garry Kasparov. Chiến thắng này tiếp tục là một sự nhắc nhở với chúng ta về những bước tiến lớn trong lĩnh vực trí tuệ nhân tạo. 

No photo description available.

Liệu còn những trò chơi nào có thể thách thức trí tuệ nhân tạo?

3 năm trước, DeepMind – một công ty startup về lĩnh vực AI có trụ sở tại London được mua lại bởi Google, đã khiến cả thế giới phải kinh ngạc với AlphaGo – một chương trình máy tính được thiết kế để chơi cờ vây. AlphaGo đã giành chiến thắng trước hầu hết các kỳ thủ cờ vây hàng đầu thế giới và khiến những chuyên gia về cờ vây cũng phải bất ngờ.

Một năm sau đó, DeepMind tiếp tục giới thiệu AlphaZero – một phiên bản được cải tiến từ AlphaGo để theo học những trò chơi đối kháng giữa hai người như cờ vua, cờ vây và những trò chơi tương tự khác.

Cờ vây và cờ vua là hai trò chơi có những đặc điểm giống nhau nên AI có thể tiếp cận theo cùng một phương thức học máy. Đó là những trò chơi đối kháng giữa hai người với toàn bộ thông tin được thể hiện rõ ràng trên bàn cờ (không có thông tin nào từ đối phương bị ẩn đi). Mỗi vòng chơi sẽ có một quyết định được đưa ra, đối với cờ vua là di chuyển một quân cờ, còn đối với cờ vây là đặt thêm một quân cờ mới lên bàn.

Tuy nhiên, những tựa game chiến thuật thời gian thực như StarCraft lại phức tạp hơn rất nhiều. Bạn phải đưa ra nhiều quyết định tại cùng một thời điểm, kể cả bao gồm việc bạn sẽ quyết định dành sự chú ý của mình tại đâu trên bản đồ. Thông tin của trận đấu cũng không đầy đủ, bạn không thể biết chính xác đối thủ của mình đang làm gì và bản thân sẽ đối mặt với điều gì tiếp theo,

Jie Tang, kỹ sư nghiên cứu AI tại OpenAI cho biết: “Những trò chơi chiến thuật thời gian thực là những bài toán chuẩn mực cho hoạt động nghiên cứu AI thế hệ mới. Điều quan trọng là chúng có độ trễ giữa lúc bạn ra quyết định và thời điểm bạn nhìn thấy kết quả. Trong cờ vua hay cờ vây, bạn có thể tính toán ngay được kết quả chỉ bằng cách theo dõi toàn cảnh bàn cờ và đánh giá được luôn rằng đó có phải là thế trận thắng cửa của bản thân hay không.

Trong những tựa game như StarCraft hay DOTA, bạn phải ra 10 quyết định mỗi giây suốt cả một tiếng đồng hồ, điều đó sẽ dẫn tới hàng chục nghìn bước đi khác nhau có thể xảy ra. Vì vậy, khi bạn đánh giá lại yếu tố đã giúp bạn chiến thắng, sẽ không chỉ có một mà là rất nhiều thứ, kể cả những thứ nhỏ nhặt như bạn đã xây nhiều nông dân hơn. Để tìm ra được công thức giành chiến thắng là điều rất khó, khi lập trình một trí tuệ nhân tạo trong các trò chơi như thế này này”.

Những đặc điểm đó khiến cho StarCraft hay những tựa game chiến thuật thời gian thực khác trở thành thử nghiệm tuyệt vời đối với AI. Một hệ thống phải học sâu như của DeepMind cần lượng dữ liệu rất lớn để phát triển khả năng của nó, đặc biệt nguồn dữ liệu về việc con người đã chơi nó như thế nào. Đối với Starcraft hay Starcraft II, cộng đồng người chơi đã nghiền ngẫm nó trong suốt 20 năm qua. Những trò chơi này là thử thách lớn hơn rất nhiều cho AI so với cờ vua và cờ vây, nhưng lượng dữ liệu đã có của chúng cũng là cơ hội tuyệt vời để AI có thể tiếp tục chinh phục cột mốc mới.

Vì những lý do đó, các trung tâm nghiên cứu AI đang ngày càng quan tâm hơn đến việc thử nghiệm trí tuệ nhân tạo của họ trong các trò chơi online. Thực tế, OpenAI đã đang triển khai thử nghiệm AI đối đầu với các game thủ chuyên nghiệp trong trò chơi DOTA. Năm 2017, DeepMind đã hợp tác với Blizzard Entertainment để phát triển một số nền tảng giúp AI được tập luyện trong môi trường trận đấu của StarCraft. 

Image may contain: text

AlphaStar đã đánh bại game thủ chuyên nghiệp trong tựa game StarCraft vô cùng phức tạp như thế nào?

StarCraft có nhiều chế độ thi đấu khác nhau, tuy nhiên thể loại mang tính đối kháng nhất là một đấu một. Mỗi bên sẽ bắt đầu phát triển với căn cứ riêng của mình cùng lượng tài nguyên có sẵn như nhau. Người chơi sẽ xây dựng các công trình mới, do thám đối phương, mua quân và triển khai lực lượng quân tấn đông khi đã sẵn sàng. Người chiến thắng sẽ là người phá hủy tất cả công trình của đối phương trước, hoặc đối phương đầu hàng khi kết quả thắng thua đã quá rõ ràng.

Một số trận đấu của StarCraft kết thúc rất nhanh chóng, bạn tập trung mua quân sớm ngay từ đầu, tấn công khi đối phương không có sự phòng bị và giành chiến thắng trong vòng chưa đầy 5 phút. Ngược lại, có những trận đấu kéo dài cả tiếng đồng hồ, khi cả hai bên đều có số lượng quân tối đa. AlphaStar có những trận đấu lựa chọn chiến thuật đánh phủ đầu sớm và có những trận đấu kéo dài lâu với những chủng loại quân cao cấp và đông đảo hơn. Các trận đấu chỉ kéo dài trong khoảng 30 phút trở xuống, chúng ta không được nhìn thấy khả năng điều khiển của AlphaStar trong giai đoạn cuối trận đấu (late-game). Tuy nhiên, lí do đến nhiều từ việc các game thủ có lẽ không thể trụ vững trước khả năng của AlphaStar để kéo dài trận đấu lâu hơn.

DeepMind đã công bố đoạn phim ghi lại 10 trận thi đấu giữa AlphaStar với hai game thủ TLO và MaNa được diễn ra một cách bí mật trong tháng 12/2018, và sau đó tiến hành một trận thi đấu trực tiếp giữa phiên bản mới nhất của AlphaStar và một game thủ có thứ hạng cao. 

Các bạn có thể theo dõi chi tiết phần bình luận của 10 trận thi đấu chiếu lại và 1 trận đấu trực tiếp tại đây:

5 trận chiếu lại đầu tiên của AlphaStar là với game thủ TLO đến từ đội Liquid. Đối với loạt trận đấu này, DeepMind thiết kế và cho học một số chương trình trí tuệ nhân tạo, mỗi chương trình AI sẽ tập trung vào một chiến thuật khác nhau (nhưng chỉ tập trung cho cặp đấu giữa tộc Protoss với Protoss). Chúng được cho tập luyện thi đấu trong vòng một tuần (tương ứng với khoảng thời gian 200 năm mà một người sẽ chơiStarCraft). Sau đó, DeepMind chọn ra một AI có kết quả tốt nhất để thi đấu với game thủ TLO.

Với 200 năm kinh nghiệm chơi StarCraft, AI của DeepMind vẫn mắc phải một số sai lầm ngớ ngẩn. Ví dụ AlphaStar xây quá nhiều nông dân để khai thác một mỏ, điều khiển các đơn vị quân di chuyển liên tục qua một ngõ hẹp và bị mắc kẹt ở đó. AIphaStar cũng bị bối rối khi phải chống đỡ cùng lúc nhiều pha quấy rối tại cùng một thời điểm. Tuy nhiên, nó vẫn chiến thắng chung cuộc trong tất cả 5 trận đấu vì chiến thuật ban đầu của nó đã quá tốt để bù đắp được những điểm yếu này.

Image may contain: text

Sau 5 trận đấu với TLO, DeepMind đưa AlphaStar quay trở lại luyện tập. Sau 14 ngày luyện tập với thêm 200 năm kinh nghiệm chơi StarCraft, AlphaStar cho thấy sự khác biệt ngày càng rõ nét của mình. AlphaStar không còn mắc phải bất kỳ sai lầm về mặt chiến thuật, mặc dù việc điều khiển quân của nó vẫn tạo cảm giác khác lạ đối với những bình luận viên chuyên nghiệp.

AlphaStar lần này phải đối mặt với một đối thủ khó nhằn hơn, đó là Grzegorz “MaNa” Komincz cũng của đội Liquid (MaNa đã chơi với chủng tộc ưu thích của mình là Protoss so với TLO phải chơi trái với sở trường). Dù MaNa không mắc phải một sai lầm nhỏ nào, anh ấy vẫn bị AlphaStar đánh bại một cách thuyết phục ở cả 5 trận đấu. Với khả năng quản lý và điều khiển tốt các đơn vị quân ở tầm vĩ mô trong khi vẫn đảm bảo việc phát triển kinh tế, hệ thống AI này tỏ ra ưu việt hơn hẳn game thủ chuyên nghiệp khi dễ dàng xử lý nhiều tác vụ cùng một lúc. 

“Kết quả này rất thú vị và thực sự ấn tượng. Những điều quan trọng mà tôi cần đánh giá từ phía AlphaStar luôn xoay quanh 2 thứ, khả năng lựa chọn chiến thuật chơi và khả năng điều quân – phát triển kinh tế (mechanic). Liệu AI có giỏi trong việc nhìn nhận toàn cảnh bức tranh lớn của trận đấu, hay liệu nó chỉ rất triển khai quá hoàn hảo những chiến thuật lẽ thường không phù hợp với bối cảnh? Thực tế AlphaStar đã thể hiện sự vượt trội ở cả hai khía cạnh này. Những chiến thuật mà nó lựa chọn đều giống với lối chơi ở cấp độ thi đấu cao nhất của các giải đấu chuyên nghiệp. AlphaStar cũng sở hữu khả năng phát triển kinh tế – điều quân hoàn hảo.”, Jin Tang nhận xét.

No photo description available.

Tất nhiên, trong 10 trận đấu này, AlphaStar có một lợi thế vượt trội đối với các game thủ chuyên nghiệp: trí tuệ nhân tạo này có thể nhìn toàn bộ bản đồ của trận đấu, trong khi game thủ chỉ có thể nhìn thông qua màn hình máy tính của mình và phải điều chỉnh camera. 

[Để làm rõ đoạn này hơn, KnowHub xin phép giải thích thêm như sau, AlphaStar có khả năng nhìn toàn bộ bản đồ, giống như việc nó sở hữu một màn hình máy tính khổ rất lớn vậy. Tuy nhiên, nhìn thấy toàn bộ bàn đồ không đồng nghĩa với hack-map, AlphaStar vẫn chỉ có tầm nhìn khi có quân hoặc công trình của mình ở quanh đó (những chỗ khác sẽ bị ẩn đi bởi sương mù – fog of war). Dù vậy, đó cũng là một lợi thế rất lớn khi AlphaStar không phải di chuyển màn hình theo dõi như người chơi thông thường mà có thể thao tác tất cả mọi thứ luôn trên màn hình lớn đó.]

Sau đó, DeepMind phát triển phiên bản mới của AlphaStar kèm theo một thuật toán làm hạn chế tầm nhìn của nó. AlphaStar sẽ chỉ được nhìn trong một khung hình giới hạn và sẽ phải di chuyển màn hình để thấy được các khu vực khác như người chơi bình thường. DeepMind vẫn sử dụng chương trình tập luyện tương đương 200 năm kinh nghiệm chơi StarCraft để lựa chọn ra AI tốt nhất cho trận thi đấu trực tiếp.

Trận đấu cuối cùng này đã được tường thuật trực tiếp. AlphaStar sau khi bị hạn chế lợi thế lớn nhất của mình, đã thất bại trước game thủ MaNa. Rõ ràng trong game đấu này, trí tuệ nhân tạo này đã bị hạn chế đáng kể trong việc triển khai chiến lược mang tính tổng thể của mình, khác hẳn so với các phiên bản trước

Kết quả đã khiến cho đội ngũ DeepMind có chút thất vọng, nhưng điểm tích cực là AlphaStar mới chỉ được huấn luyện trong khoảng thời gian kéo dài 7 ngày, ít hơn một nửa so với trước đây. Do đó, vẫn có khả năng AlphaStar sẽ đánh bại các game thủ chuyên nghiệp trong tương lai, nếu có thời gian huấn luyện lâu hơn. DeepMind nhận thấy điểm yếu của AlphaStar là khả năng di chuyển màn hình theo dõi tùy vào diễn biến trận đấu và sẽ triển khai khắc phục trong thời gian tới.

No photo description available.

Các phiên bản hiện tại của AlphaStar chắc chắn vẫn còn những điểm yếu. Trên thực tế, nhiều sai sót của các phiên bản Alpha đầu tiên đã được thể hiện trong các trận đấu thời kỳ đầu của bộ môn cờ vây. Các phiên bản AlphaGo đầu tiên thường giành chiến thắng, nhưng hay mắc các lỗi mà con người có thể xác định được. Nhóm DeepMind sau đó tiếp tục cải tiến nó và AlphaZero ngày nay không còn phạm phải bất kỳ sai lầm nào mà con người có thể nhận thấy.

Phần lớn lợi thế hiện tại của nó so với con người đến từ việc AlphaStar là một máy tính. Điều đó có nghĩa rằng nó giỏi hơn rất nhiều so với game thủ về khả năng điều khiển quân lính. AlphaStar có thể điều khiển cùng lúc năm nhóm quân khác nhau cùng một lúc mà vẫn chính xác và nhanh gọn, điều mà không một người bình thường nào có thể làm được. Các chiến thuật chơi của AlphaStar sẽ không được áp dụng rộng rãi trong thi đấu chuyên nghiệp sau này, vì nó không đánh bại con người nhờ vào việc lựa chọn chiến thuật tốt nhất phù hợp với giới hạn của con người. Phần nhiều AlphaStar dựa vào chiến thuật phù hợp với lợi thế của nó nhất.

No photo description available.

Dù AlphaStar được giới hạn về số lượng thao tác mỗi phút (APM) sao cho giống với con người nhất, nó vẫn có những ưu thế vượt trội nhờ vào việc ra quyết định tốt hơn. DeepMind vẫn cần bổ sung thêm những giới hạn khác để AlphaStar cạnh tranh sòng phẳng hơn với con người.

[Chú thích: APM của game thủ chuyên nghiệp dao động từ 300-400 nhưng có một lượng lớn là các thao tác dư thừa và không có ý nghĩa lớn, nghĩa rằng nếu AlphaStar có lượng APM bằng với game thủ thì nó sử dụng APM hiệu quả hơn rất nhiều.]

Con người vẫn có những lợi thế mà các hệ thống trí tuệ nhân tạo như AlphaStar không có được. Đó là khả năng rút kinh nghiệm từ những thất bại, MaNa đã rút ra được bài học cho mình sau 5 trận đấu để thua trước đó. Để rồi sau đó trong trận thi đấu được tường thuật trực tiếp, anh đã sử dụng một chiến thuật bắt bài và đánh bại được nó. AlphaStar dĩ nhiên không làm được điều đó, nó không có (hoặc chúng ta chưa biết chắc) cơ chế giúp học hỏi từ những trận đấu cũ để đưa ra phương án khắc phục trong tương lai.

Dù vậy, các bình luận viên đã bày tỏ sự tôn trọng và đánh giá rằng AlphaStar trong nhiều khía cạnh đã chơi hệt như một con người. Nó đã hiểu về việc nghi binh, làm thế nào để tập hợp quân chuẩn bị cho một đợt tấn công giai đoạn đầu trận đấu, làm thế nào để phản ứng đối với một đợt quấy rối, làm thế nào để định hình đường đi trong bản đồ. Jin Tang bày tỏ sự ấn tượng về những gì nhóm DeepMind đã đạt được và khả năng của hệ thống AI dựa trên nền tảng học máy tăng cường.

Một điều lý thú nữa mà AlphaStar chưa biết làm được, đó là gõ “good game – gg” để kết thúc trận đấu khi người chơi cảm thấy mình đã thua. Có lẽ trong lần thi đấu tới, AlphaStar sẽ để ý đến vấn đề này hoặc nó sẽ không bao giờ cần đến điều đó.

Phụ lục 1: Phóng sự xoay quanh việc phát triển AlphaStar của đội ngũ DeepMind

Phụ lục 2: Mô phỏng quá trình chơi của AlphaStar trong trận đấu

————————————

Bài viết được dịch bởi thành viên nhóm KnowHub, dựa theo bài viết “StarCraft is a deep, complicated war strategy game. Google’s AlphaStar AI crushed it.” của tác giả Kesley Piper trên Vox.com. Link bài viết gốc tại đây.

Bài viết thuộc danh mục những bài viết chuyên sâu (tự biên tập hoặc dịch từ nguồn nước ngoài) về kiến thức chuyên ngành, lĩnh vực nghề nghiệp và quá trình học tập của nhóm KnowHub, được tập hợp và đăng tải trên blog của website knowhub.vn, note của fanpage/linkedin và tài khoản medium.com.

“Trong trường hợp bài viết của nhóm KnowHub vi phạm bản quyền nội dung của các bạn, vui lòng thông báo với KnowHub thông qua email support@knowhub.vn hoặc fanpage để được chúng tôi xin lỗi và khắc phục kịp thời. Chúng tôi chỉ mong muốn được chia sẻ với cộng đồng và không cố ý lợi dụng!

In case the articles of KnowHub violate the copyright of your content, please notify us via email support@knowhub.vn or fanpage to be apologized and removed in time. No copyright infringement intented!”

Chia sẻ

Bình Luận

Tham gia bình luận

KnowHub

"Patience is bitter, but its fruit is sweet" - Jean Jacques Rousseau