Sunday, July 03, 2005

Vai trò của conference papers trong khoa học máy tính

Vì nhiều lí do lịch sử và bản chất ngành, những xuất bản trong các hội nghị (dưới dạng conference proceedings) trong ngành khoa học máy tính (KHMT) thường được xem có sức nặng tương đương một xuất bản trong một tạp chí. Ví dụ, theo tôi biết thì khoa máy tính đại học Washington , một trong những khoa về CS hàng đầu ở Mỹ, đánh giá một bài báo ở hội nghị AAAI tương đương với tạp chí Journal of Artificial Intelligence Research trong việc xem xét tenure của một giáo sư trong khoa.

Trên thực tế có nhiều công trình của KHMT có tính đột phá được xuất bản đầu tiên dưới dạng một conference proceeding. Mặc dù vậy, có những khác biệt căn bản giữa việc xuất bản trên một tạp chí định kỳ, và việc xuất bản trong một conference proceeding. Sự khác biệt lớn nhất là, vì những lý do hạn chế về mặt thời gian, những bài báo ở hội nghị thường không được đánh giá (review) một cách cẩn thận; vì lý do hạn chế về độ dài bài báo (thường là 6 đến 8 hoặc 10 hoặc 12 trang), nhiều chi tiết quan trọng trong kết quả trình bày thường bị bỏ qua mà vẫn được châm chước. Dẫn đến, nhiều claims trong bài báo có thể bị thổi phồng mà không ai có thể kiểm chứng được.

Điều này có thể dẫn đến hậu quả tai hại đối với một vấn đề nghiên cứu cụ thể nói riêng, cũng như thái độ nghiên cứu nói chung trong KHMT, dễ bị mắc phải cả với những người nghiên cứu lâu năm cũng như những học sinh sinh viên cao học trẻ tuổi: Một công trình nghiên cứu có triển vọng nhưng được thực hiện và trình bày một cách hời hợt vẫn có thể được xuất bản ở những hội nghị có uy tín, và được coi như một xuất bản ở một tạp chí đầu ngành.

Lấy một ví dụ về ngành machine learning , một lĩnh vực mang đậm tính liên ngành (liên quan đến thống kê (statistics), thuật toán (algorithms), lý thuyết thông tin (information theory)), và có ứng dụng rộng khắp trong các vấn đề xử lý dữ liệu (data analysis) trong các ngành khoa học ứng dụng. Một trong những hội nghị có uy tín nhất của ML là NIPS . Để được chấp nhận vào hội nghị này không dễ. Quả thực có khá nhiều ý tưởng, phát hiện có tính đột phá được trình bày từ đây, như sự giới thiệu của thuật toán support vector machines , statistical inference algorithms in graphs , v.v. Mặc dù vậy, rất nhiều bài báo ở NIPS cũng rất tầm thường về nội dung, và người ta quên đi chúng rất nhanh sau khi được xuất bản. Một trong những lý do là format của bài báo chỉ có 6 trang nhỏ (một cột), không đủ để trình bày tỉ mỉ những chi tiết quan trọng về thuật toán, chứng minh, cũng như kết quả thực nghiệm. Những người ở trong ngành đủ lâu đều biết là có những "magic formula" để có thể làm một bài báo được xuất bản ở những hội nghị (kể cả là có uy tín nhất) như thế.

Dầu sao thì NIPS cũng là một hội nghị có uy tín, và được nhiều người đầu ngành đến tham dự, cũng như nhiều sinh viên trẻ đến dự. Nó cũng là một trong những hội nghị thú vị nhất mà tôi hay đến dự. Nhưng sự coi trọng có phần thái quá của giới nghiên cứu ngành KHMT dẫn đến một sự thực là càng ngày càng có nhiều hội nghị vô cùng vớ vẩn về chất lượng. Một chuyện nực cười nhất là vừa qua, một nhóm học sinh KHMT ở MIT đã viết một chương trình tự động có thể viết ra những "research papers" , và ít nhất một bài báo của họ đã được nhận tại một hội nghị với một cái tên rất kêu 9th World Multi-Conference on Systemics, Cybernetics and Informatics . Hội nghị này được tổ chức năm thứ 9, và có đến 2904 bài báo chấp nhận năm naỵ Đây là một trong rất nhiều hội nghị liên quan đến ngành máy tính, được tổ chức bởi một nhóm người đứng ra để thu lời từ tiền registration fee, và được sự ủng hộ của những người mong muốn cải thiện publication records của mình bằng mọi cách.

Có nhiều điều có thể rút ra về câu chuyện này. Có lẽ cần phải có sự điều chỉnh về quan niệm xuất bản ở hội nghị và các tạp chí. Việc đánh giá khả năng bằng số lượng bài báo thay vì chất lượng, sự coi trọng thái quá đối với xuất bản ở hội nghị, đang góp phần dẫn đến sự thờ ơ của nhiều người trong việc tìm cách xuất bản những kết quả nghiên cứu trọn vẹn của mình tới những tạp chí đầu ngành.

Những công trình có giá trị nhất phải là những công trình sẽ giữ được giá trị của nó với thời gian, và do đó, cần phải được thẩm định và xuất bản ở các tạp chí có uy tín. Hạn chế lớn nhất đối với việc xuất bản ở một tạp chí là, thời gian từ lúc nộp bài đến lúc được xuất bản trên một tạp chí có thể rất lâu. Ví dụ với một số tạp chí mà giới làm về machine learning, thống kê hay xử lý dữ liệu hay tham khảo, như
the Annals of Statistics , hay IEEE Transactions on Information Theory có thể mất đến 2 năm. Trong khi đó, với các hội nghị, thời gian đó chỉ khoảng 6 tháng. Hiện tại, các tạp chí điện tử (on-line journals) đang được hình thành để rút ngắn khoảng thời gian turn-around đó.