Wednesday, September 28, 2005

Hội nghị Accelating Change 2005

 

Tuần trước đã diễn ra hội nghị "Accelerating Change 2005" tại đại học Standford. Có rất nhiều báo cáo rất thú vị tại hội nghị. Tôi thực sự rất thích các báo cáo này, vì đó là sự kết tinh giữa ngành Trí tuệ nhân tạo và các ứng dụng thực tế.

  Có rất nhiều nghiên cứu và ứng dụng thực tế đáng để chúng ta học hỏi và phát triển.

 

Tôi lại nhớ đến một bài báo được đăng khá lâu về thực trạng giáo dục nước Mỹ.

Nước Mỹ luôn được đánh giá là môi trường giáo dục và đào tạo hàng đầu thế giới. Nhưng thực tế thì như thế nào?

 Mỗi năm có hàng trăm nghìn BS, MS và PhD được "cho ra lò". Và năm sau sẽ nhiều hơn năm trước. Việc tăng về số lượng một phần do số người vào trường Đại học tăng, một phần do có thêm nhiều trường mới, có thêm nhiều ngành mới, và có thêm nhiều lĩnh vực mới,… Đó là về số lượng, còn về chất lượng? Có 1 câu nói đùa về bằng cấp tại Mỹ   :
 "BS is just what it stands for, an MS is More of the Same, and a PhD is Piled Higher and Deeper."  Đó  là nội dung của
bài báo đăng trên Washington Post , cách nay cũng lâu rồi.

 

 

Monday, September 26, 2005

Các bài báo kinh điển KHMT (8): Graphical models

Thực ra trong bài này tôi sẽ không chỉ nói về một bài báo kinh điển mà sẽ nói về cả một chùm bài về graphical models, một phương pháp biểu diễn và suy luận thống kê tổng quát và hữu hiệu đã, đang và sẽ được ứng dụng rộng khắp trong các ngành khoa học liên quan đến dữ liệu,

Graphical models là một loại ngôn ngữ để biểu diễn mô hình về dữ liệu bằng graph và lý thuyết xác suất. Khó có thể giới thiệu súc tích hơn về graphical models bằng đoạn trích sau đây:

"Graphical models are a marriage between probability theory and graph theory. They provide a natural tool for dealing with two problems that occur throughout applied mathematics and engineering -- uncertainty and complexity -- and in particular they are playing an increasingly important role in the design and analysis of machine learning algorithms. Fundamental to the idea of a graphical model is the notion of modularity -- a complex system is built by combining simpler parts. Probability theory provides the glue whereby the parts are combined, ensuring that the system as a whole is consistent, and providing ways to interface models to data. The graph theoretic side of graphical models provides both an intuitively appealing interface by which humans can model highly-interacting sets of variables as well as a data structure that lends itself naturally to the design of efficient general-purpose algorithms.

Many of the classical multivariate probabalistic systems studied in fields such as statistics, systems engineering, information theory, pattern recognition and statistical mechanics are special cases of the general graphical model formalism -- examples include mixture models, factor analysis, hidden Markov models, Kalman filters and Ising models. The graphical model framework provides a way to view all of these systems as instances of a common underlying formalism. This view has many advantages -- in particular, specialized techniques that have been developed in one field can be transferred between research communities and exploited more widely. Moreover, the graphical model formalism provides a natural framework for the design of new systems." --- Michael Jordan, 1998.


Graphical models ở những trường hợp đặc biệt nhất đã được sử dụng trong suốt thế kỷ trước: Mô hình dùng directed graphs đã được các nhà genetics sử du.ng trong pedegree analysis từ những thập niên 70 và trước đó. Mô hình Ising (cho undirected graphs) đuợc sử dụng từ đầu thế kỷ 20 để nghiên cứu về hiện tượng phase transition. Nhưng phải đến khi quyển sách kinh điển của
Judea Pearl , giáo sư UCLA, ra đời thì graphical models mới được áp dụng rộng rãi.

Pearl, J. (1988). Probabilistic Inference in Intelligent Systems.
Morgan kaufmann, CA.

Công lớn của Judea Pearl là tổng quát hóa graphical models cho bất kỳ graphs và bất kỳ hàm xác suất nào. Ông còn phát kiến ra thuật toán belief propagation nổi tiếng để thực hiện inference trong graph, hiện được sử dụng rộng rãi trong machine learning, computer vision và coding theory. Pearl còn cho rằng graphical models mới là ngôn ngữ thích hợp cho knowledge representation trong ngành trí tuệ nhân tạo, chứ không phải là logic và những biến thể logic. Điều này gây ra một sự thay đổi lớn trong ngày TTNT, vốn bị thống trị bởi trường phái về logic của John McCarthy từ những ngày đầu cho đến hết thập niên 80.

Những thập niên 90 trở đi chứng kiến rất nhiều ứng dụng rực rỡ của graphical models trong các lĩnh vực xử lý dữ liệu, trong signal processing (speech recognition, vision), trong computational biology (DNA and protein analysis, phylogenetic analysis, ...), trong ngôn ngữ và text data.
Một bài
blog gần đây một ví dụ.

Xin liệt kê vài GMs tiêu biểu mà chúng ta hay được nghe thấy:
  • Hidden Markov Models (HMM) (cho sequential analysis trong speech recognition, trong ngôn ngữ và văn bản, trong DNA và protein sequences)
  • Các biến thể của HMM trong lĩnh vực activity recognition (G.S Bùi Hải Hưng ở SRI là một chuyên gia về vấn đề này)
  • Phylogenetic tree models (để nghiên cứu về tiến hóa)
  • Ising models (để nghiên cứu phase transition cho spin glass magnetic models, cũng được dùng trong computer vision để mô hình hình ảnh)
  • Probabilistic latent semantic indexing models (để mô hình văn bản, ảnh)
  • v.v.
Ngành trí tuệ nhân tạo nói riêng và KHMT nói chung có nhiều sáng kiến có tính nhất thời, thường là mất giá trị rất nhanh sau một thời gian nóng sốt giả tạo. Tôi nghĩ rằng graphical models sẽ có giá trị vững chắc hơn và lâu dài hơn nhiều, vì nó được xây dựng trên nền tảng là những viên gạch của ngành thống kê cổ điển, nhưng lại có sự đóng góp của nghiên cứu về thuật toán và computational complexity.

Quả thật, mỗi graphical model thường đươ.c định nghĩa trên cơ sở hàm xác suất (hoặc potential function) trong từng clique của graph, mà mỗi clique đó lại được mô hình hóa bằng những mô hình kinh điển của ngành xác suất thống kê). Khả năng, sự định hướng và sự tham vọng về những vấn đề về tính toán của những người làm về KHMT cho phép họ nghiên cứu những mô hình đồ sộ và thực tế hơn mà những người làm về thống kê cổ điển không thể dám mơ tới.

GMs là một cơ sở hạ tầng tự nhiên cho nhiều ý tưởng hay, và có ảnh hưởng sâu và rộng, về thuật toán, xác suất thống kê, và vật lý thống kê trong suốt thời gian qua:
  • Các thuật toán sampling Markov Chain Monte Carlo (MCMC) và biến thể (Gibbs sampling, Metropolis-Hasting)
  • Thuật toán EM (Expectation-Minimization)
  • Thuật toán deterministic theo kiểu message-passing, như belief propagation, mean -field theory
  • Liên hệ giữa phase transition của Ising models trong vật lý thống kê, và computation complexity của thuật toán MCMC
  • Liên hệ giữa statistical inference và optimization trong graphical models
Những nghiên cứu hiện nay còn tập trung vào việc phát triển và ứng dụng những mô hình vô hạn chiều. Nếu bạn nghiên cứu về graphical models, bạn sẽ nhận ra là mình có thể nói chuyện được với dân làm về xác suất thống kê, dân làm về vật lý lý thuyết, dân làm về signal processing, dân làm về lý thuyết thuật toán, dân làm về sinh học phân tử. Nghiên cứu về GMs là một sự giao thoa thú vị của khá nhiều ngành khác nhau, cho cả những người có thiên hướng về lý thuyết và những người thích những ứng dụng cụ thể.

Sau đây là một vài bài báo (hoặc là kinh điển hoặc là khá gần đây, mang tính chất giới thiệu và survey) đáng tham khảo:

David Spiegelhalter, Philip Dawid, Steffen Lauritzen and Robert Cowell.
Bayesian Analysis in Expert Systems. Statistical Science, Vol 8, No 3, 1993
.

Michael I. Jordan.
Graphical Models. Statistical Science, Vol 19, 140-155, 2004.

Sunday, September 25, 2005

công nghiệp phần mềm Việt Nam

Thu hút hay "giành giật" nhân tài.

Tôi phải nhấn mạnh từ "giành giật". Trong công nghệ phần mềm, từ các nước phát triển cho tới các nước đang phát triển, luôn luôn phải có chính sách để giành giật nhân tài. Đây chính là một trong những điều kiện để phát triển nền công nghiệp phần mềm.

Nền công nghiệp phần mềm có những đặc thù rất riêng biệt. Đó là nền công nghiệp không đòi hỏi các tài nguyên, khóang sản. Đòi hỏi quan trọng nhất của nó chính là nguồn nhân lực. Phải xây dựng được một nguồn nhân lực dồi dào, chất lượng cao và phong phú khi muốn có một nền công nghiệp phần mềm phát triển.

Và để hình thành được một số lượng nguồn nhân lực lớn, lại xuất phát từ những cá nhân xuất sắc. Hiện nay, có sự cạnh tranh không lành mạnh giữa các công ty phần mềm ở Việt Nam (cả công ty Việt Nam và công ty nước ngòai) đó là việc đưa ra những con số hấp dẫn của tiền lương và cả vị trí chức danh nữa.

Cách đây không lâu là một vụ chuyển nhượng một chuyên gia phần mềm nổi tiếng người Trung Quốc từ Microsoft sang Google. Lương mới của ông ta 1 triệu $/năm. Câu chuyện này làm tôi nhớ lại lọat bài trên báo Tuổi trẻ "Những người làm thuê số 1 tại Việt Nam".

Nhân nói về một trong những điều kiện đề phát triển công nghệ phần mềm, có lẽ không ai phủ nhận vai trò cũng rất quan trọng của cơ sở hạ tầng và internet. Cho dù, với gia công phần mềm anh chỉ cần một cái máy tính đời 386 hay 486 và cũng chỉ cần 1 mạng cục bộ trong công ty. Nhưng nếu như thế thì anh không thể cạnh tranh được với ai hết.

Tóm lại, đứng trên tầm vĩ mô, chúng ta luôn phải có những kế sách và chiến lược để đào tạo, phát triển nguồn nhân lực, nguồn nhân lực chất lượng cao và nhân tài.

Chỉ tiêu 500 triệu USD năm 2005.

Cách đây 5 năm, đã có một chỉ tiêu đào tạo và phát triển công nghệ phần mềm khá lớn : 50.000 nhân lực và đạt 500 triệu $ từ xuất khẩu và gia công phần mềm.

Rất nhiều nhà chuyên môn đã đưa ra các cảnh báo về khả năng thực thi của chi tiêu trên.

Từ năm 2000, chỉ tiêu tuyển sinh hệ chính qui đại học hàng năm của cả nước cho ngành công nghệ thông tin là 9000. Như vậy trong 5 năm đã có 45.000 nhân lực. Bên cạnh đó còn có rất nhiều các trường đào tạo khác, các trung tâm đào tạo. Xét về số lượng thì đã đủ và vượt chỉ tiêu.

Nhưng nếu xét về chất lượng thì sao?

Tôi và các bạn đồng khóa thường hay gặp mặt và thảo luận với nhau về chất lượng đào tạo trong trường đại học và ứng dụng thực tế ở các công ty.

Các công ty luôn luôn than rằng không có, hoặc tìm không ra, thiếu nguồn nhân lực đáp ứng nhu cầu của công ty. Các công ty cũng than rằng, sinh viên tốt nghiệp vẫn phải được công ty đào tạo lại ít nhất là 3 tháng cho tới 1 năm…

Sự thật như thế nào?

Cần biết rằng, quá trình đào tạo trong trường đại học chuyên về tính hàn lâm. Công nghệ phần mềm luôn thay đổi và về bản chất, mổi sản phẩm là một số các yêu cầu kỹ năng khác nhau. Quá trình đào tạo sẽ không nắm bắt được điều đó. Mà nó phụ thuộc vào từng công ty, đó là chính sách phát triển của công ty. Và tôi cũng cần phải đính chính với các công ty rằng, các công ty không phải "đào tạo lại" lực lượng sinh viên tốt nghiệp. Mà phải là "cập nhật, bổ sung" các điều kiện theo yêu cầu phát triển của công ty.

Nhưng dù sao, để quá trình học và ứng dụng thực tế hơn, các trường và các công ty phải chủ động liên kết với nhau. Có như thế thì lực lượng nhân lực công nghệ phần mềm sẽ đáp ứng được về chất. Và phát huy được khả năng sáng tạo của sinh viên ngay từ những năm đầu trong nhà trường.

Một tương lai cũng khá sáng sủa cho Việt Nam khi Ấn Độ cho biết, họ sẽ thiếu khoảng 250.000 nhân lực năm 2007. Vậy thì chúng ta phải biết khai thác hiệu quả nguồn nhân lực hay nói cách khác là nguồn chất xám Việt Nam.

Bill Gates và những lời khuyên cho nên công nghiệp phần mềm Việt Nam.

Trong buổi gặp gỡ giữa Thủ tướng Phan Văn Khải và BillGates trong chuyến viếng thăm Mỹ tháng 6/2005, ông Bill Gates đã đưa ra 3 lời khuyên cho nền công nghiệp phần mềm Việt Nam :

1. Đào tạo giáo dục.

2. Giao lưu hợp tác quốc tế.

3. Tiếng Anh.

Có thể thấy rõ được sự quan trọng của các lời khuyên trên. Để công nghệ phần mềm phát triển đòi hỏi phải có 1 nguồn nhân lực công nghệ thông tin dồi dào và phát triển, điều này đòi hỏi phải có quá trình đào tạo hợp lý và cập nhật. Đối với các nước đang phát triển như Việt Nam thì phải tranh thủ hợp tác với quốc tế, để sớm hòa nhập với sự tiến bộ và các đòi hỏi của các sản phẩm phần mềm. Và để tiếp thu các kiến thức trên tốt nhất, có sực cạnh tranh với các nước khác như Ấn Độ, Trung Quốc thì ngôn ngữ Tiếng Anh là tối cần thiết.

Cách đây mấy năm, khi Bill Gates qua thăm Việt Nam và thành lập quĩ hỗ trợ đào tạo công nghệ thông tin cho Việt Nam, ông cũng đã đưa ra rất nhiều lời khuyên đáng quí. Trong đó, ông luôn khẳng định : Tri thức phải luôn đi kèm với sức khỏe. Một trí tuệ minh mẫn trong một cơ thể cường tráng.

Cũng hòan toàn đúng như thế, khi mà các kỹ sư công nghệ thông tin Việt Nam nói riêng và thế giới nói chung rất coi thường sức khỏe của mình.

Việc sử dụng máy vi tính liên tục có hại cho sức khỏe, hại cho mắt, thiếu vận động và con người thường trở nên nóng nảy. Vì thế luôn luôn phải biết cách bảo vệ sức khỏe cho chính mình và cho thế hệ mai sau nữa.

Saturday, September 24, 2005

Cảnh sát đã bắt giam… máy tính của tôi!

Thêm 1 chuyện vui nữa về dân máy tính, cũng được đăng trên báo Tuổi Trẻ Online.
 
 
 
Cảnh sát London hiện nhìn đâu cũng thấy khủng bố, họ có thể bất thình lình bắt giam bất kỳ một người nào với lý do nghi ngờ là khủng bố và mọi thiết bị điện tử của nạn nhân có thể bị giam giữ vô thời hạn để điều tra.

Câu chuyện đau khổ này đã xảy đến với David Mery, một chuyên gia nghiên cứu công nghệ thông tin rất hiền lành. Trong khi chờ đợi bạn gái của mình ở ga tàu điện ngầm Southwark, bất thình lình David Mery nhận thấy mình bị một nhóm cảnh sát mặc đồng phục bao vây. Khi chưa kịp phân bua bất kỳ câu nào thì David Mery đã bị hạ gục bằng vài cú đấm, bị đè ngay xuống đất và chiếc balô có chứa máy tính xách tay mà Mery mang theo đã bị tịch thu và khám xét ngay lập tức.

Cảnh sát London đã tìm ra một chiếc máy xách tay "thật là đẹp" trong balô của Mery và anh chàng đam mê máy tính này đã bị buộc tội ngay là "có thái độ nghi ngờ", "gây rối trật tự công cộng" và bị tống lên xe đưa về đồn cảnh sát Walworth để lăn tay và xét nghiệm DNA.

Căn hộ của Mery đã bị cảnh sát lục soát kỹ lưỡng sau đó và họ đã tìm ra tất cả mọi đồ nghề và hàng sưu tập của một người đam mê máy tính như một số điện thoại di động "cổ", một máy tính cổ Stinkpad hiệu IBM, một máy tính "cổ" hiệu BeBox, một bộ định vi toàn cầu GPS xách tay, một máy quét tần số sóng radio, một bộ công cụ chẩn đoán điện tử, một số cáp nối, một máy tính Black Hat, một số giấy tờ - thư từ - bưu phẩm - hình ảnh , một số bản đồ Prague và khu London Heathrow và một số danh thiếp doanh nghiệp… tất cả mọi đồ nghề này đều là những thứ mà Mery chuẩn bị đem đi tham dự hội nghị kỷ niệm 50 năm ngày thành lập Hiệp hội máy tính Anh quốc.

Sau đó cảnh sát chỉ đơn giản cho Mery biết rằng anh ta bị bắt vì đã vi phạm luật sử dụng súng vào năm ngoái. Mery đã được thả về nhưng máy tính xách tay và toàn bộ đồ nghề tham dự hội nghị của Mery đã bị tạm giữ vô thời hạn để điều tra.

Sau khi "ra tù" Mery nghĩ mình vẫn còn may mắn hơn vạn lần so với chàng kỹ sư điện Jean Charles de Menezes người Brazil đã bị cảnh sát London bắn chết tươi trong ga tàu điện ngầm vào ngày 22-7 mà chưa kịp phân bua lời nào.

Wikipedia bị "tân quốc xã" tấn công

Trong bài trước có đề cập về hacker và rất nhiều thứ liên quan đến hacker.
 Hôm nay, báo tuổi trẻ online đăng một bài về trang từ điển nổi tiếng Wikipedia bị hack.
 
Vào 22-9, trang web từ điển bách khoa trực tuyến Wikipedia đã bị một số phần tử tân quốc xã tấn công thay đổi giao diện sau cái chết của người hùng chống quốc xã Simon Wiesenthal.

Bọn hacker tân quốc xã này không rõ bằng cách nào đã đột nhập được vào trang web từ điển bách khoa trực tuyến Wikipedia để thay đổi toàn bộ thông tin đề cập đến ông Simon Wiesenthal. Bọn chúng đã đưa lên đề mục này các thông tin xuyên tạc về ông  Wiesenthal, vu cáo rằng ông Wiesenthal đã từng là người đồng tính luyến ái từ những năm 1970 và chuyên ăn nằm với những người đàn ông da đen đứng tuổi.

Ông Simon Wiesenthal là một trong những người hiếm hoi còn sống sót trong các trại tập trung tàn bạo của Đức quốc xã trong thời Thế chiến II. Sau khi được quân Đồng minh giải thoát khỏi các trại tập trung, ông Wiesenthal đã lập ra một tổ chức hoạt động nhân quyền của người Do Thái, chuyên giúp đỡ các nhân viên điều tra của quân Đồng minh săn lùng các tội phạm Đức quốc xã tàn sát người Do Thái. Kết quả là đã có hơn 1000 tên tội phạm quốc xã đã bị tóm cổ và đưa ra tòa lãnh án. Ông Wiesenthal đã âm thầm qua đời trong giấc ngủ tại nhà riêng của mình ở Vienna vào đêm 20-9, hưởng thợ 96 tuổi.

Thời gian đột nhập và thay đổi giao diện của các hacker tân quốc xã tuy kéo dài không lâu nhưng cũng đủ thời gian để một số người dùng lưu lại bằng chứng. Đây là lần thứ hai trong lịch sử của mình, Wikipedia đã bị cố tình đột nhập để phá hoại.

Trường hợp tương tự cũng đã xảy ra gần đây. Sau khi chính thức đăng quang, trang web của giáo hoàng Benedict XVI cũng đã bị đột nhập thành công và hình của giáo hoàng Benedict XVI đã bị thay thế bằng hình của tên Quỷ Vương trong phim Star Wars.

Danh sách các tạp chí khoa học miễn phí

 

Thự viện của đại học Lund của Thụy Điển bảo trì một thư mục các tạp chí khoa học "mở". Trong thư mục này có danh sách này có 59 tạp chí KHMT, 65 tạp chí toán học , và 14 tạp chí thống kê. Có một danh sách khác của các tạp chí toán học trực tuyến, và các tạp chí khoa học trực tuyến nói chung.

Thư viện mở là hướng đi tất yếu.

Khoa học, báo chí, và dân ngoại đạo

Một bài báo của tờ Guardian viết về các tin tức khoa học viết trên báo chí phổ thông. Rất thú vị!

Tuần trước, tờ NY Times có bài op-ed của giáo sư Vật Lý Lisa Randall của Harvard về các từ chuyên môn của khoa học hay bị hiểu sai theo nghĩa phổ thông, và có thể bị lạm dụng cho các mục tiêu phi khoa học khác. Các từ hay bị hiểu sai bao gồm: tính tương đối (trong lý thuyết tương đối), nguyên lý bất định (của Heisenberg), lý thuyết (khoa học), quan sát (khoa học), global warming, vân vân.

KHMT có những từ chuyên môn nào mà dân ngoại đạo hay hiểu sai nhỉ? Lần trước tôi có một ví dụ về
hiểu sai chữ thuật toán.

Bài học của chúng ta: các nhà khoa học cần chủ động hơn trong việc quảng bá các kết quả khoa học chân chính cho dân ngoại đạo.







Friday, September 23, 2005

Năm mức ngu dốt

 

Bài báo Five levels of ignorance ở Communications of the ACM (số 10, năm 2000) của Phillip G. Armour nhìn quá trình phát triển phần mềm như việc nắm bắt tri thức và giảm sự ngu dốt. Lý luận của ông rằng phần mềm là phương tiện thứ năm chứa tri thức rất hay (bốn phương tiện kia là DNA, não, phần cứng các loại, và sách).

Ông chia sự ngu dốt (về vấn đề X nào đó) nói chung, và dốt trong phát triển phần mềm nói riêng ra là năm mức:

  • 0OI - không dốt: để đạt mức này ta phải biết X và chứng minh được rằng ta biết X. Ví dụ: tôi biết viết blog!
  • 1OI - thiếu kiến thức: để ... đạt được mức dốt này thì ta phải biết là ta thiếu kiến thức về X. Ví dụ: tôi biết là tôi không biết gì về cơ học lượng tử. Đạt được mức dốt này cũng đã tốt, vì nếu có nhu cầu tôi có thể đi tìm sách vở tài liệu về cơ học lượng tử để học thêm.
  • 2OI - thiếu nhận thức: ở mức dốt này thì ta không biết là ta không biết gì về X. Hiển nhiên là ta không thể cho ví dụ về 2OI nào! Tuy nhiên, thỉnh thoảng đọc sách đọc báo,đọc blog KHMT (!), tôi có thể tìm ra được nhiều thứ chưa bao giờ biết là mình không biết, và như thế tôi chuyển các thứ đó lên 1OI. Dù rằng với cơ học lượng tử nói chung thì tôi ở mức 1OI, chắc chắn là có các đối tượng cụ thể nào đó trong cơ học lượng tử mà tôi ở mức 2OI.
  • 3OI - thiếu quá trình: ở mức dốt này thì ta thiếu một quá trình cụ thể để khám phá ra rằng mình đang không biết rằng mình đang không biết về X. Nói cách khác, ở mức dốt này thì ta không biết cách nào để tìm ra các thứ mà ta không biết rằng ta không biết :-).
  • 4OI - siêu dốt: chữ này tôi dịch bừa từ chữ meta-ignorance, vì meta-physics người ta dịch là siêu hình (học). Ở mức dốt này thì ta không biết gì về năm mức ngu dốt.

Đến đây thì tôi không còn ở mức 4OI được nữa. (OI viết tắt của Order of Ignorance.)

Dân máy tính thường phải đọc/học rất nhiều để theo kịp sự phát triển với tốc độ ánh sáng của ngành mình. Trong quá trình này, với mỗi vấn đề X của ngành, ta sẽ chuyển dần dần từ 3OI xuống 1OI. Sau đó, nếu X là cái mà ta thật sự thích hoặc cần cho công việc thì sẽ chuyển nó lên 0OI.

Rất nhiều sinh viên và nghiên cứu sinh KHMT ở mức 3OI khi mới bắt đầu đi học. Sau đó họ tìm hiểu về quá trình nghiên cứu, quá trình tìm các vấn đề và hướng nghiên cứu mới, quá trính cập nhật kiến thức về ngành của mình, và chuyển dần các thứ lên 2OI. Để có một quá trình hiệu quả từ 3OI lên 2OI không dễ chút nào. Ví dụ đơn giản: các journals, conference nào trong ngành mình là có giá trị, làm thế nào để tìm đọc các bài trong chúng, phương pháp lọc bài đọc thế nào, vân vân.

Sau khi học được quá trình này rồi, ta có phương tiện để chuyển dần các khối kiến thức khác nhau lên 1OI. Đến khi sắp ra trường, chuẩn bị làm luận án Ph.D về cái gì đó thì (hy vọng rằng) ta đã có vài thứ ở 0OI.

 

Hội Khoa Học Trung Quốc chống "đạo khoa học"

 

Như trong "đạo văn", "đạo nhạc", làm khoa học có thể "đạo kết quả", "đạo dữ liệu", ... Hội khoa học Trung Quốc điều tra và công bố tên các "đạo gia" làm gương. Các trường hợp chôm kết quả, dịch luận án nước ngoài làm luận án của mình, vân vân, đều có.

Sự minh bạch là điều kiện tiên quyết của một xã hội văn minh.

 

Thursday, September 22, 2005

Thiết kế lại Internet (1)

1. Các vấn đề căn bản của Internet hiện nay

Từ khi Vint Cerf và Bob Kahn phác thảo bản thiết kế Internet đến nay, sự bùng phát của Internet và các ứng dụng của nó là bằng chứng sống rằng thiết kế này rất tốt. Họ được giải Turing rất xứng đáng. Tuy nhiên, hiện nay tồn đọng vài vấn đề mà Internet về bản chất không đáp ứng được:

  • Sau nhiều năm nghiên cứu về truyền dữ liệu thời gian thực (real-time data) như video, audio trên Internet, nhất là từ đầu thập niên 90 đến nay, vẫn chưa có giải pháp tốt cho vấn đề này. Các đề nghị về IntServ, DiffServ, RSVP , ... được IETF bàn ra tán vào bao nhiêu lâu mà ta vẫn không có video on demand. Đây không phải là do thiếu băng thông, mà do nguyên tắc thiết kế cố hết sức (best effort) và các nhân tố khác. Ở trung tâm (backbone) của Internet, ta chỉ dùng khoảng 15% khả năng của nó, còn ở ngoài rìa thì còn ít hơn - từ 1% đến 3% (xem bài báo của Odlyzko).
  • Các vấn đề về bảo mật không được coi trọng trong thiết kế ban đầu của Internet, gây ra nhiều vấn đề rất phức tạp:
    • Năm nào cũng nổi đình nổi đám vài con worms và viruses gây thiệt hại rất lớn.
    • 70-80% emails là spam - làm tốn bao nhiêu băng thông và thời gian, tiền bạc. Đó là chưa kể đến các vụ tấn công kiểu social engineering như vụ chuyển tiền từ Nigeria mà chúng ta ai cũng từng nhận được emails.
    • Các tấn công từ chối dịch vụ (DoS và DDos ) cực kỳ khó chống, vẫn là vấn đề đau đầu cho các nhà quản trị mạng.
    • Hackers tràn lan, thỉnh thoảng hack vào website của CIA hay của Microsoft cho vui, nói chi đến các công ty và máy tư nhân.
  • Routing protocol ở tầng toàn cục (BGP4 ) chịu ảnh hưởng lớn của từng router và sự chính xác của người đặt cấu hình router. Chỉ cần một (vài) BGP router bị lỗi là có thể làm mất tính liên thông của Internet rất lâu. (Xem vụ AS7007 năm 1997 và vụ AS3561 năm 2001.) Đó là chưa kể đến các vấn đề bảo mật liên quan đến routers có thể làm ảnh hưởng đến toàn mạng, bao gồm vụ Micheal Lynn vừa qua. Thời gian hồi phục sau lỗi của Internet rất lâu, trung bình là 3 phút, nhưng đa phần là trên 15 phút.
  • Việc các đối tác thứ 3 (third party) thò mũi vào càng làm cho vấn đề phức tạp. Khi xưa thì chỉ có Internet và người dùng. Nay thì các quan chức của các tổ chức lớn hay của các nhà nước, cùng với các quan tâm xã hội về tôn giáo, văn hóa, thuần phong mỹ tục, chính trị hoàn toàn làm quá tải thiết kế ban đầu. Internet hiện nay là gương phản chiếu thu nhỏ của xã hội loài người, với nhiều không gian mâu thuẫn của các loại đối trọng khác nhau mà bản thân thiết kế cũ không đáp ứng hết được.
  • Cho đến khoảng cuối những năm 90, thiết kế cũ của Internet vẫn còn đủ "nhuyễn" để đáp ứng được các công nghệ truyền thông mới (cáp quang, Ethernet tốc độ cao, ...). Tuy nhiên, xu hướng phát triển mạng không dây (wireless networks), mạng cảm biến (sensor networks), và mạng của các thiết bị tí hin khác (PDA, đồng hồ đeo tay, đồ dùng trong nhà, ...) đang đẩy TCP/IP đến hết ngưỡng chịu đựng của nó. Các mạng mới này có tần suất lỗi đường truyền cao, làm cho các ước lượng thời gian của TCP bị hổng cẳng. Các thiết bị con con mới ra đời là các thiết bị ngu ngốc, không phải cái nào cũng chạy được cả một TCP/IP stack, nhưng lại vẫn muốn nối mạng toàn cầu. Đây là chưa kể đến các kiểu mạng mà ta chưa hình dung được như mạng liên hành tinh.
  • Người sử dụng Internet bây giờ cũng "lơ tơ mơ" hơn trước nhiều. Thời gian mới ra đời thì Internet chủ yếu được dùng bởi dân máy tính hoặc các khoa học gia khác để trao đổi thông tin kỹ thuật và nghiên cứu. Hiện nay thì các dịch vụ cung cấp bởi Internet không đáp ứng được sự khác biệt quá lớn của người dùng: từ chuyên gia đến dân ngoại đạo.

Internet2 có khả năng giải quyết vài vấn đề nho nhỏ (mở không gian địa chỉ, multicast), nhưng về căn bản triết lý thiết kế chẳng khác gì hiện nay.

Các thách thức lớn này là một trong những mối quan tâm hàng đầu của các khoa học gia máy tính nói riêng và các tổ chức tài trợ nghiên cứu nói chung. NSF bắt đầu khởi xướng một
chương trình mới về thiết kế lại Internet lấy tên là GENI (Global Environment for Networking Investigation). Ước tính sẽ cần khoảng hơn 300 triệu USD cho giai đoạn đầu.

Để hiểu rõ các thuận lợi, khó khăn, và yêu cầu của một Internet mới, ta sẽ xem lại thiết kế cũ và các nguyên tắc của nó.

Wednesday, September 21, 2005

Nghiên cứu tin ... vịt

Các tin đồn thiệt và thất thiệt có khả năng gây hiệu ứng xã hội mạnh (cả tốt lẫn xấu). Ví dụ như tin đồn đầu tháng 9 là giá xăng sắp tăng, bà con đổ đi mua xăng. Tin đồn ở một buổi hành lễ ở Iraq là sắp có đánh bom tự sát làm cả nghìn người dẫm đạp lên nhau mà chết.

Có lẽ ai cũng đồng ý là tin vịt ảnh hưởng xấu đến tương tác xã hội, và đến các cá thể liên quan nói riêng. Ngược lại, các đối trọng thiếu quyền lực trong một xã hội hay một nhóm người có thể lợi dụng tin đồn để tuyên truyền một thông tin chính xác nào đó mà họ không thể truyền qua các phương tiện công khai.

Thế nhưng, tầm quan trọng của tin đồn trong các tương tác xã hội và cơ học của sự lan truyền tin đồn vẫn chưa được nghiên cứu cẩn thận. Hầu như không có dữ liệu khoa học nào về tin đồn. Gần đây, một nhóm các nhà nghiên cứu khoa tâm lý học ở viện công nghệ Rochester
(RIT) đã xin được tài trợ của NSF làm nghiên cứu về đề tài này.

Một trường hợp đơn giản của sự lan truyền các tin đồn và mô hình hóa chúng đã được nghiên cứu trong KHMT dưới cái tên
bài toán gossiping.
Đại khái, cho nhiều cá thể nối với nhau bởi một mạng thông tin liên lạc nào đó, mỗi cá thể có một mẩu tin muốn truyền cho tất cả các cá thể khác trên mạng lưới này. Cụ thể hơn, cho một đồ thị, trong đó mỗi đỉnh có một gói dữ liệu phải gửi đến tất cả các đỉnh khác.

Có rất nhiều biến thể của bài toán này, tôi liệt kê ra đây vài biến thể chính:

  • Cho trước đồ thị, thiết kế một thuật toán để các tin đồn lan truyền nhanh nhất, để tổng số gói dữ liệu gửi thừa là ít nhất (ví dụ anh A nghe tin đồn 2, 3 lần thì phí băng thông). Có thể có các giới hạn khác như: mỗi đỉnh chỉ được gửi/chuyển tiếp vài gói dữ liệu (tránh tình trạng overload). Vài ví dụ bài báo dạng này: một, hai, ba.
  • Tìm xem ít nhất cần bao nhiêu thời gian (cận dưới, cận trên) để các tin đồn hoàn tất, với nhiều dạng đồ thị khác nhau. Ví dụ một, hai.
  • Với một thuật toán lan truyền tốt nào đó, thiết kế đồ thị cho thuật toán này chạy tốt nhất. Ví dụ một, hai .

Bài toán này có khá nhiều ứng dụng, từ giải các hệ thống tuyến tính trong xử lý song song, FFT, đến bài toán sắp xếp. Xem thêm một survey cũ. Bài này cũng có liên quan đến bài toán tôi đã đề cập nhân vụ bão Katrina.

Sinh nhật 30 tuổi của Microsoft

Tờ Times/SunTimes online của Anh có báo cáo đặc biệt về Microsoft nhân sinh nhật 30 tuổi. Tác giả tóm tắt quá khứ, hiện tại, các thuận lợi và các vấn đề tương lai mà Microsoft phải đối chọi. Đối thủ cạnh tranh lớn nhất chính là Google.

Tờ Fotune có bài rất hay về
Microsoft vs Google hồi tháng 5 vừa qua

Tuesday, September 20, 2005

Tìm thiên thể mới bằng ... Google?

Tháng trước có một sự kiện xôn xao giới thiên văn. Tờ NY Times v ừa có bài về vụ này. Đại loại là ngày 27 tháng 7 vừa rồi một nhóm các nhà thiên văn Tây Ban Nha ra thông cáo rằng họ khám phá ra một thiên thể rất lớn trong hệ mặt trời, to gần bằng Pluto, với tên kỹ thuật là 2003 EL61, còn có tên khác là K40506A.

Oái oăm là, nhóm của giáo sư Michael Brown ở đại học Caltech đã theo dõi thiên thể này nhiều tháng liền trước đó, nhưng chưa thông báo ra vì muốn thu thập dữ liệu nghiên cứu trước. Không còn cách nào khác, ông Brown gửi thư chúc mừng các đồng nghiệp xứ bò tót, và thậm chí còn ghi rõ trên homepage rằng "các nhà khoa học kia xứng đáng hưởng kết quả tìm kiếm của họ " (xem tin ngày 10 tháng 8). Chưa hết, nhóm Caltech báo thêm 2 thiên thể nữa còn lớn hơn mà nhóm vẫn đang ... giấu diếm đã 6 tháng để nghiên cứu trước, trong đó
2003 UB313 , hành tinh thứ 10 của hệ mặt trời!

Sự kiện rẽ sang ngã mới khi Brown khám phá ra rằng cái log của kính thiên văn dùng để quan sát 2003 EL61 đã có thể truy cập được trên Internet vài ngày trước khi nhóm Tây Ban Nha thông báo kết quả của họ. Brown nói: "chỉ cần google K40506A 2 giây là ra".

Tôi vừa thử google thì ra cái
log này,
chắc không phải là log duy nhất. Dùng các dữ liệu này, ai có kính thiên văn là có thể hướng đến các tọa độ đó và quan sát thiên thể mới.

Sau khi truy cập weblog của các websites chứa dữ liệu về kính thiên văn, Brown thấy rằng có ai đó ở IP 61.111.165.49 (IP của viện thiên văn Tây Ban Nha - chỗ của nhóm kia) đã truy cập các logs này vào ngày ... 26 tháng 7, một ngày trước thông báo của nhóm kia.

Brown gửi email đến giám đốc trung tâm quốc tế về các hành tinh nhỏ yêu cầu tước bỏ "danh hiệu" người khám phá ra 2003 EL61 đầu tiên. Brown cũng bỏ lời chúc mừng nhóm kia ra khỏi homepage của mình.

Thời biểu chi tiết và các sự kiện liên quan
được nhóm của Brown để lên website của họ. Theo trang này thì Brown đã gửi email đến nhóm Tây Ban Nha về vụ truy cập weblog, không nhân được trả lời, nên vài ngày sau Brown mới càm ràm ra ngoài. Nhóm Tây Ban Nha thì nói: đây không phải lần đầu nhóm của Brown giấu diếm kết quả để nghiên cứu trước. Các thiên thể Quaoar và Sedna đã ở tình trạng tương tự.

Về nguyên tắc thì các khám phá khoa học nên được chia sẻ với toàn bộ cộng đồng nghiên cứu để đẩy nhanh tiến trình khám phá các chân lý mới. Thế nhưng, khi một nhà toán học khám phá ra một bổ đề quan trọng cho một định lý đang tìm cách chứng minh thì có phải "chia sẻ" kết quả này ngay với đồng nghiệp không? Hay là dành vài tháng, vài năm, suy nghĩ tiếp đến khi ra thì thôi?

Tôi không biết các qui chuẩn trong giới thiên văn thế nào, chứ nhà toán học giả dụ kia thì không vi phạm đạo đức nghề nghiệp gì sất!
Andrew Wiles gần như ở ẩn 7 năm trời để chứng minh định lý Fermat lớn ... một mình ông.

Các bạn nghĩ sao - Brown có lỗi gì trong việc giấu diếm kết quả này không?

Sunday, September 18, 2005

Khoa KHMT cần dạy gì cho thị trường việc?

[ Thông tin biết qua blog của Daniel Lemier]

Một bài viết
của Dan Zambonini càm ràm rằng sinh viên mới ra trường ở các khoa KHMT học rất nhiều thứ "kêu" như mạng neural, computer vision, AI, complexity theory, machine learning, quantum computing, bio-computing, ... mà thiếu kiến thức căn bản cho đa phần thị trường việc. Đại ý Dan nói rằng: "các khoa KHMT chú trọng quá nhiều vào phần science mà bỏ qua phần engineering" của máy tính.

Một danh sách sơ bộ các topics cần cho thị trường mà Dan nêu ra bao gồm:

  • The basics of Programming (variables, data types, references, pointers, scope, error handling, iteration, core algorithms - searching, sorting, etc.)
  • Basic mathematics, basic statistics
  • Patterns and Anti-Patterns (With real world examples, not just theory)
  • Real world Databases (Normalisation and De-normalisation, SQL, Indexing)
  • Basics of good code architecture: Loose Coupling, etc.
  • OO Design, Interfaces, etc.
  • The importance and tools of Planning: Spec'ing,, UML etc.
  • Architectures: client/server, SOA, P2P, etc.
  • A 'Big' language or two (Java, C#, C/C++)
  • A scripting/'agile' language or two (PHP, Perl, Python, Ruby)
  • XML (DOM/SAX, XSLT/XPath, etc.)
  • Economics, Business Studies, Costing Projects, Commercial pressures
  • Copyright, Privacy, Data Protection
  • Project/Time Management
  • Internationalisation, Localisation, Encoding, Unicode
  • Grammar, punctuation, concise and clear writing
  • Interface Design, Usability, Accessibility, HCI
  • Security
  • Code Reading
  • Common Protocols (TCP/IP, HTTP, SMTP, FTP)
  • Testing, Debugging, Performance, Re-factoring
  • Problem analysis
  • Source control, change management
  • The typical Software lifecycle
  • Metadata, Information Architecture, etc.
  • The basics of GIS
  • Touch typing
  • Health and safety (nutrition?)

Danh sách các topics này khá là thú vị. Tôi sẽ viết về một chương trình tôi cho là lý tưởng về KHMT vào dịp khác

Saturday, September 17, 2005

Nghe gõ bàn phím, đoán passwords

Một bài báo mới đây của Li Zhuang, Feng Zhou, và Doug Tygar (Berkeley) cho thấy có thể viết chương trình nghe và đoán ta đang gõ gì trên bàn phím, và đoán cả passwords, nếu chương trình có một đoạn ghi âm sẵn của khoảng 10 phút gõ.

Đại ý là âm thanh của các phím khác nhau (nhất là do một người gõ), do đó ta có thể dùng thống kê các ký tự tiếng Anh để đoán phím, với sự trợ giúp của các kỹ thuật căn bản của machine learning và speech recognition.

Nói túm lại chit-chat với Skype không khéo sẽ bị mất passwords hồi nào không hay.

Còn giao tiếp nào của người/máy có thể dùng cảm biến đo được nữa nhỉ? Sóng não?

Thursday, September 15, 2005

Sáu ý tưởng ngu nhất trong bảo mật

Đó là tên bài viết của Marcus Ranum, thông qua blog Schneier on security . Không hoàn hảo nhưng có nhiều ý thú vị.

Tuesday, September 13, 2005

tCác bài báo kinh điển của KHMT (7)

Một mạng sắp xếp ( sorting network) là một dạng cấu hình mạch xử lý song song với n cổng vào và n cổng ra như hình sau đây:



Các hình vuông là các bộ so sánh (comparator) có hai đầu vào và hai đầu ra. Bộ so sánh sẽ đưa số nhập nhỏ hơn lên đầu ra trên và số lớn hơn xuống dưới. (Trên hay dưới chỉ mang tính tương đối, đại loại là một ngõ xuất sẽ chứa số nhỏ, ngõ còn lại chứa số lớn.) Bất kể thứ tự n số nhập ra sao, thứ tự của n số xuất phải tăng dần từ trên xuống dưới ở mặt ra của mạng.

Số lớn nhất các bộ so sánh mà một tín hiệu nhập có thể đi qua gọi là độ sâu của mạng. Trong hình trên thì mạng có chiều sâu là 5. Tổng số các bộ so sánh là kích thước của mạng sắp xếp. Một bài toán kinh điển trong KHMT là: cho trước n, thiết kế mạng sắp xếp n x n với kích thước nhỏ nhất, và độ sâu càng nhỏ càng tốt. (Độ sâu đánh giá thời gian mà mạch này xếp thứ tự, kích thước cho biết độ phức tạp của mạng.)

Ta có thể dùng ý tưởng của các giải thuật sắp xếp kinh điển như
merge sort hay bubble sort để thiết kế một mạng sắp xếp một cách dễ dàng. Ví dụ, ta dùng đệ qui thiết kế mạng cho n/2 trước, sau đó nối kết hai mạng nhỏ hơn này với một bộ trộn (merger) để tại mạng n x n. (Cách này còn gọi là chia để trị - divide and conquer.)

Bài tập 1 : dùng ý tưởng của bubble sort để thiết kế một mạng sắp xếp n x n.

Bài tập 2: chứng minh rằng một mạng sắp xếp n x n cần ít nhất n lg(n) bộ so sánh.

Bài tập 3
: chứng minh rằng một mạng sắp xếp n x n có độ sâu ít nhất là lg(n).

Các cận dưới này thách thức các nhà khoa học máy tính trong một thời gian dài, cho đến bài báo kinh điển sau đây:

M. Ajtai, J. Komlós, and E. Szemerédi. An O(n log n) sorting network. Combinatorica 3(1), 1-19, 1983.

Trong bài báo này, Miklos Ajtai, János Komlós, và Enre Szemeredi chứng minh sự tồn tại của các mạng sắp xếp n x n với O(n lg n) bộ so sánh và độ sâu O(lg n). Mạng thiết kế kiểu này gọi là mạng AKS, và nó tối ưu (đến một hệ số nhân). Kết quả này hồi đó là một trong những kết quả rất lớn, không chỉ trong nhánh nghiên cứu về các mạng sắp xếp mà về lý thuyết tính toán nói chung.

Tiếc rằng kết quả của họ dùng phương pháp xác suất (
probabilistic method ), chỉ chứng minh được sự tồn tại nhưng không xây dựng được một mạng cụ thể (với mỗi n).
Việc xây dựng một mạng cụ thể với kích thước và độ sâu như mạng AKS vẫn là một bài toán mở quan trọng trong KHMT (đã hơn 20 năm). Bài báo của họ dùng expander graphs, một thành phần không thể thiếu của lý thuyết máy tính hiện đại.

Sunday, September 11, 2005

Thất bại lớn nhất trong lịch sử phần mềm

IEEE Spectrum tháng 9 đăng bài điều tra về thất bại của dự án 170 triệu USD của FBI: dự án Virtual Case File. Có nhiều bài học bổ ích về quản lý dự án phần mềm, từ thi công, thiết kế, đến khách hàng.

Saturday, September 10, 2005

Các tài liệu Halloween

Các tài liệu Halloween là một chuỗi các báo cáo nội bộ của Microsoft về các chiến lược đối chọi với phong trào phần mềm mã nguồn mở và Linux nói riêng.

Tài liệu Halloween số 1 bị lộ ra ngoài cuối tháng 10 năm 1998, đến tay Eric Raymond (người đang bảo trì hồ sơ biệt ngữ).
Eric đăng luôn lên website của anh cùng với lời bình. Microsoft đã nhận rằng tài liệu này là thật, tuy nhiên không nhận rằng đó là tài liệu chiến lược kinh doanh, mà chỉ là nghiên cứu kỹ thuật . Tài liệu Halloween số 2 nói riêng về Linux (thay vì phần mềm mã nguồn mở nói chung) cũng ở tình trạng tương tự ngay sau đó.

Một chuỗi các báo cáo, đính chính, phát biểu từ Microsoft liên quan đến các tài liệu này cũng bị lộ từ năm 1998 đến nay, và được đánh số từ 3 đến 11. Các tài liệu thú vị này vẽ một bức tranh nhiều màu sắc trong quan hệ giữa các đối trọng phần mềm thế giới. Ví dụ như vụ
Microsoft tuồn cho SCO 86 triệu đô để "oánh" Linux (và vì thế, IBM) được tiết lộ ở Halloween 9 & 10.

Bão Katrina và KHMT

Tình hình bão, các nguy hại, phương thức cứu trợ, ... đã được các nhà khoa học dự báo từ lâu. Đây là một ví dụ dự báo năm 2004. Có thể liên hệ gì từ một cơn bão như Katrina và khoa học máy tính?

  • Mấy hôm đầu tiên sau khi New Orleans bị ngập, các hệ thống thông tin liên lạc đều không làm việc, có điện thoại cầm tay cũng không dùng được vì nghẽn mạch. Các nhà lãnh đạo ở New Orleans rất cần phương tiện để điều phối nhân lực đi các nơi cứu người. May nhờ có sự giúp đỡ của quân đội với các kênh truyền thông trên các băng tần riêng, việc này mới từ từ vào đúng đường ray. Một trong các ngành nghiên cứu trong mạng máy tính hiện nay là mobile ad hoc networks (MANETs). Đây là các mạng không dây nối kết các thiết bị cầm tay (điện thoại, máy tính, PDAs, ...) mà không cần một cơ sở hạ tầng mạng có sẵn, rất tiện dụng và cần thiết cho việc liên lạc khi có thảm họa hoặc trong chiến trận.

Khi nhiều tổ chức riêng rẽ và nhiều cá nhân muốn đi khắp nơi cứu hộ, có hai cách làm: (1) có một ban chỉ huy giữ bản đồ phân bổ nhân lực đi khắp nơi, và (2) các nhóm khác nhau đi một cách tự giác.

Cách (1) có cái bất lợi là cần một khoảng thời gian nhất định để thu thập thông tin (có những nhóm nào, đang ở đâu, phương tiện, khí tài gồm những gì, vân vân), để tổ chức ban chỉ huy điều phối, tổ chức cách liên lạc hiệu quả, ... Trong tình trạng cứu nhân như cứu hỏa, mỗi phút mỗi giây chậm trễ đều có thể phải trả giá bằng nhân mạng.

Cách (2) lại có cái bất lợi khác là rất không hiệu quả, và không chắc rằng các nhóm nhỏ sẽ bao trùm hết được toàn bộ các nơi, cho dù tất cả bọn họ đều có bản đồ và có liên lạc với nhau khi gặp (ở các ngã tư đường chẳng hạn).

Có thể phải dùng một tổ hợp của hai cách để cho giải pháp hiệu quả nhất.

Ta có thể mô hình một phiên bản đơn giản hóa của bài toán này bằng một đồ thị. Vài con kiến bò độc lập với nhau ở từ đỉnh này sang đỉnh khác của đồ thị. Câu hỏi là: hãy thiết kế một thuật toán phân bố cho từng con kiến sao cho thời gian bao quát toàn bộ đồ thị là ngắn nhất. (Một đồ thị được bao quát nếu mỗi đỉnh đều có ít nhất một con kiến ghé thăm.) Biến thể của các giả thiết sau đây là các phiên bản khác nhau của bài toán:

  • Các con kiến trao đổi/không trao đổi thông tin lẫn nhau nếu gặp ở một đỉnh nào đó.
  • Các con kiến có bản đồ/không có bản đồ.
  • Các con kiến chỉ cần bao quát x phần trăm của bản đồ trong khoảng thời gian y ngày.

Trong mạng máy tính thì bạn có thể tưởng tượng ta gửi một vài agents (con kiến) đi thu thập thông tin về các routers trên mạng. Trong P2P networks thì các con kiến tượng trưng cho các query packets. Cũng có thể hỏi: cấu hình mạng (topology) thế nào thì các con kiến sẽ hoạt động hiệu quả nhất. Những thứ này sẽ liên quan chặt chẽ đến random walks on graphs và expanders, một công cụ toán học cực kỳ hữu dụng trong KHMT hiện đại.

Trả lời phần nào các câu hỏi trên, và bạn sẽ có một luận án tiến sĩ ra trò!

Wednesday, September 07, 2005

Hacker Châu Phi

IEEE Spectrum có một câu chuyện truyền cảm về chủ một công ty phần mềm ở Ghana, Châu Phi. Nhiều chi tiết rất thú vị và đáng học tập:

  • "Saviors" are common in Africa, and they usually come in the form of demagogues or rebel leaders, missionaries or medical doctors, peacekeepers or refugee-camp managers. Rarely are they Birkenstock-wearing engineers or software programmers. That's why Chinery-Hesse is worth getting to know. Because if Africa has a sunny future, Chinery-Hesse will be a part of it.
  • And to combat the rampant piracy, beta versions of software rarely leave Soft's premises, finished products don't have an autoinstall function (you need a Soft technician to launch them), and batches of bug fixes are often delivered individually to customers rather than generally released.
  • Linux is simply impractical for his purposes. "It can't be used for serious business," he says, because it would be too easy for employees of a business to learn to use—and abuse—the source code of essential programs.
  • ...