Tuesday, January 13, 2015

Hệ số tác động (Impact Factor) chưa chết!


Hôm qua, một nhóm "faculty" trong Viện có dịp ngồi xuống để bàn thảo về impact factor (IF), hay hệ số tác động, và qua thảo luận, tôi thấy rằng chỉ số này … chưa chết. IF là một thước đo thường được dùng để đánh giá một tập san. Tôi nghĩ tôi là người đầu tiên giới thiệu chỉ số này (và chỉ số H) trên báo chí VN lâu lắm rồi. Lúc viết bài giới thiệu, tôi có nói chỉ số này rất nhiều người không ưa. Nhưng trong thực tế, tôi thấy ai cũng ngấm ngầm hay công khai dùng IF để đánh giá chất lượng bài báo. Do đó, tôi nghĩ IF chưa chết, và chúng ta phải tìm cách sống với nó một cách sáng suốt.



Ở Viện Garvan, nơi tôi đang làm việc, có chính sách rất cụ thể và đơn giản là bất cứ nhà khoa học nào công bố công trình trên các tập san có IF bằng 10 hay cao hơn sẽ được thưởng 1000 AUD. Nếu bài báo có 10 tác giả, mỗi tác giả vẫn được 1000 AUD. Lúc đó, tôi rất ngạc nhiên và có phản đối. Tôi ngạc nhiên là tại sao chọn ngưỡng 10. Tôi phản đối là vì IF không phải là chỉ số hoàn hảo, vậy dựa vào đó để thưởng là không công bằng. Có người mỉa mai tôi và nói chính tôi và nhóm của tôi từng nhận tiền thưởng, vậy sao lúc đó không phản đối?!  Còn lấy cái mốc 10 vì trong ngành y, cái mốc đó phản ảnh các tập san "top 5%" trên thế giới.

Sau này, tôi còn được biết không chỉ Úc mà rất nhiều nơi trên thế giới thưởng cho nhà khoa học có công bố trên tập san ISI có IF tốt. Mã Lai, Thái Lan, Pakistan, China, v.v. (những nơi mà tôi biết) đều có chính sách thưởng cho công bố quốc tế, nhưng tiêu chuẩn của họ dễ dãi hơn Úc. Chẳng hạn như ở China, họ có chính sách thưởng cho nhà khoa học theo chỉ số IF (1). Trường Đại học Y Quảng Đông có chính sách thưởng cho những tác giả có bài trên tập san IF 1-2 là 2400 USD, bài trên Nature và Science sẽ được thưởng 32,000 USD cho tác giả đầu và 50% cho tác giả hai, và giảm dần dần cho đến tác giả sau cùng. Phải nói tiền thưởng của China rất "đậm" mà nhà khoa học Úc có mơ cũng không có được. Có lẽ nhờ loại chính sách này mà ngày nay China đứng hạng 2 (chỉ sau Mĩ) về công bố quốc tế.

IF là số lần trích dẫn trung bình (tính trên mỗi bài báo) đã công bố 2 nước trước. Ví dụ như trong 2 năm 2006-2007, tập san ABC công bố 100 bài báo, và trong năm 2008 có 350 bài báo khác trích dẫn 100 bài báo đó, thì chỉ số IF = 350/100 = 3.5. Đó là chỉ số mà Eugene Garfield đề xuất khoảng 40 năm trước. Mục tiêu của IF, như Garfield nói, là để tác giả có thể chọn tập san có ảnh hưởng mà công bố bài báo. Tập san nào có IF càng cao, Garfield cho rằng tập san có tác động càng lớn. Trong một thời gian dài (từ 1975 đến nay) chỉ số IF được các tập san khoa học dùng rất thường xuyên như là một thước đo về uy tín và ảnh hưởng. Nhà khoa học cũng dựa vào IF để chọn tập san. Các đại học thì dùng IF để đánh giá nhà khoa học! Có thể nói rằng IF đã trở thành một nét văn hoá khoa học.

Rất nhiều người sau đó chỉ ra những nhược điểm của IF. Một minh chứng rất dễ hiểu nhất là nếu tập san công bố 100 bài, và trong số đó 95 bài chẳng ai trích dẫn, chỉ có 5 bài được trích dẫn tất cả là 500 lần, thì IF = 5. Điều này cho thấy IF dễ bị "lệch" bởi các bài báo nổi tiếng, và do đó, không phản ảnh đúng uy tín của tập san. Biết được nhược điểm này, một số tập san cho công bố các bài tổng quan (review) vì những bài này thường được trích dẫn nhiều (Dù biết rằng đó là trò không mấy hay ho, nhưng hoàn toàn "hợp pháp"). Như vậy, IF có thể dễ bị lạm dụng.

Nhưng trong thực tế và nhìn chung, phải nói rằng IF đúng là phản ảnh chất lượng tập san. Sự thật không thể bác bỏ là trong mỗi chuyên ngành, tập san có IF càng cao thì cũng chính là tập san được các chuyên gia trong ngành đánh giá cao. Trong một nghiên cứu thú vị, các nhà nghiên cứu hỏi 264 bác sĩ nội khoa (internal medicine) đánh giá chất lượng tập san, rồi sau đó tính hệ số tương quan điểm đánh giá với IF (2). Kết quả cho thấy hệ số tương quan giữa điểm đánh giá và IF là rất cao: r^2=0.82. Nhóm có kinh nghiệm làm nghiên cứu có hệ số tương quan (r^2 = 0.83)  cao hơn nhóm không làm nghiên cứu (r^2 = 0.62). Như vậy, rõ ràng IF phản ảnh chất lượng tập san theo đánh giá của người trong ngành.

Một chỉ số khác rất được nhiều người trong giới khoa học dùng là chỉ số H do nhà vật lí Jorge Hirsch đề xướng vào năm 2005 (3). Chỉ số H phụ thuộc vào số bài báo và số lần những bài báo đó được trích dẫn, và do đó quân bình được phần lượng và phần phẩm. Theo Hirsch, một nhà khoa học có chỉ số H bằng 5 có nghĩa là người đó có 5 bài báo với mỗi bài được trích dẫn ít nhất là 5 lần. Dĩ nhiên, người đó có thể có hàng trăm bài, nhưng số bài có trích dẫn 5 lần trở nên chỉ 5. Vẫn theo Hirsch, một nhà khoa học có H = 20 sau 20 năm nghiên cứu có thể xem là "thành công", còn người có H = 40 sau 20 năm nghiên cứu có thể xem là "outstanding". Khi mới ra đời, chỉ số H được sự chú ý và áp dụng của giới đại học, vì họ thấy đây là chỉ số lí tưởng để đánh giá một nhà khoa học. Trong thực tế, quả thật chỉ số H được sự dụng ở hầu hết các trung tâm và viện đại học trong việc đánh giá nhà nghiên cứu và trung tâm nghiên cứu.

Nhưng chỉ số H vẫn chưa hoàn hảo, vì ngành có nhiều trích dẫn như thần kinh học, di truyền, miễn nhiễm học, vật lí, v.v. thì các nhà khoa học này sẽ có chỉ số H cao hơn ngành ít trích dẫn.  Ngoài ra, chỉ số H tuỳ thuộc vào thời gian, những "cây đa cây đề" có chỉ số H cao hơn người mới vào nghiên cứu. Để khắc phục hai nhược điểm này, có người đề nghị dùng chỉ số H ngành vật lí làm chuẩn và các ngành khác điều chỉnh chỉ số H dựa vào ngành vật lí. Để điều chỉnh cho thời gian, các nhà nghiên cứu đề nghị chia chỉ số H cho thời gian nghiên cứu, gọi kết quả là chỉ số g. Cho đến nay, bài báo của Hirsch đã được trích dẫn hơn 4000 lần, cho thấy tầm ảnh hưởng rất lớn của chỉ số này trong thực tế!

Gần đây, một nhóm nhà khoa học có tiếng ra tuyên bố DORA, đề nghị không dùng IF trong việc đánh giá khoa học. Tôi là một trong những người có tham gia thảo luận trước khi DORA ra đời, nhưng cũng như nhiều người khác, tôi không tham gia kí tên vì không đồng ý với vài điểm trong đó. Tuyên bố DORA tuy được đánh giá cao nhưng ít ai làm theo! Lí do là vì DORA không chỉ ra được cái gì mới, và quan trọng hơn là họ chẳng đề xuất một cách đánh giá nào cụ thể và khả thi. Còn những gì DORA chỉ ra là khiếm khuyết thì giới khoa học đã biết 30 năm qua. Có người nói rằng DORA chỉ đấm vào … không khí.

Một trong những cách đánh giá công trình khoa học tốt nhất là đọc bài báo đó. Tôi cũng đồng ý với cách làm này. Nhưng điều này không thực tế, vì chẳng ai có thì giờ ngồi đọc hàng chục, thậm chí hàng trăm bài báo, của một ứng viên để đánh giá. Mỗi một vị trí giáo sư có thể có hàng trăm ứng viên, thì chẳng có hội đồng xét duyệt nào có thể đọc hết và đánh giá tất cả các ứng viên. Do đó, người ta phải sử dụng đến những chỉ số như IF và số lần trích dẫn (citations) như là một bước tầm soát (screening) ban đầu. Như là một qui luật và là một sự thật: các bài báo công bố trên các tập san có IF cao thường được trích dẫn nhiều hơn những bài công bố trên các tập san có IF thấp. (Đó tình hình chung, nhưng vẫn có ngoại lệ là những bài công bố trên tập san có IF thấp vẫn có thể có trích dẫn cao).

Nhưng câu hỏi đặt ra là chuyên gia trong ngành đánh giá có chính xác không, có đáng tin cậy không? Theo suy nghĩ thông thường, chuyên gia đánh giá thì phải chính xác. Nhưng trong thực tế thì không phải như vậy. Một nghiên cứu rất thú vị vừa được công bố trên PLoS Biology (4) cho thấy sự nguy hiểm để cho chuyên gia đánh giá. Trong nghiên cứu này, tác giả so sánh 3 cách đánh giá:

(a) đánh giá của chuyên gia sau khi bài báo được công bố;
(b) số lần trích dẫn; và
(c) hệ số tác động (IF) của tập san. 

Kết quả cho thấy đánh giá của các chuyên gia phụ thuộc vào tập san rất nhiều, họ có xu hướng đánh giá cao hơn thực tế những bài báo được công bố ở các tập san có IF cao. Nhưng sau khi điều chỉnh cho IF, thì mối tương quan (hay nhất quán) về đánh giá chất lượng giữa các chuyên gia trong rất yếu. Chẳng hạn như trong số 170 bài chuyên gia A cho điểm là 1, có 110 bài (65%) chuyên gia B cho điểm 2 và cao hơn! Trong số 56 bài chuyên gia A cho là "ngoại hạng" (exceptional) thì có đến 72% bài chuyên gia B xem là "cần đọc" hay thấp hơn là "nên đọc".  Tất cả những sự thật này cho thấy các nhà khoa học rất kém trong việc đánh giá chất lượng bài báo! Các nhà nghiên cứu đi đến kết luận rằng cả 3 cách đánh giá chất lượng đều có nhược điểm, nhưng trong 3 phương pháp đó, chỉ số tác động IF là khách quan nhất và đáng tin cậy nhất. 

Nghiên cứu trên không phải là nghiên cứu duy nhất cho thấy IF vẫn có vai trò của nó trong thực tế. Rất nhiều nghiên cứu trong quá khứ cho thấy trong mỗi chuyên ngành, tập san nào có IF cao cũng chính là tập san được giới chuyên môn đánh giá có chất lượng cao. Đó là sự thật không thể bác bỏ được. IF, do đó, đem lại lợi ích và "chiến thắng" cho một số nhỏ nhà khoa học, nhưng tạo ra một cộng đồng "thất bại" lớn hơn.

Dĩ nhiên, ai cũng biết IF có nhược điểm, thậm chí nhiều nhược điểm, nhưng những nhược điểm đó có vẻ liên quan đến lí thuyết và ngoại vi, vì trong thực tế IF có tương quan cao đến tầm ảnh hưởng của tập san, và trong nhiều trường hợp, với bài báo khoa học. Đó chính là lí do tại sao giới khoa học vẫn dùng IF trong thực tế. Họ không phải "dốt" như nhiều người tưởng; họ biết rằng IF vẫn có giá trị tốt như là một công cụ giúp họ tầm soát những công trình nghiên cứu có chất lượng, và giúp các nhà quản lí trong các quyết định của họ. Các chỉ số định lượng như IF hay mới đây là chỉ số "almetrics" và "eigenfactor" sẽ vẫn tồn tại và được sử dụng thường xuyên trong tương lai. Do đó, có thể nói rằng IF chưa chết, và chúng ta không nên bác bỏ chỉ số này, ít nhất là trong tương lai gần, để chuốc lấy thất bại cho bản thân. 

Tham khảo:

[1] Shao J, Shen H. The outflow of academic papers from China: why is it happening and can it be stemmed?  Learned Publishing 2011; 24:95-97.

[2] Saha S, et al. Impact factor: a valid measure of journal quality? J Med Libr Assoc 2003;91:42-46.

[3] Hirsch JE. An index to quantify an individual's scientific research output. PNAS 2005;102:16569-72. http://www.pnas.org/content/102/46/16569.full.pdf 

[4] Eisen JA, et al. The Assessment of Science: The Relative Merits of Post-Publication Review, the Impact Factor, and the Number of Citations. PLoS Biol 11(10): e1001675.

Mới phát hiện một trang có thống kê các nhà khoa học gốc Việt được trích dẫn nhiều. Đọc chỉ để tham khảo, chứ con số thực tế có thể không chính xác vì Google Scholar tính số trích dẫn rất rộng: 



1 comment:

Nguyễn Duy Duẩn said...

It is a valuable writing about IF and H Thank you very much, Prof. Nguyen!