Tính toán của GLM dựa trên hai cơ sở. Thứ nhất, đó là thống kê số từ chứa trong tất cả các bộ từ điển phổ biến của Anh ngữ, thí dụ như Oxford English Dictionary, Merriam-Webster's, Macquarie's.
Chỉ riêng bộ Merriam-Webster's trong lần tái bản thứ ba đã có tới hơn 450 nghìn từ.
Cơ sở thứ hai trong các tính toán của GLM đó là việc thống kê các từ mới xuất hiện bằng một thuật toán đặc biệt (Predictive Quantities Indicator).
Thuật toán này được sử dụng khi phân tích tất cả các loại phương tiện thông tin đại chúng (bằng giấy in và điện tử), kể cả những sách khoa học kỹ thuật, các blog liên tục xuất hiện trên mạng, những ghi chép cá nhân trong các trang web...
Phương pháp thống kê của GLM bị một số nhà khoa học phê phán vì đã mở quá rộng đối tượng được coi là từ mới trong tiếng Anh. Tại ban biên tập của các từ điển kinh điển, việc thống kê từ được tiến hành theo những nguyên tắc chặt chẽ hơn.
Thí dụ, bộ từ điển Oxford chỉ có 300 nghìn mục chính và 615 nghìn hình thái từ, trong đó có cả những từ cơ bản và những liên kết từ phát sinh từ chúng.
Có khoảng 20% số từ tiếng Anh mà GLM thống kê là những phương án "khúc xạ" các từ gốc, được sử dụng ở Trung Quốc và Nhật Bản (gọi là "Chinglish" và "Japlish").
Trong số này có những tổ hợp từ mang ý nghĩa cực kỳ bất ngờ, thí dụ như "drinktea" (có nghĩa là "đóng cửa"), hay "torunbusiness" (có nghĩa là "mở cửa"). Ngoài ra trong thống kê của GLM còn có nhiều từ nói sai của Tổng thống Mỹ George Bush (Bushisms)...
(Theo An Ninh Thế Giới)