Về mặt kiến trúc, 66b dựa trên biến đổi (transformer) theo dõi phụ thuộc ngữ cảnh và chú ý tự động. Số lượng tham số xấp xỉ 66 tỷ, cho phép mô hình nắm bắt các mẫu ngôn ngữ phức tạp và ngữ cảnh dài hạn. Việc huấn luyện kết hợp nhiều tập dữ liệu đa ngôn ngữ giúp 66b hoạt động tốt trên nhiều ngữ cảnh khác nhau.

