Phân tích cảm xúc review Amazon bằng NLTK và Transformers: VADER vs RoBERTa
VADER và RoBERTa đối đầu trực tiếp trên 568,454 review Amazon Fine Food. RoBERTa đạt accuracy 0.88-0.92 so với tương quan chỉ 0.49 của VADER với star rating thực tế. VADER chạy ngay trên CPU, 3 dòng code - phù hợp prototype nhanh. Dự án open-source, dataset miễn phí trên Kaggle, toàn bộ pipeline hoàn chỉnh trong 30 phút.
Foundations of Large Language Models - Cuốn sách 247 trang miễn phí bạn nên đọc ngay
Foundations of Large Language Models là sách học thuật 247 trang, miễn phí trên arXiv, bao phủ 5 trụ cột kỹ thuật từ pre-training đến inference. Tác giả Tong Xiao và Jingbo Zhu dùng ký hiệu toán học chuẩn với Q/K/V matrices, KL divergence, RLHF formal derivations. Chương 5 gồm inference-time scaling kiểu o1 - rare trong sách giáo khoa foundational. License CC BY-NC 4.0, tải PDF miễn phí tại arxiv.org/abs/2501.09223.