4 月 23 日,大模登場微軟推出小語言模型(SLM)Phi-3系列,型讓有Phi-3-mini、模型Phi-3-small、丨科Phi-3-medium三個版本,創聞在評估語言、大模登場編程、型讓數學能力等的模型基準測試中,Phi-3系列模型表現優于同等規模甚至更大規模模型(如GPT-3,丨科5)。微軟稱其是創聞目前同類中最強大且最具成本效益的小型語言模型。
Phi-3模型的大模登場“小體積”,讓手機上運行高能力的型讓語言模型成為可能。如Phi-3-mini只占用手機18GB內存,模型如在iPhone 14上部署,丨科蘋果的創聞A16仿生芯片在設備上脫機運行,可以實現每秒超過12個token。
自2022年12月ChatGPT爆火之后,科技公司們一頭扎進了大型模型的競爭,2023年接連刷新模型參數,2024年開始“內卷”長文本。大家似乎默認數據越多、參數越大、算力越強,模型的能力越強。
但是,高昂的運行成本、具體場景模型調試難度等問題,讓大模型商業化的路徑慢下來。此時小模型的優勢就體現出來了。
小模型,目前某些領域也能接近大模型的性能。特別是在各手機和PC廠商正在力推的AIPC、AI手機上,對設備計算能力、運行能力、儲存能力要求較低,能在地化運行的小模型,的確是不錯的選擇。
其實早在2023年6月份,微軟就發布了第一代Phi模型,Phi-3系列已經是其第四代產品。近期,蘋果公司也湊了小模型的熱鬧。
2024年4月24日,在大模型上沒有什么動靜的蘋果公司,發布開源小語言模型OpenELM,包括