|
大家好,我是老章 我長期大量網(wǎng)上沖浪,收集整理了很多大模型世界最新動態(tài)。 量大管飽,大家可以挑感興趣的研究一下,目錄如下:
Claude 3.5 SonnetAnthropic 發(fā)布 3.5 系列首個模型: Claude 3.5 Sonnet,這也是 Anthropic 目前最強大模型! 朋友們用起來??(最近風好嚴重,老章也慘遭封號??):https:// Google 新發(fā)布的 Gemma 2!9B & 27B 的底座!Google發(fā)布其開源模型 Gemma 2
模型: http:///google 蘋果和EPFL聯(lián)合開源的多模態(tài)模型訓練框架:4M![]() 蘋果和EPFL聯(lián)合開源的多模態(tài)模型訓練框架,業(yè)界良心,含金量巨高!支持數(shù)十種模態(tài)和任務,讀圖能力支持表面法線、深度圖、圖片分割、物體檢測、圖片描述。畫圖能力支持線框補圖、畫深度圖和表面法線、基于深度圖和區(qū)域修改圖片。支持微調來適配新類型的任務 項目地址:https://4m. OpenAI 開發(fā)了一個名為 CriticGPT 的模型![]() CriticGPT,一種基于GPT-4訓練優(yōu)化的模型,專門用于來發(fā)現(xiàn)ChatGPT中的代碼錯誤。 通過與人類合作CriticGPT能夠顯著減少模型幻覺,同時保持高效的錯誤檢測能力。 當前的LLM模型如ChatGPT等,在生成復雜代碼時,即使是經驗豐富的專家也難以可靠地評估其輸出的質量和正確性。CriticGPT通過訓練模型生成自然語言評論,幫助人類更準確地評估代碼,從而彌補了人類評估的局限性。 研究發(fā)現(xiàn),在CriticGPT的幫助下,人們審查ChatGPT代碼的表現(xiàn)比沒有幫助時高出60%。 B站 BiliBili開源了Index-1.9B模型Index-1.9B系列是Index系列模型中的輕量版本 1.9B包含:Index-1.9B base : 基座模型,具有 19億 非詞嵌入?yún)?shù)量,在2.8T 中英文為主的語料上預訓練,多個評測基準上與同級別模型比處于領先 模型: github:https://github.com/bilibili/Index-1.9B Index-1.9B-Chat:https:///IndexTeam/Index-1.9B-Chat ![]() Qwen2 接上 SD3 Medium 文生圖支持中文輸入,會自動優(yōu)化并輸出英文提示詞 工作流:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO Qwen2 插件:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-2 ![]() DeepSeek-Coder-V2:代碼和數(shù)學能力超越GPT-4的開源模型DeepSeek-Coder-V2:首個開源模型在編碼和數(shù)學方面超越 GPT4-Turbo
輸出性能達 5000-10000 token/s,百萬輸出 Token 2元 ,對標 Mistral 的代碼模型 Codestral,DeepSeek 開源具備頂尖代碼和數(shù)學推理能力的 DeepSeek Coder V2 開放論文,模型和代碼,支持 236B 和 16B,支持微調并開放 API 服務 項目地址:https://github.com/deepseek-ai/DeepSeek-Coder-V2 Google 的 Video-to-Audio 技術![]() 視頻生成模型正在以驚人的速度發(fā)展,但許多當前系統(tǒng)只能生成無聲輸出。讓生成的電影栩栩如生的下一個重要步驟之一是為這些無聲視頻創(chuàng)建配樂。 谷歌分享了視頻轉音頻 (V2A) 技術的進展,該技術使同步視聽生成成為可能。V2A 將視頻像素與自然語言文本提示相結合,為屏幕上的動作生成豐富的音景。 詳情:https://deepmind.google/discover/blog/generating-audio-for-video/ 由 Google Imagen 2 模型驅動的字母表生成器![]() 谷歌這個項目可根據(jù)提示詞創(chuàng)造各種字母形式,然后用它來書寫各種內容 非常適合制作標題或封面藝術! 傳送門 : https://labs.google/gentype 我也生成了一個:章北海 水果主題 海洋主題 ![]() 微軟開源的一個文本編碼器Glyph-ByT5-v2。支持使用十多種語言生成圖片。 還搭配了一個使用這個文本編碼器的 SDXL 模型,可以直接生成中文海報和內容。 從演示來看排版都挺好的。
模型下載:https:///GlyphByT5/Glyph-SDXL-v2 ![]() 可以在這個 huggingface 空間里面體驗,支持通過畫框進行自定義排版。 https:///spaces/GlyphByT5/Glyph-SDXL-v2 ![]() Streamer-Sales:一個直播賣貨大模型![]() 能自動賣貨 同時實時回答客戶任何問題?? 它能根據(jù)商品特點自動生成吸引用戶的解說文案,支持將語音輸入轉換為文字,便于主播在直播過程中與觀眾互動。 同時還能生成帶有情感的語音輸出,使解說更加生動自然。還能一鍵生成數(shù)字人。 甚至支持 Agent 通過網(wǎng)絡查詢快遞信息。 GitHub: https://github.com/PeterH0323/Streamer-Sales 在線體驗:https:///apps/detail/HinGwenWong/Streamer-Sales 螞蟻開源首個 GraphRAG 框架!![]() 構建生產級別的 AI Native Agent 應用!支持圖可視化和詳細示例代碼!
項目地址:https://github.com/eosphoros-ai/DB-GPT RAG2SQL開源工具8K Stars!Text2SQL還不夠?試試更精準的RAG2SQL開源工具 官網(wǎng):https:// Github: https://github.com/vanna-ai/vanna ![]() LlamaIndex 數(shù)據(jù)處理、RAG 、Agentic RAG PPT 和代碼LlamaIndex團隊在 @databricks舉辦的 @Data_AI_Summit數(shù)據(jù) AI 峰會上分享了如何構建能夠處理復雜文檔的高級 RAG 應用????,幾乎涵蓋了目前數(shù)據(jù)處理、RAG 、Agentic RAG 等頂級前沿的理念并開放了 PPT 和代碼!?? PPT: https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ_P9U/edit?usp=sharing OmniParse:支持多模態(tài)的數(shù)據(jù)結構化的平臺輸入文檔、表格、視頻、音頻、網(wǎng)頁等數(shù)據(jù),OmniParse可以把數(shù)據(jù)清洗成結構化的數(shù)據(jù),然后可以用于微調和RAG。 Github:https://github.com/adithya-s-k/omniparse Pipecat:一個可用于構建語音和多模態(tài)對話的 AI 開源框架![]() 你可以用它來創(chuàng)建私人教練、會議助手、兒童故事講述玩具、客服機器人等 AI 語音助手。 GitHub:https://github.com/pipecat-ai/pipecat
|
|
|