【原】大模型最新情報

ml_Py 2024-07-03 發(fā)布于河南

展開全文

大家好，我是老章

我長期大量網(wǎng)上沖浪，收集整理了很多大模型世界最新動態(tài)。

量大管飽，大家可以挑感興趣的研究一下，目錄如下：

Claude 3.5 Sonnet
Google 新發(fā)布的 Gemma 2！9B & 27B 的底座！
蘋果和EPFL聯(lián)合開源的多模態(tài)模型訓練框架：4M
OpenAI 開發(fā)了一個名為 CriticGPT 的模型
B站 BiliBili開源了Index-1.9B模型
Qwen2 接上 SD3 Medium 文生圖
DeepSeek-Coder-V2：代碼和數(shù)學能力超越GPT-4的開源模型
Google 的 Video-to-Audio 技術
由 Google Imagen 2 模型驅動的字母表生成器
微軟開源的一個文本編碼器Glyph-ByT5-v2。
Streamer-Sales：一個直播賣貨大模型
螞蟻開源首個 GraphRAG 框架！
RAG2SQL開源工具
LlamaIndex 數(shù)據(jù)處理、RAG 、Agentic RAG PPT 和代碼
OmniParse：支持多模態(tài)的數(shù)據(jù)結構化的平臺
Pipecat：一個可用于構建語音和多模態(tài)對話的 AI 開源框架

Claude 3.5 Sonnet

Anthropic 發(fā)布 3.5 系列首個模型: Claude 3.5 Sonnet，這也是 Anthropic 目前最強大模型！

朋友們用起來??（最近風好嚴重，老章也慘遭封號??）：https://

Google 新發(fā)布的 Gemma 2！9B & 27B 的底座！

Google發(fā)布其開源模型 Gemma 2

全新的架構設計性能大幅提升
Gemma 2擁有9B和27B參數(shù)規(guī)模，相比第一代模型在推理效率和安全性上有顯著提升。
27B的Gemma 2在同等規(guī)模模型中表現(xiàn)最佳，甚至可與體積兩倍的模型競爭。
優(yōu)化在各種硬件上高速運行，從高端桌面、游戲筆記本和云端設置上都能實現(xiàn)高效運行。

模型: http:///google
報告: https://ai.v/gemma
試玩：https:///spaces/huggingface-projects/gemma-2-9b-it

蘋果和EPFL聯(lián)合開源的多模態(tài)模型訓練框架：4M

蘋果和EPFL聯(lián)合開源的多模態(tài)模型訓練框架，業(yè)界良心，含金量巨高！支持數(shù)十種模態(tài)和任務，讀圖能力支持表面法線、深度圖、圖片分割、物體檢測、圖片描述。畫圖能力支持線框補圖、畫深度圖和表面法線、基于深度圖和區(qū)域修改圖片。支持微調來適配新類型的任務

項目地址：https://4m.
在線體驗：https:///spaces/EPFL-VILAB/4M
Github：https://github.com/apple/ml-4m
論文：https:///abs/2406.09406

OpenAI 開發(fā)了一個名為 CriticGPT 的模型

CriticGPT，一種基于GPT-4訓練優(yōu)化的模型，專門用于來發(fā)現(xiàn)ChatGPT中的代碼錯誤。

通過與人類合作CriticGPT能夠顯著減少模型幻覺，同時保持高效的錯誤檢測能力。

當前的LLM模型如ChatGPT等，在生成復雜代碼時，即使是經驗豐富的專家也難以可靠地評估其輸出的質量和正確性。CriticGPT通過訓練模型生成自然語言評論，幫助人類更準確地評估代碼，從而彌補了人類評估的局限性。

研究發(fā)現(xiàn)，在CriticGPT的幫助下，人們審查ChatGPT代碼的表現(xiàn)比沒有幫助時高出60%。

B站 BiliBili開源了Index-1.9B模型

Index-1.9B系列是Index系列模型中的輕量版本

1.9B包含：Index-1.9B base : 基座模型，具有 19億非詞嵌入?yún)?shù)量，在2.8T 中英文為主的語料上預訓練，多個評測基準上與同級別模型比處于領先
Index-1.9B pure : 基座模型的對照組，與base具有相同的參數(shù)和訓練策略，不同之處在于嚴格過濾了該版本語料中所有指令相關的數(shù)據(jù)，以此來驗證指令對benchmark的影響
Index-1.9B chat : 基于index-1.9B base通過SFT和DPO對齊后的對話模型，由于預訓練中引入了較多互聯(lián)網(wǎng)社區(qū)語料，聊天的趣味性明顯更強
Index-1.9B character : 在SFT和DPO的基礎上引入了RAG來實現(xiàn)fewshots角色扮演定制

模型：

github：https://github.com/bilibili/Index-1.9B

Index-1.9B-Chat：https:///IndexTeam/Index-1.9B-Chat

Qwen2 接上 SD3 Medium 文生圖

支持中文輸入，會自動優(yōu)化并輸出英文提示詞

工作流：https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

Qwen2 插件：https://github.com/ZHO-ZHO-ZHO/ComfyUI-Qwen-2

DeepSeek-Coder-V2：代碼和數(shù)學能力超越GPT-4的開源模型

DeepSeek-Coder-V2：首個開源模型在編碼和數(shù)學方面超越 GPT4-Turbo

在編碼和數(shù)學方面表現(xiàn)出色，超越 GPT4-Turbo、Claude3-Opus、Gemini-1.5Pro、Codestral。支持 338 種編程語言，上下文長度為 128K。全面開源，提供兩種尺寸：230B（也提供 API 訪問）和 16B。

輸出性能達 5000-10000 token/s，百萬輸出 Token 2元，對標 Mistral 的代碼模型 Codestral，DeepSeek 開源具備頂尖代碼和數(shù)學推理能力的 DeepSeek Coder V2

開放論文，模型和代碼，支持 236B 和 16B，支持微調并開放 API 服務

項目地址：https://github.com/deepseek-ai/DeepSeek-Coder-V2

Google 的 Video-to-Audio 技術

視頻生成模型正在以驚人的速度發(fā)展，但許多當前系統(tǒng)只能生成無聲輸出。讓生成的電影栩栩如生的下一個重要步驟之一是為這些無聲視頻創(chuàng)建配樂。

谷歌分享了視頻轉音頻 (V2A) 技術的進展，該技術使同步視聽生成成為可能。V2A 將視頻像素與自然語言文本提示相結合，為屏幕上的動作生成豐富的音景。

詳情：https://deepmind.google/discover/blog/generating-audio-for-video/

由 Google Imagen 2 模型驅動的字母表生成器

谷歌這個項目可根據(jù)提示詞創(chuàng)造各種字母形式，然后用它來書寫各種內容非常適合制作標題或封面藝術！

傳送門 : https://labs.google/gentype

我也生成了一個：章北海

水果主題

海洋主題

微軟開源的一個文本編碼器Glyph-ByT5-v2。

支持使用十多種語言生成圖片。

還搭配了一個使用這個文本編碼器的 SDXL 模型，可以直接生成中文海報和內容。

從演示來看排版都挺好的。

創(chuàng)建了一個高質量的多語言字形文本和圖形設計數(shù)據(jù)集，包含超過100萬個字形文本對和1000萬個圖形設計圖像文本對，覆蓋另外九種語言；
構建了一個多語言視覺段落基準數(shù)據(jù)集，包括1000個提示，每種語言100個，用于評估多語言視覺拼寫準確性；
采用最新的步進感知偏好學習方法，提高了視覺美學質量。

模型下載：https:///GlyphByT5/Glyph-SDXL-v2

可以在這個 huggingface 空間里面體驗，支持通過畫框進行自定義排版。

https:///spaces/GlyphByT5/Glyph-SDXL-v2

Streamer-Sales：一個直播賣貨大模型

能自動賣貨同時實時回答客戶任何問題??

它能根據(jù)商品特點自動生成吸引用戶的解說文案，支持將語音輸入轉換為文字，便于主播在直播過程中與觀眾互動。

同時還能生成帶有情感的語音輸出，使解說更加生動自然。還能一鍵生成數(shù)字人。

甚至支持 Agent 通過網(wǎng)絡查詢快遞信息。

GitHub: https://github.com/PeterH0323/Streamer-Sales

在線體驗:https:///apps/detail/HinGwenWong/Streamer-Sales

螞蟻開源首個 GraphRAG 框架！

構建生產級別的 AI Native Agent 應用！支持圖可視化和詳細示例代碼！

繼承 DB-GPT 的知識圖譜、向量庫、圖數(shù)據(jù)庫等基礎能力實現(xiàn)
數(shù)據(jù)處理：提供三元組抽取、Cypher插入、TuGraph 存儲
數(shù)據(jù)查詢與生成：查詢關鍵詞抽取，圖相似度匹配

項目地址：https://github.com/eosphoros-ai/DB-GPT

RAG2SQL開源工具

8K Stars！Text2SQL還不夠？試試更精準的RAG2SQL開源工具

官網(wǎng)：https://

Github: https://github.com/vanna-ai/vanna

LlamaIndex 數(shù)據(jù)處理、RAG 、Agentic RAG PPT 和代碼

LlamaIndex團隊在 @databricks舉辦的 @Data_AI_Summit數(shù)據(jù) AI 峰會上分享了如何構建能夠處理復雜文檔的高級 RAG 應用????，幾乎涵蓋了目前數(shù)據(jù)處理、RAG 、Agentic RAG 等頂級前沿的理念并開放了 PPT 和代碼！??

PPT: https://docs.google.com/presentation/d/1yiuHEQEAhWEvVskbD9jwmfjopznVeZGwwWUzBIZ_P9U/edit?usp=sharing

OmniParse：支持多模態(tài)的數(shù)據(jù)結構化的平臺

輸入文檔、表格、視頻、音頻、網(wǎng)頁等數(shù)據(jù)，OmniParse可以把數(shù)據(jù)清洗成結構化的數(shù)據(jù)，然后可以用于微調和RAG。

Github：https://github.com/adithya-s-k/omniparse

Pipecat：一個可用于構建語音和多模態(tài)對話的 AI 開源框架

你可以用它來創(chuàng)建私人教練、會議助手、兒童故事講述玩具、客服機器人等 AI 語音助手。

GitHub：https://github.com/pipecat-ai/pipecat

用機器學習來優(yōu)化人生

找了AI，陪6歲女兒學英語，英國倫敦腔

未來，瀏覽器自帶大模型，免費、離線可用，附教程

我“參加了”阿里巴巴全球數(shù)學競賽決賽，分享一下經驗

搭建機器學習開發(fā)環(huán)境及Python基礎，108頁PDF

116頁PDF小冊子：機器學習中的概率論、統(tǒng)計學、線性代數(shù)

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： ml_Py > 《待分類》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

ml_Py

關注對話

TA的最新館藏

DeepSeek-V3.2 量化版來了
騰訊混元OCR大模型，本地部署，實測
本地部署PaddleOCR，消費級顯卡輕松跑，支持本地圖片和PDF文件
大模型 OCR 的黃金時代，騰訊開源混元OCR，文檔解析、視覺問答和翻譯方面達到 SOTA
【教程】DeepSeek-OCR本地部署（上）：CUDA 升級12.9，vLLM升級至最新穩(wěn)定版
Gemini 3 Pro 實測，一流水準

喜歡該文的人也喜歡更多

熱門閱讀換一換

电竞比分网-中国电竞赛事及体育赛事平台