Así que ahora, donde esto tendrá sentido para la inferencia, apenas encajamos los codificadores Q8 Qwen Coder 3 y Kimi K2 en nuestros H200. Kimi K2 @ Q8 no dejó espacio para un caché kv para el contexto. ¿Podrían estos modelos caber en una sola instancia de 8xB200? Probablemente, lo intentaremos esta semana.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
0/400
ResearchChadButBrokevip
· 07-30 07:23
Quién entiende el caché kv, realmente es un dolor de cabeza.
Ver originalesResponder0
DefiVeteranvip
· 07-28 15:52
La alquimia cuantitativa es bastante complicada.
Ver originalesResponder0
NonFungibleDegenvip
· 07-27 12:20
ngmi con estas especificaciones fr fr
Ver originalesResponder0
FlippedSignalvip
· 07-27 12:18
Este Q8 es una basura total.
Ver originalesResponder0
NotGonnaMakeItvip
· 07-27 12:06
Esta optimización no funciona, no puede llevarlo en absoluto.
Ver originalesResponder0
WalletDoomsDayvip
· 07-27 11:56
La memoria ser liquidado, hermano.
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)