中英双语8K向量大模型新鲜出炉，企业出海必备！

自从我们的 Embeddings V2 获得各界好评后，今日，我们推出了全新的中英双语文本向量大模型：jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势，能够处理长达八千词元的文本，更能流畅应对中英文双语内容，为跨语种的应用插上了翅膀。

jina-embeddings-v2-base-zh 之所以表现卓越，全赖优质的双语数据集，经过我们严格且平衡的 预训练、一阶微调和二阶微调。这种三步走的训练范式不仅泛化了模型的双语能力，更有效的降低了模型偏见，解决了多语言模型时常遭遇到的“不患寡而患不均”的问题。

模型链接：https://jina.ai/embeddings

模型特色一览

特色 1：双语无缝对接

jina-embeddings-v2-base-zh 模型能够流畅处理中英文本，无论是作为搜索查询还是目标文档。中英文本中意义相近的内容都会被映射到相同的嵌入空间，为多语言应用奠定了坚实基础。

特色 2：8k Token 超长文本支持

我们的模型支持长达 8K Token 的文本处理，这在开源向量模型中独树一帜，为处理更长的文本段落提供了显著优势。

特色 3：高效紧凑的模型结构

jina-embeddings-v2-base-zh 模型以 322MB 的轻巧体积（包含 1.61 亿参数），输出维度为 768，能够在普通计算机硬件上高效运行，无需依赖 GPU，极大地提升了其实用性和便捷性。

模型性能卓越

在 CMTEB 排行榜的激烈竞争中，我们的 Jina Embeddings v2 模型在 0.5GB 以下模型类别中脱颖而出，它不仅支持中英文本，而且能够处理高达 8K Token 的文本，这一能力在同类模型中实属罕见。

中英双语8K向量大模型新鲜出炉，企业出海必备！

在同等体积的支持中文的模型中，Multilingual E5 和我们的 jina-embeddings-v2-base-zh 是唯二能够处理英文的模型，这使得跨语言应用成为可能。

中英双语8K向量大模型新鲜出炉，企业出海必备！

目前，全球范围内，仅有 OpenAI 的闭源模型 text-embedding-ada-002 和 Jina Embeddings 能够支持 8k Token 的长文本输入。而在处理中文任务方面，Jina Embeddings 显示出了显著的性能优势。

中英双语8K向量大模型新鲜出炉，企业出海必备！

助力中国企业拓展全球业务

我们的中英双语向量模型 jina-embeddings-v2-base-zh 是中国企业拓展国际业务的得力助手。它能够流畅处理中英双语文本，并提供高质量的向量表示，并轻松与先进的向量数据库、搜索系统以及 RAG 应用相集成。

这款模型特别适合开发适应中英双语环境的 AI 应用，对于渴望全球化的企业来说，它的重要性不言而喻。以下是一些具体的应用实例：

文档分析与管理：分析和管理海量文档，助力国际法律和商务交易的顺利进行。
AI 驱动搜索应用：在多语言环境中提升搜索性能，帮助全球用户轻松找到中英文相关信息。
增强检索的聊天机器人和问答系统：打造高效的双语客服机器人，优化与全球客户的沟通体验。
自然语言处理应用：涵盖全球市场趋势分析、国际市场策略的主题建模，以及全球通讯管理的文本分类。
推荐系统：利用中英数据洞察，为全球多元化受众提供个性化的产品和内容推荐。

利用这个模型，中国企业能够在 AI 应用中有效跨越语言障碍，增强其在全球市场的竞争力和影响力。

轻松上手 jina-embeddings-v2-base-zh

想要快速将我们的双语向量模型融入您的工作流程？只需几个简单步骤：访问 https://jina.ai/embeddings，领取您的免费API密钥或更新现有密钥，然后在下拉菜单中选择 jina-embeddings-v2-base-zh，您的模型即刻准备就绪，等待您的探索和使用！

中英双语8K向量大模型新鲜出炉，企业出海必备！

未来展望：增加更多语言支持和 AWS Sagemaker 集成

jina-embeddings-v2-base-zh 即将在 AWS Sagemaker 和 Hugging Face 上线，为用户带来更便捷的体验。

Jina AI 始终致力于提供高效、优质的向量技术，我们正在积极扩展多语言产品线，特别是欧洲语言和其他国际语言，以满足更广泛的用户需求。敬请期待这些令人兴奋的更新，包括 AWS Sagemaker 集成，我们将持续提升服务的广度和深度。

致谢：感谢早期测试者的宝贵贡献

我们由衷感谢参与 jina-embeddings-v2-base-zh-preview 测试的中国用户社区成员。你们的反馈对于提升官方模型的表现起到了重要作用。如果您对模型有任何建议或意见，欢迎扫描文末二维码，加入我们的微信群，与我们分享您的见解。您的反馈对我们的不断进步至关重要。

在模型的早期版本中，模型曾过度夸大相似度得分，即使是完全不相关的词汇，如“安妮”与“蒸汽机”，也会得到过高的余弦相似度。在正式版本我们优化了模型，确保相似度得分更合理，从而更准确展现内容间关系。此外，Jina Embeddings 现在支持高达 8192 Token 的文本处理，无论是长篇大论还是简短语句，甚至是单个词汇或名字（如“安妮”与“露娜”的比较），都能展现出其处理各种类型数据的强大能力。这一改进不仅提升了模型的准确性，也增强了其在处理多样化数据时的灵活性和实用性。