中英双语8K向量大模型新鲜出炉,企业出海必备!

迭代冰川
• 阅读 262

自从我们的 Embeddings V2 获得各界好评后,今日,我们推出了全新的中英双语文本向量大模型:jina-embeddings-v2-base-zh。此模型不仅继承了 V2 的全部优势,能够处理长达八千词元的文本,更能流畅应对中英文双语内容,为跨语种的应用插上了翅膀。

jina-embeddings-v2-base-zh 之所以表现卓越,全赖优质的双语数据集,经过我们严格且平衡的 预训练、一阶微调和二阶微调。这种三步走的训练范式不仅泛化了模型的双语能力,更有效的降低了模型偏见,解决了多语言模型时常遭遇到的“不患寡而患不均”的问题。

模型链接:https://jina.ai/embeddings

模型特色一览

特色 1:双语无缝对接

jina-embeddings-v2-base-zh 模型能够流畅处理中英文本,无论是作为搜索查询还是目标文档。中英文本中意义相近的内容都会被映射到相同的嵌入空间,为多语言应用奠定了坚实基础。

特色 2:8k Token 超长文本支持

我们的模型支持长达 8K Token 的文本处理,这在开源向量模型中独树一帜,为处理更长的文本段落提供了显著优势。

特色 3:高效紧凑的模型结构

jina-embeddings-v2-base-zh 模型以 322MB 的轻巧体积(包含 1.61 亿参数),输出维度为 768,能够在普通计算机硬件上高效运行,无需依赖 GPU,极大地提升了其实用性和便捷性。

模型性能卓越

在 CMTEB 排行榜的激烈竞争中,我们的 Jina Embeddings v2 模型在 0.5GB 以下模型类别中脱颖而出,它不仅支持中英文本,而且能够处理高达 8K Token 的文本,这一能力在同类模型中实属罕见。

中英双语8K向量大模型新鲜出炉,企业出海必备!

在同等体积的支持中文的模型中,Multilingual E5 和我们的 jina-embeddings-v2-base-zh 是唯二能够处理英文的模型,这使得跨语言应用成为可能。

中英双语8K向量大模型新鲜出炉,企业出海必备!

目前,全球范围内,仅有 OpenAI 的闭源模型 text-embedding-ada-002 和 Jina Embeddings 能够支持 8k Token 的长文本输入。而在处理中文任务方面,Jina Embeddings 显示出了显著的性能优势。

中英双语8K向量大模型新鲜出炉,企业出海必备!

助力中国企业拓展全球业务

我们的中英双语向量模型 jina-embeddings-v2-base-zh 是中国企业拓展国际业务的得力助手。它能够流畅处理中英双语文本,并提供高质量的向量表示,并轻松与先进的向量数据库、搜索系统以及 RAG 应用相集成。

这款模型特别适合开发适应中英双语环境的 AI 应用,对于渴望全球化的企业来说,它的重要性不言而喻。以下是一些具体的应用实例:

  • 文档分析与管理:分析和管理海量文档,助力国际法律和商务交易的顺利进行。
  • AI 驱动搜索应用:在多语言环境中提升搜索性能,帮助全球用户轻松找到中英文相关信息。
  • 增强检索的聊天机器人和问答系统:打造高效的双语客服机器人,优化与全球客户的沟通体验。
  • 自然语言处理应用:涵盖全球市场趋势分析、国际市场策略的主题建模,以及全球通讯管理的文本分类。
  • 推荐系统:利用中英数据洞察,为全球多元化受众提供个性化的产品和内容推荐。

利用这个模型,中国企业能够在 AI 应用中有效跨越语言障碍,增强其在全球市场的竞争力和影响力。

轻松上手 jina-embeddings-v2-base-zh

想要快速将我们的双语向量模型融入您的工作流程?只需几个简单步骤:访问 https://jina.ai/embeddings,领取您的免费API密钥或更新现有密钥,然后在下拉菜单中选择 jina-embeddings-v2-base-zh,您的模型即刻准备就绪,等待您的探索和使用!

中英双语8K向量大模型新鲜出炉,企业出海必备!

未来展望:增加更多语言支持和 AWS Sagemaker 集成

jina-embeddings-v2-base-zh 即将在 AWS Sagemaker 和 Hugging Face 上线,为用户带来更便捷的体验。

Jina AI 始终致力于提供高效、优质的向量技术,我们正在积极扩展多语言产品线,特别是欧洲语言和其他国际语言,以满足更广泛的用户需求。敬请期待这些令人兴奋的更新,包括 AWS Sagemaker 集成,我们将持续提升服务的广度和深度。

致谢:感谢早期测试者的宝贵贡献

我们由衷感谢参与 jina-embeddings-v2-base-zh-preview 测试的中国用户社区成员。你们的反馈对于提升官方模型的表现起到了重要作用。如果您对模型有任何建议或意见,欢迎扫描文末二维码,加入我们的微信群,与我们分享您的见解。您的反馈对我们的不断进步至关重要。

在模型的早期版本中,模型曾过度夸大相似度得分,即使是完全不相关的词汇,如“安妮”与“蒸汽机”,也会得到过高的余弦相似度。在正式版本我们优化了模型,确保相似度得分更合理,从而更准确展现内容间关系。此外,Jina Embeddings 现在支持高达 8192 Token 的文本处理,无论是长篇大论还是简短语句,甚至是单个词汇或名字(如“安妮”与“露娜”的比较),都能展现出其处理各种类型数据的强大能力。这一改进不仅提升了模型的准确性,也增强了其在处理多样化数据时的灵活性和实用性。

中英双语8K向量大模型新鲜出炉,企业出海必备!

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
1年前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
4年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
4年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
4年前
Android蓝牙连接汽车OBD设备
//设备连接public class BluetoothConnect implements Runnable {    private static final UUID CONNECT_UUID  UUID.fromString("0000110100001000800000805F9B34FB");
Stella981 Stella981
4年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
暗箭伤人 暗箭伤人
2年前
【www.ithunter.club】 20230922下午
不容易的2023年,我们一起努力【www.ithunter.club】(2023092208:00:00.8872062023092216:00:00.887206)1.人事招聘专员数名(可选远程或入职)2.招聘向坐标东京Yahoo、Shift、L
Python进阶者 Python进阶者
2年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这