AI数字人主播是怎么实现的？ - HelloWorld开发者社区

AI数字人就是把主播形象或者IP形象通过克隆系统克隆出来，他跟你的微表情、动作、音色都是一样的，就是克隆出一个数字化的主播和IP。

作为商家，以后要拍摄短视频，要直播带货，就不再需要真人主播了，真人主播对企业来讲不仅成本高，每天工作时间也有限，只需要把你的主播和IP形象克隆出一个数字人就可以了，一天出几百条视频，也可以7*24小时直播。

随着元宇宙概念的兴起，数字人变得更加引人注目，吸引了众多企业和资本的广泛兴趣和投资。

因为他们具有独特的优势：比如不需要休息，不会情绪波动，不请假，不需要薪水，也不会离职。可以全天候工作，成为代替真人出镜，或者帮助企业直播的忠实助手。也有很多公司、品牌把数字人做为自己的品牌代言人，以减少与真人代言人相关的风险。

比如天猫数字主理人AYAYI，百度发布的数字虚拟人希加加，与快餐巨头麦当劳展开了合作，一夜爆火的柳夜熙与娇韵诗合作等等。
数字人越来越多的走进了直播间，走到镜头前，那么，这些数字人都是如何实现的呢？

第一步：您需要录制主播正视镜头说话的5分钟高清视频，上传到青否数字人saas系统的克隆端（这里：zhibo175)

包括两种训练素材和推理素材

一、训练素材录制要求

1、视频时长

训练素材要求5-10分钟；

2、拍摄要求

推荐直接用剪映录制，如果用相机更好；

分辨率要求 >= 1080*1920（推荐分辨率为4K），fps不能低于25帧；

拍摄主要影响因素是噪音，其次是灯光。

3、噪音

录制时要求环境安静不能有噪音，爆音，回音，最好选择安静的环境拍摄，有降噪麦克风。

4、灯光

灯光要求保证人物脸部，嘴巴，牙齿等五官细节清晰可见，光线均匀，无阴影。

5、视频画面

人物头像不能超过屏幕1/3，人脸尺寸大于300*300px；录制时推荐绿幕背景，后期可以更换各种背景；绿幕平整无褶皱，人距离绿幕2米远。
AI数字人主播是怎么实现的？
6、口播内容

内容不限，推荐选模特熟悉的内容，准备6000字文稿；讲的过程说错也没关系，继续讲就可以；千万不要一直说重复的内容。

7、服饰妆造注意事项

避免反光材质衣物；避免半透丝纱材质衣物；避免蕾丝材质的衣物；避免与绿幕相近的衣物以及绿色元素；

首饰：避免佩戴宽松易滑动晃动的首饰，比如项链、容易晃动的耳环（耳钉是可以的）、带链子的眼镜；

妆发：妆容自然得体，头发整理好避免出现散发碎发以及发缝；

8、人物动作

动作自然，与应用场景匹配；动作尽量通用，避免指向性动作；手不挡脸，抬手不过肩；表情动作自然，避免大角度侧脸；避免身体晃动，避免大幅度和迅速的动作；

口播时，嘴巴注意张开，口齿清晰，发音标准，说话速度不能太快；避免舔嘴，吞咽，撅嘴，皱眉，摸头，摸脸等小动作。

9、其他注意事项

人物面部不能有遮挡，灯光要求脸部轮廓，牙齿嘴唇清晰可见；人物不能过分瘦脸，美白，可能造成轮廓不清晰

二、推理素材录制要求

1、拍摄要求同训练视频一致；

2、素材要求20-30s；

3、录制过程中全程静默，不说话，前5s不动，中间做通用手势，肢体动作，表情动作自然，后5s不动。

拍摄完成之后，将视频上传到青否数字人SaaS系统的克隆端。

第二步：根据青否数字人SaaS系统（🌏：zhibo175）提供的超详细课程，针对主播形象自动进行克隆训练。

克隆出的数字人主播妆容、神情、动作与真人主播100%一致，完美还原真人主播的微表情，动作和声音。克隆后的数字人保证了企业IP的唯一性和稳定性。

以上就是克隆数字人的详细教程。

二.数字人的声音也很重要，数字人一般有两种驱动方式，一种是文本驱动，一种是真人声音驱动。

1.文本驱动是用AI合成的声音输出来配合数字人，青否数字人系统可以输出最多140种语言，服务全球用户，可选择301种音色，还可以克隆出来你的专属音色，满足不同类型的主播需求。

2.AI合成的声音还有一种更高级的存在，就是克隆自己的声音，用自己克隆的声音匹配自己的数字人模型，口型匹配度非常高，数字人更容易达到以假乱真的水平，但声音克隆的成本在时面上比较高，一般费用要8000元或更多，而青否数字人独立部署之后无限克隆声音，没有其他的收费。

以上是通过青否数字人系统源码克隆数字人的步骤，可以是用数字人进行24小时不间断直播，成为众多数字人主播的一员！

Andriod第三方源码分析