全球快看：AR眼镜可“同声传译” 人工智能现在能有多“聪明”？

北京青年报 2023-05-29 06:11:16

人工智能现在能有多“聪明”？

柔性物流四向车“一车跑全仓”AR眼镜可“同声传译”

全尺寸人形仿生机器人，其身高达1.77米，重量为52公斤摄影/本报记者李娜

(资料图)

正在召开的2023中关村论坛上，“人工智能”无疑是最热门的关键词。无论是自动驾驶还是智能穿戴，是量子计算还是5G通信，甚至碳中和，众多前沿科技的背后都离不开人工智能技术的支持。可以说，未来十年，人工智能将继续改变各行各业以及普通人的生活。在本次论坛国际技术交易大会板块、科博会展览板块，以及人工智能相关平行论坛上，北京青年报记者注意到，各大公司都带来了最新人工智能科技成果，包括视觉通用分割模型SegGPT、5G音视频交互应用、双语数智人等等。

5G通信新应用

可视自助服务带来交互新体验

最新数据显示，我国5G用户已达5.61亿，我国累计建成开通5G基站 231.2万个，全球占比均超过60%。而一季度全国平均5G下载网速为334.98Mbps，峰值下载速率为472.92Mbps。如此快的网速，再加上人工智能的支持，除了用来刷社交网络、日常办公学习，还可以用来做什么？

中国联通此次展出的“5G新通信智能交互平台”，就应用了5G“大带宽、低时延、泛连接”的特点，运用5G音视频交互与AI原子能力，结合AR&VR、三维建模、智能交互等先进技术，做到了5G内生服务下的音视频交互应用。平台运用多媒体、三维建模、实时跟踪、传感、智能交互等技术，实现端到端的可视化、智能化新通信服务，为企业、政府等提供5G音视频交互、智慧虚拟形象等功能。

如金融行业应用版平台，用户可以远程接入银行柜台服务，享受与现场办理同等的体验及个人隐私保护；能源行业应用版平台则重构了井场智能联动系统应用体系，实现了井场资源数字化管理、井场巡护数字化编制。交通行业版平台以5G新通信为基础提供无障碍智能通信服务，为老年乘客提供可视化交互的智慧助老服务。

值得一提的是，该平台在国产化适配与自主可控方面实现了平台与国产手机芯片适配；平台端支持国产化系统，手机侧适配华为麒麟芯片、联发科天玑芯片，支持华为、小米、OPPO、VIVO、魅族系列国产手机。

“数智人”更聪明

与大模型融合能“听懂你的话”

数智人，简单来说就是虚拟人，借助拟人化的外表、人工智能的内核，数智人已经开始在众多行业中商业化落地，辅助人工服务，提升企业运行效率。例如，数智人在金融、文旅、传媒、公共服务、医疗、零售等行业场景中，可担任坐席客服、理财顾问、播报主持、导游导览角色；在文化娱乐场景，可以作为虚拟偶像、虚拟歌手等形成IP资产；在智能车载、智能交通、智能家居等场景，可以通过与智能设备结合，为用户提供智能化服务。

腾讯云智能小样本数智人生产平台近日首次对外发布，只需要3分钟真人口播视频、100句语音素材，平台便可通过音频、文本多模态数据输入，实时建模并生成高清人像，在24小时内制作出与真人近似的“数智人”。相较于照片生成、仅能呈现面部形态的数字人，小样本数智人可根据文本设计手势，唇动、口型、表情复现真人风格。

本届中关村论坛，北青报记者也尝试用数智人虚拟主播，代替真人主播出镜，进行7×24小时的直播服务，吸引了诸多观众关注。

不过，以往的数智人，比起真人来，他们的思考能力明显更弱。此次中关村论坛上，由智谱AI推出的 “智谱AI脑数智人”则更加聪明，它不再拘泥于固定的互动方式，而是初具理解人类指令意图的能力。智谱AI由清华大学计算机系的技术成果转化而来，公司于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B，并主导构建了高精度通用知识图谱，把两者有机融合为数据与知识双轮驱动的认知引擎，并基于此千亿基座模型打造ChatGLM。通过认知大模型链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座，赋予机器像人一样“思考”的能力。此外，它还是一个既会中文又会英文的双语数智人。

“无人驾驶”上街

最新行人预测模型呼之欲出

如今在亦庄等地，已经可以打到百度自动驾驶的车辆。未来，随着技术发展和政策批准后，车上的安全员将会撤出，自动驾驶车辆会实现真正的无人化。

据百度公司介绍，无人驾驶技术核心是“百度汽车大脑Apollo平台”，包括高精度地图、定位、感知、智能决策与控制四大模块。最新的Apollo已经进化到引入多个基于深度学习的模型、发布了基于语义地图的低速行人预测模型、引入了基于语义地图的模仿学习。

在本次中关村论坛上，旷视科技发布了自研智能托盘四向穿梭车系统。旷视智能托盘四向车作为柔性物流系统中的离散型设备，可以实现“一车跑全仓”。为什么说是“柔性物流”？旷视表示，主要是因为它具有离散型设备、分布式控制两大特点，用户企业可以像搭积木一样，根据需要灵活组合，柔性部署。其次，柔性则体现在整个系统的“动态可扩展”，用户企业可以根据淡旺季以及业务增长等变化，随时增减四向车数量，提升系统承载能力。

智慧城市更低碳

AI“管家”水电空调全都管

在智慧城市建设中，AI扮演着越来越重要的角色。例如，AI可以用于城市的基础设施管理，例如自动监测道路、桥梁和建筑物的结构健康状况，以及检测和修复道路上的裂缝和坑洼；AI可以帮助城市管理能源，例如通过分析能源使用数据来实现更高效的能源使用，以及优化城市的能源系统；AI也可以帮助城市保护环境，例如通过空气质量监测、垃圾处理和水资源管理等方面，提高城市的环境质量。

那么，如何利用AI给楼宇减碳来实现碳中和碳达峰的目标呢？恒华数元展示的基于楼宇大脑神经网络系统碳管理平台，从充分利用清洁能源的角度出发，集中引用性价比较高的技术产品应用，遍及楼宇末端传感感知节点和主要用能设备传感感知节点，通过楼宇大脑边缘计算服务器统一协调管理，使楼宇用能设备高效运转，尽可能排除不必要的能源浪费，根据边缘计算模型分析，楼宇各用能子系统能耗曲线处于平稳运行状态下，整体能耗是最低的。

其中，楼宇电力能耗应该占楼宇能耗的首位，针对楼宇弱电系统的特点，在不增加装修施工的基础上，研发出体积更小、计量准确、安装便捷的一套弱电监测及AI控制系统，可以对楼宇的电力系统进行动态的监控，确保无人区及时断电，避免不必要的电力浪费。而楼宇空调系统耗能占到楼宇总能耗的40%，恒华数元通过和高校成立产学研基地深度合作研发出针对楼宇冷、热源系统调优的策略算法，形成了成熟的数据算法模型，使得空调系统节能率达到10%以上。目前，这一项目已在广东、天津、江西、四川、湖北、安徽等省份落地。未来，居住小区、写字楼、商场等，都将向着绿色低碳的方向“进化”。

AR眼镜“同声传译”

智能穿戴设备助力无障碍

随着人工智能融入生活的方方面面，搭载人工智能的设备也趋于小型化，如智能手表可接听电话、回微信、监测运动情况等；智能眼镜外形如普通眼镜，戴上后可以接打电话、听音乐等。

不过，中关村论坛上展示的这一智能眼镜，则更实用。这款名为“亮亮听语者智能眼镜”是一款双目光波导AR智能眼镜。

VR眼镜戴上后会沉浸在虚拟世界，AR眼镜则不会阻挡视线，其将现实世界与虚拟世界进行融合，从而实现一些在现实世界中无法做到的功能。如听力受损人群常常因“听不清”、“听不见”声音而在工作、社交、学习过程中遇到困难，这款眼镜可以将声音信息转换成文字在眼前显示出来。它还具有同声传译功能，可以识别不同国家的语言，同时转换成汉字或者其他国家的文字呈现前，帮助用户在国际语言交流的环境中方便理解。这款眼镜轻巧便携，机身仅重79g，相比于目前市面上200-300g的AR眼镜，其自重非常适合长时间佩戴；还可以适配近视、远视、散光、老花眼等情况的镜片；眼镜外侧不漏光，保护隐私，内容仅自己可见；这款眼镜还搭载了毫秒级实时字幕，降噪算法，5米内精准收音，转译准确率最高可达95%以上。据悉，该款产品目前已经具备量产能力。

隐私保护计算技术开源

应用于金融医疗保险等领域

隐私计算，也叫隐私保护计算，是指在保证数据提供方不泄露原始数据的前提下，对数据进行分析计算的一系列信息技术，实现数据在流通与融合过程中的“可用不可见”，从而实现数据价值的转化和释放。隐私保护计算对隐私数据提供了未来行业亟须的保护能力。本次中关村论坛展览(科博会)上，蚂蚁集团首次公布以关键基础软件为核心的开源完整版图，9大核心技术全部开源，其中就包括隐私计算技术“隐语”。也就是说，这一技术平台面向全球用户开放，可无需调用和开发代码，直接使用产品功能，帮助用户低成本探索隐私计算应用场景。

据介绍，隐语目前已经在金融、医疗、保险等场景应用。如浦发银行联合蚂蚁集团隐语平台，识别出超过14.5万名高风险用户，阻止了数十亿人民币的高风险贷款的发放。在医疗方面，蚂蚁隐私计算平台和阿里云数字医疗团队合作，为医院搭建了面向医院运营管理的数据融合平台，为管理者提供数字化绩效管理分析，帮助医院建立精细化运营管理体系，减少医院的经济风险或临床风险。此外，过往保险机构在理赔过程中，通过向医疗机构明文(即数据不加密)查询被保险人的诊疗情况，将会获得不必要的原始数据。而蚂蚁的解决方案通过设定数据逻辑查询，利用多方安全计算等隐私计算技术，使得保险公司只获得是否理赔的查询结果，不会获得各种原始数据，保护理赔用户隐私。

声音

大模型将改变世界开发的同时应研究控制技术

ChatGPT是2023年最引人关注的科技界新事物之一，它的发布也引发了语言大模型狂潮，百度、阿里、知乎、商汤、京东等多个公司纷纷推出了其大模型。AI另一个重大领域——视觉GPT也亮相本届中关村论坛：智源研究院视觉团队正式推出通用分割模型 SegGPT，这是首个利用视觉提示完成任意分割任务的通用视觉模型。

据介绍，SegGPT使用时，摈弃语言类大模型的传统思维，与机器交互时不使用文字而是使用图像。比如用户给出SegGPT一张图并在上面将“彩虹”圈了起来，当用户再给许多张包含有彩虹的图片时，SegGPT就能自动识别上面的彩虹，并将这些部分圈出来。可以说，SegGPT “一通百通”：给出一个或几个示例图像和意图掩码，模型就能get用户意图，“有样学样”地完成类似分割任务。此外，SegGPT还“一触即通”：通过一个点或边界框，在待预测图片上给出交互提示，识别分割画面上的指定物体。利用这个特性，可以实现诸多功能，比如机器人机械手去拿西红柿等物件时，机器人就可以迅速知道西红柿的边缘在哪里，既能拿起西红柿，又不会捏碎，十分精准。

目前，国内大模型处在百花齐放、百家争鸣的状态下。百度创始人、董事长兼CEO李彦宏在中关村论坛上表示，人工智能再次成为人类创新的焦点，越来越多的人认可第四次产业革命正在到来。他强调：“大模型改变了人工智能，大模型即将改变世界。”中国工程院院士、中国人工智能学会理事长戴琼海也表示，人工智能将带来多个方面的应用变革：面向科学研究新范式(宇宙起源、自然规律、生命奥秘)；面向人民生命健康(AI药物研发、远程虚拟手术)；面向经济主战场(虚拟创造、工业制造、灵境交互)；面向国防重大需求(多源态势分析、AI地空战线部署)等等。

值得关注的是，面对新变化，也有人提出了警示。创新工场董事长、首席执行官李开复表示，“AI仍会出错，会一本正经地胡说八道，它只能被应用于生成内容初稿、开拓想法，而不能作为最终版本，AI需要持续的人工干预，避免谬误或灾难发生。此外，AI可能还存在一些法律及伦理问题，因此，AI并非适合所有的领域，只能应用于容错度较高的应用中。”李开复强调，“AI可能制造虚假信息，可能被不法分子利用来做针对性的欺骗用户，因此，开发时，需要同时研究控制AI的技术和管理的法律法规。”

本版文/本报记者温婧

统筹/余美英

(北京青年报)

X 关闭

相关文章