序很简单,meta这边的工作人员收集大量的违规图片,再把这些图片上的违规内容抠出来作为样本库,这个工作会一直持续下去,完善样本库。
用户上传的图片会先进入到这个程序,和样本库进行对比,设定一个阈值,比如相似度达到80%以上就可以直接过滤了,告诉用户这图我不要。
相似度达到60%左右的才转人工审核,而低于60%的直接放行。
随着样本库的完善,这个程序将会越来越准确,当然,消耗的计算资源也会越来越多。
程序经过两天的测试,人工审核工作量大幅度下降。
王正扭头把这程序再发给国内,小云书上直接挂载就好了。
接下来,迫切需求的还有图片压缩技术。
一般情况下,用数码相机拍出来的照片是raw格式图片,这是原生图片,没有经过任何压缩,照片质量最好。
但是这种图片动辄几十mb甚至上百mb,要是一不小心多拍几张,sd卡就塞不下了。
而且要是用这种格式去做动画或者电影,一秒钟都得1个gb没哪个人受得了这个。
所以用数码相机通常拍摄图片,都是直接把raw格式压缩成jpg格式,就是我们用相机、手机等设备拍摄后所看到的图片,除非手动调整,否则99%默认都是jpg格式。
jpg格式是一种有损压缩技术,就是说它虽然体积小,但是画面质量会有损失。
而且要说体积小,单张照片也有3mb左右,根据相机的画幅有所变动。
meta社区一次最多允许上传9张照片,这些照片的存储要占用30mb左右的空间,如果再做个数据容灾备份,就奔着60mb去了。
随着用户量越来越大,未来还要开通音频、视频服务,meta可能要建上百个数据中心才能满足图片存储的需求。
再有一个原因,30多mb的图片再上传到网页上,流量占用大,网页打开速度慢,也会影响用户的体验和meta的成本。
多图杀猫,就是这么来的。
唯一的解决办法就是,将jpg再次压缩,还要尽可能的保证质量,提高存储效率和传输效率,以此避免客户看到的图片全都是糊的。
但是具体怎么做?万事不决还是要去找u盘。
点击读下一页,继续阅读 牧z 作品《重生2005:互联网神话》第十五章 注册一下专利