本文涉及搜狗实验室数据下载、工具使用和评测相关的常见问题解答,内容如下:
- 1. 什么是搜狗实验室?
搜狗实验室(Sogou Labs)是搜狗搜索核心研发团队对外交流的窗口,包含数据资源、研究合作等几个栏目。我们期望通过这个平台,展现搜狗研发团队强大的研发、创新能力;推动学术界和产业界的交互;了解用户对新产品的需求。我们的目标:为中文网民的互联网生活提供更加全面、更加优质的服务。
- 2. 打开文件发现是乱码
-
除了SogouPic图片库以外,我们现有提供的所有语料都是文本格式的,打开文件是乱码说明您打开的是一个压缩文件包。
解决的方式是:
如果您没有安装任何一种文本解压缩工具,建议您下载.zip格式的文件,在xp系统中可以直接打开这种格式的文件。然后再使用记事本(对于文件大小在1M以下的)或者其他文本编辑工具如editplus,ultraedit(对于大小较大的文件)将其打开。
如果您使用的是linux系统或者再windows系统下安装了winrar 3.5或者以上版本的解压缩软件,您可以直接下载并打开.tar.gz格式的文件
如果您安装了其他解压缩软件,可以下载.zip格式的文件,使用解压缩软件解压并参照前述方法打开。
- 3. 下载的文件包在解压时报错
-
有可能是因为网络原因没有下载到完整的文件包,请使用支持断点续传的http下载工具(如flashget, netants或者sogou工具条自带的下载工具)进行下载。如果还有问题请直接通过lab@sohu-rd.com联系我们。
- 4. 查询日志的可靠性问题
有的朋友怀疑我们所提供的查询日志的数据可靠性问题,为了在不妨碍大家研究便利的情况下保证所发布的数据符合国家互联网管理的相关规定,我们滤去了日志中的涉及反动、色情等内容的查询词。但除此之外,包括查询日志的所有点击、查询信息和次序信息都得到了忠实的保存。SogouLab像任何一位研究人员一样,珍视自己的学术声誉。
- 5. 我如何能跟搜狗实验室联系?
- 6. 我如何加入搜狗实验室?
请参考加入我们的招聘链接,我们会及时给您作出回复,感谢您对搜狗实验室的关注!
