时间和经费有限的研究人员,如何做出原创性的实证贡献?答案可能就在你每天阅读的文件里。
对于学习国际性问题的学生来说,我们常常被“数据收集”这件事困扰——田野调查需要时间和经费,访谈需要接触受访者,问卷调查需要大量分发...但其实,最有价值的数据库可能就在你的书桌上。
联合国难民署的报告、安理会的决议、非政府组织的宣传材料——这些文本不仅唾手可得,还能为你的研究提供原创性的实证贡献。
今天,我们就来拆解《跨越边界的研究》第11章的核心内容,看看如何系统化地分析和利用这些文本数据。
一个真实的研究案例:
联合国难民署的十年报告分析
先来看一个元示例,感受一下文本分析的魅力。
研究人员分析了联合国难民署(UNHCR)十年间的报告和呼吁文件,想了解不同年龄群体在这些筹款和项目文件中是如何被呈现的。他们问了两个问题:
与难民中的实际人口比例相比,儿童在联合国难民署的话语表述中是否有不成比例的呈现?
从难民的具体处境出发,不同生命周期阶段的社会建构意义和角色是什么?
为了回答这些问题,研究人员采用了定量+定性的混合方法:
定量分析:对文件中的照片进行编码,按照婴儿、儿童、青少年、成人和老年人五个类别,记录每个年龄类别是否出现在照片中,是作为“主要主题”还是“次要主题”。同时,他们对文件中提及特定年龄段的文本进行了内容分析,统计出现的频次。
结果很有意思:成人出现在最多数量的照片中,但文本中儿童(尤其是女孩)被提及的频次远高于成人。
定性分析:研究人员逐字转录了照片的说明文字,记录了照片中的其他文本信息(如横幅或T恤上的文字),分析照片的内涵意义。他们将内容归纳为十个主题,进一步编码分析。
结果发现:儿童主要在视觉和文本上被与 “脆弱性”及保护、教育和健康联系起来。更有趣的是,文本和照片之间存在矛盾——文本中把童工作为负面问题来讨论,但有几张照片却展示了参与工作的儿童。
这个案例告诉我们几个重要道理:
• 多种定量和定性方法可以结合使用• 代码、编码和编码者的一致性至关重要• 图像也是重要的数据来源• 文本分析可以揭示特定群体被代表的方式中存在的偏见
去哪里获取文件?
五个渠道要知道
1. 图书馆
公共和私人图书馆里藏着大量无法在线获取的一手文件。有时候,亲自去图书馆“浏览”相关文件附近的藏书,可能会给你带来新的研究视角。
2. 档案馆
政府、国际组织、博物馆和一些私人组织都设有档案库。这些档案可能是数字格式的,也可能是实体的。
⚠️ 注意:访问档案往往需要提前申请,了解限制条件。另外要记住,档案馆和博物馆常常是殖民化和国族建设项目的一部分,它们可能只呈现了事件的部分样貌。
3. 信息公开申请
在一些民主国家或民主转型国家,某些政府文件只能通过提交信息获取申请的方式获得。这通常需要特定的程序、特定的理由,有时还要支付费用。
? 小贴士:如果文件包含敏感信息,部分内容可能会被删除。申请需要时间处理,务必把这个时间成本纳入研究设计。
4. 个人的文件副本
地图、信件、日记、会议记录等个人文件,通常需要通过建立个人关系来获取。这可以作为访谈过程或民族志方法的一部分。
5. 社交媒体
一些社交媒体数据是公开的,也有一些是半公开或私有的。一旦获得伦理批准和所需同意,社交媒体信息可以提供丰富的文本和视觉数据,而且几乎不花经费。
⚠️ 挑战:数据量可能难以管理,数据质量差异也很大。
代码和编码:
把混乱的文本变得有条理
分析文本的本质是:识别含义 → 归类为主题 → 分配代码。
需要区分的两种含义:
• 指称性含义:字面、显性或直接的含义• 内涵性含义:由推断或暗示得来的含义
三种类型的代码:
保护信息的代码:如用代码人名保护受访者身份
操作代码:组织和分类信息,如用“METH”表示方法论相关信息
主题代码:帮助分析数据的索引工具,如“脆弱性”
有些主题代码已经被标准化,比如《文化项目分类》提供了数字代码,帮助标准化编码民族志数据。这对于跨越不同案例的比较研究非常有用。
开发代码手册的关键原则:
• 类别要全面:预见所有可能的类别• 类别要互斥:编码者清楚如何对模糊主题进行编码• 定期校准:当多人使用同一套代码时,定期让每个人对相同文本进行编码,确保编码员间信度
编码可以手动,也可以用软件:
• 字典方法:提供单词或短语列表,让软件在文本中“搜索”• 监督式机器学习:手动编码一组“学习文件”,训练计算机以类似方式编码• 无监督机器学习:完全自动化,计算机生成类别并分类文本
三种文本分析方法
1. 内容分析:演绎法
从预先设定的问题或假设出发,将之前开发的代码应用于文本。
步骤:
制定假设或研究问题
创建主题代码代表关键变量
将代码应用于文本(定量计算频次,定性搜索数据支持或反驳假设)
根据发现重新制定或完善假设
案例:普尔克特等人分析了31家全球超市连锁店的企业社会责任报告,研究他们在公共卫生方面做出了哪些承诺。通过分析79个主题,发现大多数主题与公共卫生营养有关,其次是食品治理和食品系统。
2. 扎根理论:归纳法
没有预先设定的主题或代码,主题在与文本互动过程中浮现。
步骤:
① 多次阅读文本,了解浮现的主题
② 根据这些主题开发代码
③ 将相同类别的数据进行比较,看它们如何联系
④ 利用这些联系构建理论
⑤ 辨识文本和引用的例子支持理论
案例:研究人员用扎根理论理解毛利人女性在不安全关系中的自我保护策略。他们通过访谈、焦点小组、媒体报道、传统故事等多种数据,采用原住民集体路径,通过协作式小组讨论,就数据和出现的代码达成共识。
3. 批判话语分析:关注权力关系
侧重于探讨权力如何通过话语构建,并经由话语传达。
步骤:
① 选择研究主题:提出可以通过分析符号学元素与其他元素辩证关系来回答的问题,了解过往话语的“谱系”
② 选择并分析文本:描述文本如何被创建,从单词、短语、文本内部关系、主题优先级等层面分析
③ 考虑社会秩序:改变社会秩序是否必要
④ 确定可能的符号学解决方案:用话语、叙述和论证找到克服障碍的方法
案例:卡明斯等人分析联合国《2030年可持续发展议程》中的话语,发现“技术-科学-经济话语”是实施和目标层面的主导话语,而在愿景和策略层面则有一些多元参与话语的证据。
解读图像:
不只是“看图说话”
照片往往被视为“事实”的客观表现,但其实照片的“真实价值”很暧昧:
• 照片内容可以通过技术手段修改• 呈现什么取决于摄影师的选择• 选用哪张照片取决于编辑的决定• 照片需要放在文本语境中阐释
在分析图像时,要承认研究人员的立场性。正如南迪塔·多格拉所说:“‘阅读’或解码任何给定图像的过程,通常是基于人们的身份和生活经验而以不同方式进行的。”
这也是为什么通过参与式方法生成的视觉数据,应该让参与者自己解释和说明情境信息。
案例:“流离”项目让“加莱丛林”的难民参与摄影,他们接受培训,获得相机,拥有自己拍摄图像的版权,有权编辑图像,决定如何阐释和展示照片。参与者给自己的照片添加标题,英文标题是从他们选择的语言翻译而来。
跨边界的反思:
谁在表现谁?
文本和视觉分析的一个重要贡献是揭露主流话语和文件中的偏见。
在关注全球不平等的国际性项目中,研究人员经常涉及“关注他人的痛苦”。我们有责任反思性地思考自己在这些表现的(再)生产和消费中的立场性。
正如马谢尔·拉默斯所说:“话语分析路径不仅为我们提供了‘他者’‘如何’被表现的见解,还有‘由谁’和出于‘什么原因’而表现的见解。”
冲突、流离失所和贫穷这样的现象存在多个面向,人们在这些情境中有一系列的生活经历。研究人员要做的,是通过视觉和文本表达反映这种复杂性。
写在最后
文字和图像非常重要。在跨边界、跨文化的研究中,对于文字和图像的表现尤为重要。
文件是丰富的文本和视觉数据来源。随着通信技术的发展,研究人员可以更容易地获取许多文本,即便在时间和资源有限的情况下也能做出知识贡献。
无法在线上获取的文件需要更多努力去寻找和获取,但它们可能会对知识作出更大的贡献,或是针对对外公开但不易获得的政策提出更深刻的见解。
你的研究对象,可能就在你每天阅读的文件里。


